OCR en archivos PDF

El proceso de generar un OCR a partir de archivos pdf es bastante complicado. En caso de tener un archivo, que esta compuesto de scans de una revista, es necesario que la calidad del scan sea optima para poder asegurarnos que no estamos afectando el proceso de OCR. Esto impone que necesitemos scanear con una calidad alta, lo que va a generar archivos de mucho tamaño.

Es parte del proceso de OCR, siempre dependiendo la herramienta que usemos, que las imágenes que componen un pdf sean convertidas a blanco y negro y sean rasterizadas (convertidas de pixeles a vectores) para que el proceso de OCR pueda detectar de forma correcta las letras. En esa conversión podemos perder calidad de las imágenes, por eso es que tenemos que tener bastante en cuenta si para el resultado de todo este proceso vamos a utilizar una archivo nuevo (con imágenes procesadas) o vamos a guardar el OCR en el archivo original con la calidad original. Esto afecta directamente la visualización del archivo, si queremos mostrar el archivo en algún sitio web, vamos a tener que crear un archivo con la menor cantidad de peso posible, para que pueda ser relativamente accesible mediante una conexión a internet. Pero también podemos tener la posibilidad de descargar el archivo original.

Estuve probando OCRMyPDF🡭 y funciona bastante bien. Lo probe sobre revistas antiguas que fueron digitalizadas y convertidas a pdf y la verdad es que pudo leer los archivos completos. Por debajo, esta librería utiliza [[tesseract]] que es la librería base y pionera de todos los proyectos de OCR.

El tema es que hacer una vez que tenemos los datos generados del PDF, donde irían? Como los deberíamos guardar? Como los deberíamos procesar?

Esto podría estar relacionado con [[vector-database]] y [[solr]]

2025-08-07

Volví a probar las opciones que hay disponibles. Para hacer [[proofreading]] lo mejor es usar [[scribeocr]]. Es un proyecto open source del que puedo usar solo el front. Y conectarlo de alguna manera con un procesador de ocr en python ([[tesseract]]) y después con el backend de [[archivoar]] ?