OCR: Sistemas para convertir imágenes en texto editable.

Por Emilio Lara, Técnico de sistemas

¿Qué significa OCR? Son las siglas inglesas de Optical Character Recognition, que es el proceso al que sometemos las imágenes o archivos PDF cuando queremos extraer el texto que hay en ellos para convertirlo en texto editable. Existen multitud de herramientas que nos ayudan muchísimo en esta labor, sin embargo no existe el software perfecto que nos extraiga el texto, el formato y la maquetación tal y como desearíamos. Por este motivo me gustaría hablar en este post sobre las distintas herramientas OCR que suelo utilizar desde nuestra agencia de traducción para que podáis enfocar cada proyecto de la forma más conveniente.

Para empezar, hay una cuestión que se debe tener en cuenta siempre antes de empezar un proyecto de este tipo: ¿Existe el documento original?

Me explico: por lo general, toda imagen o archivo PDF se ha obtenido a partir de un documento original (archivos de Office, InDesign, Photoshop, QuarkXpress, Illustrator…). Ese archivo es importantísimo, ya que tenerlo o no puede ser la diferencia entre ahorrarse una cantidad de tiempo y de trabajo muy grandes. Además, en caso de tenerlo, el resultado final sería infinitamente mejor, ya que mantendríais la maquetación original y solo estaríais tocando el texto.

En caso de tener el documento original no creo que estuvierais leyendo este post. El problema viene cuando solo tenéis el PDF o la imagen y estáis solos ante el peligro. Obviamente, extraer el texto a mano es una mala idea (a no ser que sea un documento muy pequeño), así que vamos a echar mano de las herramientas OCR. Empezamos:

– Adobe Acrobat Pro

El lector de PDF por excelencia tiene su propio sistema de OCR. Para ello solo tenéis que ir a Archivo>Guardar como…>Microsoft Word y seleccionar la versión de Word que prefiráis.

A favor: Copia el PDF en una versión Word, intentando emular la maquetación del documento. Es muy recomendable para archivos PDF que precisen maquetación y cuyo documento original fuera .doc.

En contra: Si el PDF no tiene una muy buena calidad suele sacar mucha basura (saltos de página, retornos de carro, cambios de formato…).

– Omnipage

Este programa fue uno de los primeros que descubrí y funciona muy bien para archivos en lote. Tiene un asistente que te permite automatizar el proceso de OCR para múltiples archivos a la vez.

A favor: Si tenéis varios archivos PDF es la mejor opción. Tener que abrir uno por uno en Acrobat e ir guardándolos es una pérdida de tiempo que podemos ahorrarnos con Omnipage.

En contra: A veces da problemas de compatibilidad con ciertos tipos de archivo y la calidad del OCR también es mejorable.

– ABBYY FineReader

Para mí, el mejor OCR que existe ahora mismo. Además de extraer el texto de manera eficaz y sin apenas errores, es capaz de recrear la maquetación del documento sin perder demasiada calidad, incluso si es un documento de mala calidad. Además tiene un corrector propio para corregir la extracción de texto entre otras muchas opciones.

A favor: Trabaja muy bien con archivos de prácticamente cualquier tipo de calidad. Además permite exportar nuestro resultado a Word directamente.

En contra: De momento no he encontrado nada muy significativo.

– OCRs Online

A decir verdad, los OCR online no me inspiran mucha confianza, pero hay que admitir que en caso de urgencia son útiles. Existen cientos de ellos, que en caso de no disponer de ninguna de las opciones anteriores, es una buena elección.

A favor: Teniendo una conexión a internet, puedes usarlo desde cualquier parte del mundo en caso de que no dispongas de ningún software instalado.

En contra: Yo no lo usaría con documentos que tengan información delicada, nunca se sabe. Además, esta opción es en caso de urgencia, ya que no dispongamos de las anteriores opciones.

Por supuesto, además de las ya citadas, existen multitud de opciones que os pueden servir para este propósito, pero estas son las que yo normalmente uso y son las que mejor resultado me dan.

Como último consejo, es muy recomendable que os instaléis (si no lo tenéis ya) las TransTools Utilities. Son un conjunto de macros creadas para Office que agilizan muchos procesos. Incluye opciones que permiten optimizar el resultado que obtenemos de los OCR de forma automática, como por ejemplo eliminar retornos de carro inútiles, dobles espacios y saltos de sección o igualar el formato del texto para evitar que aparezcan molestas etiquetas a la hora de trabajar con una herramienta de traducción. Genial si sois traductores profesionales.

Espero haberos ayudado un poco con estos consejos, pero si tenéis alguna recomendación propia no dudéis en comentar para que todos podamos seguir aprendiendo.

¡Hasta otra!