4 formas de convertir imagen a texto editable con sistemas OCR

Emilio Lara

hace 10 años

Si necesitas convertir una imagen a texto editable, tenemos la solución. Para poder traducir con la mejor calidad posible y con comodidad, es necesario poder acceder a archivos con texto editable. Esto no siempre es posible y tenemos que enfrentarnos a la traducción de texto incrustado en imágenes o archivos PDF. Para ello, lo mejor es el OCR. ¿Quieres saber más? Sigue leyendo.

¿Cómo convertir una imagen a texto editable y cómo el OCR lo hace posible?

Cuando queremos convertir un archivo PDF a texto editable, lo primero que se viene a la mente es OCR. Estas son las siglas inglesas de Optical Character Recognition, que no es más que el proceso al que sometemos las imágenes o archivos PDF cuando queremos extraer el texto que hay en ellos para convertirlo en texto editable.

Existen multitud de herramientas que nos ayudan muchísimo en esta labor, sin embargo no existe el software perfecto que nos extraiga el texto, el formato y la maquetación tal y como desearíamos. Por este motivo me gustaría hablar en este post sobre las distintas herramientas OCR que solemos utilizar en nuestra agencia de traducción, con sus ventajas y desventajas, para que seas tú quién decida cual es el mejor OCR para tus necesidades.

Convertir PDF a texto editable o word con software OCR

Para empezar, hay una cuestión que se debe tener en cuenta siempre antes de empezar un proyecto de este tipo: ¿Existe el documento original?

Por lo general, toda imagen o archivo PDF se ha obtenido a partir de un documento original (archivos de Office, InDesign, Photoshop, QuarkXpress, Illustrator…). Ese archivo es importantísimo, ya que tenerlo o no puede ser la diferencia entre ahorrarse una cantidad de tiempo y de trabajo muy grandes. Además, en caso de tenerlo, el resultado final sería infinitamente mejor, ya que mantendríais la maquetación y formato original y solo estaríais tocando el texto.

El problema viene cuando solo se tiene acceso el PDF o la imagen y nos encontramos solos ante el peligro. Obviamente, extraer el texto a mano es una mala idea (a no ser que sea un documento muy pequeño), así que vamos a echar mano de las herramientas OCR. Empezamos:

1) Adobe Acrobat DC

El lector de PDF por excelencia tiene su propio sistema de OCR. Para ello, solo tenéis que ir a Archivo>Guardar como…>Microsoft Word y seleccionar la versión de Word que prefiráis.

A favor: Convierte archivos de PDF a Word, intentando emular la maquetación del documento. Es muy recomendable para archivos PDF que precisen maquetación y cuyo documento original sea .doc o .docx.

En contra: Si el PDF no tiene una muy buena calidad suele sacar mucha basura: saltos de página, retornos de carro, cambios de formato…

2) Omnipage

Este programa es muy popular y funciona muy bien para procesar lotes de archivos. Tiene un asistente que te permite automatizar el proceso de OCR para múltiples archivos a la vez.

A favor: Si tienes que convertir varios PDF a texto editable es la mejor opción. Tener que abrir uno por uno en Acrobat e ir guardándolos es una pérdida de tiempo que podemos ahorrarnos con Omnipage.

En contra: A veces da problemas de compatibilidad con ciertos tipos de archivo y la calidad del OCR también es mejorable.

3) ABBYY FineReader

Para muchos, es el software que ofrece el mejor OCR. Además de extraer el texto de manera eficaz y sin apenas errores, es capaz de recrear la maquetación del documento sin perder demasiada calidad, incluso si es un documento de mala calidad. Además tiene un corrector propio para la extracción de texto entre otras muchas opciones.

A favor: Trabaja muy bien con archivos de prácticamente cualquier tipo de calidad. Además permite exportar nuestro resultado a Word directamente y se integra con el software de Office.

En contra: Puede abrumar con la gran cantidad de opciones y formatos compatibles. Pero es un problema menor que se soluciona con la práctica.

4) Servicio OCR Online

A decir verdad, la opción de convertir imagen a texto mediante un sistema OCR online no me inspira mucha confianza. Sin embargo, hay que admitir que en caso de urgencia son útiles. Existen cientos de ellos, que en caso de no disponer de ninguna de las opciones anteriores, es una buena elección.

A favor: Teniendo una conexión a internet, puedes usarlo desde cualquier parte del mundo en caso de que no dispongas de ningún software instalado.

En contra: Yo no lo usaría con documentos que tengan información delicada, nunca se sabe en qué servidores pueden acabar nuestros documentos (o los del cliente). Además, esta opción es en caso de urgencia.

Por supuesto, además de las ya citadas, existen multitud de opciones que os pueden servir para este propósito, pero estas son las que yo normalmente uso y son las que mejor resultado me dan.

¿Puedo mejorar la extracción OCR al convertir imagen a texto?

Como último consejo, es muy recomendable que os instaléis (si no las tenéis ya) las TransTools Utilities. Son un conjunto de macros creadas para Office que agilizan muchos procesos. Incluye opciones que permiten optimizar el resultado que obtenemos de los OCR de forma automática, como por ejemplo eliminar retornos de carro inútiles, dobles espacios y saltos de sección o igualar el formato del texto para evitar que aparezcan molestas etiquetas a la hora de trabajar con una herramienta de traducción. Genial si sois traductores profesionales.

Espero haberos ayudado un poco con estos consejos, pero si tenéis alguna recomendación propia no dudéis en comentar para que todos podamos seguir aprendiendo.

Por Emilio Lara, Técnico de sistemas

Emilio Lara