Para trabajar con Chatbots de IA y con programas como Zotero, es conveniente que los archivos PDF tengan “capacidad de búsqueda” de texto.
Es frecuente que los archivos PDF de documentos, libros, escritos, solo contengan imágenes de los documentos escaneados. Es el caso de los expedientes electrónicos del SISE.
Si bien se puede leer esos documentos PDF en Zotero, como son solo imagen, no es posible realizar búsquedas, seleccionar y copiar texto.
Lo ideal es realizar Reconocimiento Óptico de Caracteres (OCR) para obtener un PDF con texto seleccionable, copiable y con capacidad de búsqueda.
El OCR en un PDF no altera las imágenes, el texto queda “incrustado” en el PDF como una capa invisible.
Adicionalmente, para trabajar con Chatbots IA en línea (Claude, ChatGPT, Gemini etc) con documentos que contienen datos personales o confidenciales, se deben eliminar ese tipo de datos. ¿Por qué? Porque se pierde el control de los archivos subidos y no se pueden eliminar; además las empresas pueden esos datos para entrenar sus modelos.
Para eliminar datos personales en documentos PDF se deben editar las imagenes antes de realizar el OCR en los mismos Chatbots, o bien, realizar OCR del documento y eliminar las palabras, o frases de datos personales.
Diagrama del proceso OCR:
SOFTWARE OCR PARA PDF
En los siguientes videos (de terceros) se explica en qué consiste el OCR, y las distintas alternativas de software que realizan OCR.
Programas PDF OCR profesionales
Pros: OCR de alta calidad; velocidad de OCR; capacidad realizar proceso OCR en muchos archivos al mismo tiempo; seguridad.
Contras: Precio
ABBYY FineReader PDF
|
MX$ 3,300 al año
|
Adobe Acrobat Pro
|
MX$ 6,600 al año
|
Power PDF kofax.com
|
MX$ 2,450 una sola vez
|
Un programa eficiente es Power PDF
Puedes descargar una versión de prueba de PowerPDF, de 15 días:
Servicios online gratis
Pros: gratis.
Contras: NO hay control sobre el destino del archivo.
OCR de media o baja calidad. No es recomendable usar servicios en línea para documentos legales en resguardo de los juzgados.