Las imágenes escaneadas convertidas a PDF que se han grabado con OCR después para que el texto pueda buscarse normalmente contienen las partes de texto representadas como "invisibles". Entonces, lo que ves en la pantalla (o en el papel cuando está impreso) sigue siendo la imagen original. Pero cuando busque con éxito, obtendrá los aciertos resaltados que están en el texto invisible.
Te recomiendo que mires las herramientas de línea de comandos derivadas de XPDF pdffonts(.exe)
, pdfinfo(.exe)
y pdftotext(.exe)
. Vea aquí descargas: http://www.foolabs.com/xpdf/download.html
Ejemplo de uso de pdffonts
:
C:\downloads\> pdffonts cisco-ip-phone-7911-guide6.1.pdf
name type emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
LGOKFL+Univers-BlackOblique Type 1C yes yes no 13171 0
LGOKGM+Univers-Black Type 1C yes yes no 13172 0
[....]
Este PDF utiliza fuentes (indicados por la columna 'nombre'), ellos incorporado tiene (indicado por el 'sí' en el columna 'emb') y utiliza fuentes de subconjunto (indicadas por 'sí' en la columna 'sub').
C:\downloads\> pdffonts examle1.pdf
name type emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
Univers-BlackOblique Type 1C yes no no 14 0
Arial TrueType no no no 15 0
Este PDF utiliza 2 fuentes (indicadas por la columna 'nombre'). La fuente 'Universe-BlackOblique' está incrustada por completo (indicada por el 'sí' en la columna 'emb' y el 'no' en la columna 'sub'). La fuente 'Arial' también se usa, pero no está incrustada.
C:\downloads\> pdffonts examle2.pdf
name type emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
Este PDF no utiliza una sola fuente, y por lo tanto no tiene ningún texto incrustado (OCR por lo que no tampoco).
Ejemplo de uso de pdftotext
:
C:\downloads\> pdftotext^
-layout^
cisco-ip-phone-7911-guide6.1.pdf^
cisco-ip-phone-7911-guide6.1.txt
Esto extraerá todas las cadenas de texto desde el PDF (tratando de preservar una cierta semejanza de la disposición original). Si no hay ningún texto en el PDF, sabría que no había OCR ...
Intenté su enfoque pero ¿algún comando escaneado de pdffile "pdffonts" aún devolvía la fuente Helvetica? ¿Puede explicarme o guiarme cómo puedo lograr esto de manera más precisa? Gracias –
@DanglingPiyush: Sin una muestra de un archivo Scan-PDF de este tipo, no puedo decir de dónde proviene Helvetica. ¿Puedes proporcionar una página de muestra que muestre este comportamiento? –
http://www.fileconvoy.com/dfl.php?id=gcc3a2153e00e0a7699953105370fc438c2a90509b Este es el enlace al PDF de muestra que contiene solo imágenes escaneadas pero pdffonts muestra Helvectica Font. Por favor échele un vistazo. –