2012-02-04 101 views
5

Tengo algunos archivos PDF y estoy tratando de cortar y pegar texto que contienen desde Acrobat Reader en un formulario HTML. Parece que algunos de estos archivos usan (sospecho) unicode para la codificación de texto, así que cuando intento pegarlo en el formulario HTML (en firefox) obtengo las casillas con caracteres hexadecimales en lugar de texto legible. El problema no es que el PDF no haya sido OCRed: cuando trato de hacer eso en Acrobat Pro, dice que no puede porque el archivo ya contiene texto renderizable. ¿Hay alguna forma de lidiar con esto? Por ejemplo, ¿podría agregar algún tipo de javascript al formulario que haría la conversión?Cómo cortar y pegar desde PDF con codificación que no sea ASCII?

Respuesta

8

¿Puede pegar texto copiado del archivo en otros programas como el Bloc de notas o Word o cualquier otro?

Algunos archivos PDF se producen sin información especial que es crucial para la extracción exitosa de texto de ellos. Incluso con las herramientas de Adobe. Básicamente, dichos archivos no contienen información de mapeo de glifo a personaje.

Dichos archivos se mostrarán e imprimirán muy bien, pero el texto de ellos no se puede copiar ni extraer correctamente.

Por ejemplo, Distiller produce dichos archivos cuando se utiliza el preajuste "Tamaño de archivo más pequeño".

+1

El mismo resultado no importa dónde lo pegue: bloc de notas, Word, etc. Creo que quizás tenga razón sobre el archivo PDF. Si abro este archivo en Acrobat Pro, copio parte de su texto, luego abro una nota adhesiva e intento pegar el texto, obtengo cuadros en lugar de caracteres. Entonces, incluso Acrobat no puede tratar este texto. – Steve

1

Es muy posible que el texto contenga caracteres que se copian correctamente pero su navegador no puede mostrarlos, debido a la falta de letra adecuada. Un documento PDF puede contener fuentes incrustadas, por lo que Adobe Reader muestra los caracteres en Aceptar, pero un navegador no tiene acceso a esas fuentes.

Puede verificar si este es el motivo al intentar copiar y pegar los caracteres aquí (de todos modos, podría ser información útil sobre el problema). También puedes descargar e instalar el Code200x fonts, que contiene prácticamente cualquier personaje que normalmente puedas encontrar. (No está garantizado, pero es probable, que Firefox pueda usar esas fuentes automáticamente cuando sea necesario.)

+0

Probé las fuentes, sin ayuda. Además, cuando pegué los caracteres en IDE (Komodo) y dije que la codificación predeterminada cp-1252 no era adecuada, y cuando cambié a codificación para unicode, me sentí feliz. – Steve

3

que tienen el mismo problema ... De hecho se explica aquí: http://forums.adobe.com/thread/915012

Mi solución fue convertir el PDF a Word utilizando la herramienta de exportación de Acrobat y luego extraer la información que necesito de ella.

Es frustrante pero eso funciona.

Otra solución que encuentro es convertir el pdf en imágenes (jpeg, png, etc.) y luego ejecutar un proceso de OCR.

0

Tuve el mismo problema pero lo resolví abriendo el archivo PDF con el navegador web (Chrome en mi caso). Copiar y pegar codificación no ASCII funciona bien en Chrome.

2
  1. Seleccione el texto en Acrobat.
  2. Haga clic derecho y seleccione "Copiar con formato" en el menú contextual.
  3. Espere a que la barra de progreso procese el texto.
  4. Pegue en el documento de Word.
0

Tuvimos un problema similar al tratar de copiar/pegar cirílico de un archivo PDF en Excel.

La solución más fácil que encontramos fue abrir el .pdf con un navegador (Chrome, Mozilla u Opera) y copiar/pegar el texto en Word, Excel.

No funcionó con IE, como se esperaba.

Cuestiones relacionadas