Tengo algunos archivos PDF y estoy tratando de cortar y pegar texto que contienen desde Acrobat Reader en un formulario HTML. Parece que algunos de estos archivos usan (sospecho) unicode para la codificación de texto, así que cuando intento pegarlo en el formulario HTML (en firefox) obtengo las casillas con caracteres hexadecimales en lugar de texto legible. El problema no es que el PDF no haya sido OCRed: cuando trato de hacer eso en Acrobat Pro, dice que no puede porque el archivo ya contiene texto renderizable. ¿Hay alguna forma de lidiar con esto? Por ejemplo, ¿podría agregar algún tipo de javascript al formulario que haría la conversión?Cómo cortar y pegar desde PDF con codificación que no sea ASCII?
Respuesta
¿Puede pegar texto copiado del archivo en otros programas como el Bloc de notas o Word o cualquier otro?
Algunos archivos PDF se producen sin información especial que es crucial para la extracción exitosa de texto de ellos. Incluso con las herramientas de Adobe. Básicamente, dichos archivos no contienen información de mapeo de glifo a personaje.
Dichos archivos se mostrarán e imprimirán muy bien, pero el texto de ellos no se puede copiar ni extraer correctamente.
Por ejemplo, Distiller produce dichos archivos cuando se utiliza el preajuste "Tamaño de archivo más pequeño".
Es muy posible que el texto contenga caracteres que se copian correctamente pero su navegador no puede mostrarlos, debido a la falta de letra adecuada. Un documento PDF puede contener fuentes incrustadas, por lo que Adobe Reader muestra los caracteres en Aceptar, pero un navegador no tiene acceso a esas fuentes.
Puede verificar si este es el motivo al intentar copiar y pegar los caracteres aquí (de todos modos, podría ser información útil sobre el problema). También puedes descargar e instalar el Code200x fonts, que contiene prácticamente cualquier personaje que normalmente puedas encontrar. (No está garantizado, pero es probable, que Firefox pueda usar esas fuentes automáticamente cuando sea necesario.)
Probé las fuentes, sin ayuda. Además, cuando pegué los caracteres en IDE (Komodo) y dije que la codificación predeterminada cp-1252 no era adecuada, y cuando cambié a codificación para unicode, me sentí feliz. – Steve
que tienen el mismo problema ... De hecho se explica aquí: http://forums.adobe.com/thread/915012
Mi solución fue convertir el PDF a Word utilizando la herramienta de exportación de Acrobat y luego extraer la información que necesito de ella.
Es frustrante pero eso funciona.
Otra solución que encuentro es convertir el pdf en imágenes (jpeg, png, etc.) y luego ejecutar un proceso de OCR.
Tuve el mismo problema pero lo resolví abriendo el archivo PDF con el navegador web (Chrome en mi caso). Copiar y pegar codificación no ASCII funciona bien en Chrome.
- Seleccione el texto en Acrobat.
- Haga clic derecho y seleccione "Copiar con formato" en el menú contextual.
- Espere a que la barra de progreso procese el texto.
- Pegue en el documento de Word.
Tuvimos un problema similar al tratar de copiar/pegar cirílico de un archivo PDF en Excel.
La solución más fácil que encontramos fue abrir el .pdf con un navegador (Chrome, Mozilla u Opera) y copiar/pegar el texto en Word, Excel.
No funcionó con IE, como se esperaba.
- 1. Cortar y pegar varias líneas en vim
- 2. Cómo copiar y pegar desde el terminal con el teclado?
- 3. ¿Por qué cortar y pegar desde el tutorial de Cassandra CLI no funciona?
- 4. ¿Cómo afecta la función de "cortar y pegar" la codificación de caracteres y qué puede salir mal?
- 5. electrónico Codificación sujeto (SMTP) en Python con caracteres no ASCII
- 6. ¿Cómo implementar el menú "Editar" con "Deshacer", "Cortar", "Pegar" y "Copiar"?
- 7. Kill/Yank (cortar/pegar) en ZSH
- 8. Cosecha sin pérdidas n caída (cortar y pegar) para JPEG
- 9. .Net Regex que combina cadenas con cualquier carácter que no sea ASCII
- 10. Pegar desde el portapapeles y alternar automáticamente: establecer pegar
- 11. ¿Cómo pego caracteres no ASCII en vim?
- 12. ¿Hay alguna manera de generar un pdf que contenga símbolos que no sean ascii con pisa de la plantilla django?
- 13. Localizando el menú Cortar | Copiar | Pegar en iOS
- 14. Bases de datos, codificación de caracteres, archivos PDF y XML
- 15. Pegar texto desde el portapapeles con el botón
- 16. Corregir la codificación PDF
- 17. Convertir codificación ascii a int y viceversa en python (rápidamente)
- 18. ¿Cómo puedo conservar los pliegues en VIM al cortar y pegar?
- 19. Cómo eliminar (no cortar) en Vim?
- 20. Pegar desde el portapapeles
- 21. Forzar el módulo Python json para que funcione con ASCII
- 22. Convertir ASCII de la codificación UTF-8
- 23. ¿Cómo copiar, cortar y pegar el trabajo en una FireMonkey - diseñador de formularios HD
- 24. Leer un archivo de texto con caracteres no ASCII en una codificación desconocida
- 25. ¿Cómo hago la codificación URL de los caracteres ASCII?
- 26. cadena literal de bytes con caracteres no ASCII
- 27. Cómo cortar una línea completa en vim y pegarla?
- 28. Bash: Convierte caracteres no ASCII a ASCII
- 29. python3 unicode-escape no funciona con bytes no-ascii?
- 30. Cómo recuperar una url no ascii con Python urlopen?
El mismo resultado no importa dónde lo pegue: bloc de notas, Word, etc. Creo que quizás tenga razón sobre el archivo PDF. Si abro este archivo en Acrobat Pro, copio parte de su texto, luego abro una nota adhesiva e intento pegar el texto, obtengo cuadros en lugar de caracteres. Entonces, incluso Acrobat no puede tratar este texto. – Steve