Tengo un PDF que incluye texto e imágenes. Quiero extraer imágenes del PDF usando la línea de comandos de Linux. Puedo usar pdfimages
para extraer las imágenes, pero también quiero encontrar la ubicación en cada página donde está esa imagen. pdfimages
puede decirme qué página de cada imagen (desde el nombre de archivo), sin embargo eso es todo lo que me da. ¿Hay alguna otra herramienta FLOSS que pueda hacer esto?Dado un PDF, ¿cómo extraer las imágenes * y sus ubicaciones en la página * desde la línea de comandos?
Respuesta
No hay garantía en PDF de que si se reutiliza una imagen, no será una imagen separada. Hay muy pocos metadatos de imagen en un archivo PDF más allá de la ubicación de la página y su tamaño real en la página. Escribí un artículo que explica cómo se almacenan las imágenes dentro de un PDF en http://www.jpedal.org/PDFblog/2010/09/understanding-the-pdf-file-format-images/
Entonces, ¿hay un fácil utilizar el comando/biblioteca para extraer esa localización página? – Rory
Bueno, creo que el PDF debe contener la información para colocarlas, por lo que debería ser posible. Por otro lado, una solución puede ser, por ejemplo:
- convertir cada página PDF a una imagen con
pdftoppm
- extraer las imágenes de cada página con
pdfimages
- Convierte las imágenes en una sola 8-bits de gris- canal de escala (para un análisis más rápido) con detección
cvCvtColor
- objeto con
matchTemplate
Paso 1 puede ser similar a este Paso 2:
for i in {0..99} ; do pdfimages -f $((i)) -l $((i+1)) file.pdf page$((i)); done
Paso 3 * aquí un ejemplo sencillo
En el paso 4 no debería tener problemas con la formación, ya que la imagen será una coincidencia exacta. matchTemplate(imageToSearch, pdfPageImg, outputMap, 'CV_TM_SQDIFF')
(* - Enlace eliminado ya que ahora parece estar apuntando hacia un sitio ransomware)
Hay un interruptor -xml
para el comando pdftohtml
que dará posición de la imagen, la dimensión y la información de la fuente.
pdftohtml -xml file.pdf
- 1. Convertir DOC a PDF desde la línea de comandos
- 2. ¿Cómo puedo convertir una serie de imágenes a un PDF desde la línea de comandos en Linux?
- 3. ¿Cómo puedo extraer imágenes de un archivo PDF?
- 4. ¿Cómo extraer texto de un PDF?
- 5. Cómo arrancar desde la línea de comandos
- 6. Creación de PDF de la línea de comandos de OpenOffice
- 7. ¿Cómo descomprime archivos de manera recursiva en un directorio y sus subdirectorios desde la línea de comandos de Unix?
- 8. ¿Es posible ejecutar la velocidad de la página de Google desde la línea de comandos?
- 9. Leer texto y ubicaciones de imagen (coordenadas xy) usando PDFBox
- 10. extraer imágenes del pdf usando pdfbox
- 11. Ejecutar Java desde la línea de comandos
- 12. Cómo reducir la resolución de las imágenes en un archivo PDF?
- 13. Referencia rápida desde la línea de comandos
- 14. Cómo instalar paquetes desde la línea de comandos en Suse
- 15. ¿cómo se abre un PDF en una página específica desde la línea de comando? (OSX o Linux)
- 16. ¿Cómo ejecuto las secuencias de comandos de Groovy como Java desde la línea de comandos?
- 17. buscar y reemplazar desde la línea de comandos de UNIX
- 18. Cambiar el controlador Sweave desde la línea de comandos
- 19. ¿Cómo encontrar líneas únicas en un archivo de texto desde la línea de comandos?
- 20. ¿Puedo imprimir archivos html (con imágenes, css) desde la línea de comandos?
- 21. ¿Cómo ejecutar Google Codepro Analytix desde la línea de comandos?
- 22. ¿Ejecuta la línea de comandos desde C# con los parámetros?
- 23. Cómo ejecutar ffmpeg desde la línea de comandos en android
- 24. Perpendicular en un segmento de línea desde un punto dado
- 25. ¿Cómo puedo ejecutar las pruebas de la unidad Silverlight desde la línea de comandos
- 26. cómo activar y desactivar un proxy web en os x desde la línea de comandos
- 27. ¿La altura de línea afecta las imágenes?
- 28. ¿Cómo pruebo la velocidad neta desde la línea de comandos en un servidor Linux (sin gui)?
- 29. ¿Cómo valido mi archivo YAML desde la línea de comandos?
- 30. ¿Cómo envío correos electrónicos desde la línea de comandos?
Sin ubicaciones parte: http://askubuntu.com/questions/150100/extracting-embedded-images-from-a-pdf –