¿Hay alguna herramienta de línea de comando en Linux que extraiga las cifras de un archivo pdf y las guarde en formato vectorial? Sé sobre pdfimages, pero eso crearía un mapa de bits, y eso no es lo que necesito.extraer imagen vectorial de un archivo pdf
Respuesta
no para sólo imágenes, como parece que necesita, pero
- pdftocairo
http://poppler.freedesktop.org/
http://www.manpagez.com/man/1/pdftocairo/(página del manual)
es capaz de presentar una página PDF a otros formatos vectoriales como PS/EPS/SVG
suponiendo que tiene una página PDF con imágenes vectorizadas, puede renderizar esta página a SVG y luego copiar única imagen que está interesado en
nota: pdftocairo no puede rendir PDF de varias páginas a SVG de varias
si es necesario convertir a SVG varias páginas PDF se necesita el primero en recoger este rango de página y luego se echó páginas PDF en simples páginas PDF
ejemplo (si es necesario convertir las páginas 1-10 de un archivo PDF a SVG)
- 1 °
pdftk file.pdf cat 1-10 output 1-10.pdf
- 2 °
pdftk 1-10.pdf burst
- 3 °
for f in *.pdf; do pdftocairo -svg $f; done
- 4 °
finalmente, con sodipodi o Inkscape, se puede extraer imágenes que está interesado de SVG rendido página pdf
This article describe las herramientas gpdfx, inkscape y pdf2s vg que no están completamente basados en línea de comandos, pero siguen siendo útiles.
¿Qué considera una "figura"? Este es un concepto que no existe en PDF. La razón por la que hay tantas herramientas que pueden extraer imágenes de un archivo PDF es porque las imágenes son una entidad claramente identificada.
Sin embargo, sus "figuras" están mucho menos claramente definidas. Los archivos PDF pueden contener gran cantidad de contenido vectorial que no llamarías una figura.El texto se puede acariciar, por ejemplo, lo que lo convertiría en arte vectorial y, como tal, podría confundirse con sus figuras. Se pueden usar otros elementos decorativos en el fondo de las páginas. El texto puede estar subrayado, que sería un elemento vectorial ...
En la otra dirección, su "figura" puede contener un título que es texto, complicando aún más las cosas.
Como PDF no tiene la noción de una figura, tendrá que averiguar cómo aislar una en una página PDF (tal vez porque la aplicación del creador siempre les agrega metadatos, o porque usan un color especial o ... Si puede aislarlos, debería ser posible recortar todo lo irrelevante en la página y exportar lo que necesita como EPS o SVG utilizando algunas de las técnicas descritas en la otra respuesta.
- 1. Extraer imagen de PDF con/CCITTFaxDecode filter
- 2. ¿Cómo puedo extraer imágenes de un archivo PDF?
- 3. ¿Cómo extraer texto de un PDF?
- 4. ¿Cómo extraer datos de un PDF?
- 5. Extraer texto del PDF
- 6. Imagen vectorial como fragmento XAML reutilizable
- 7. ¿Cómo extraes una imagen de un archivo pdf usando C#
- 8. ¿Cómo puedo configurar una imagen en un campo de PDF en un archivo pdf existente?
- 9. C# Extraer texto del PDF utilizando PdfSharp
- 10. extraer texto del pdf en Javascript
- 11. extraer la imagen del carácter de fuente del archivo ttf
- 12. ¿Cómo extraer campos PDF de un formulario completo en Python?
- 13. Extraer texto de archivos PDF en C#
- 14. ¿Cómo puedo determinar si un archivo es un archivo PDF?
- 15. ¿Puedo extraer tablas de PDF usando Perl?
- 16. ¿Cómo extraer datos de un archivo PDF sin perder de vista su estructura?
- 17. Estructura de un archivo PDF?
- 18. Algoritmo general para la imagen vectorial de barrido
- 19. ¿Hay una biblioteca C++ para extraer texto de un archivo PDF como PDFBox para Java?
- 20. Imagen corrupta al extraer de zip
- 21. conversión de PDF a imagen
- 22. extraer imágenes del pdf usando pdfbox
- 23. Extraer palabras de un archivo de texto
- 24. ¿Cómo extraer texto del documento PDF?
- 25. ¿Cómo convertir un pdf a una imagen?
- 26. ¿Cómo extraer texto de un archivo PSD?
- 27. Cómo extraer notas y partes resaltadas de archivos PDF
- 28. contraseña proteger un archivo PDF
- 29. Imagen PDF en documento PDF usando ReportLab (Python)
- 30. ¿Cómo extraigo los archivos adjuntos de un archivo pdf?
¡Gracias por los comentarios! Por lo que he leído, me parece que todos estos métodos requerirían intervención humana. Lo que estaba buscando es una herramienta que toma un archivo pdf y devuelve todas las figuras que contiene. Exactamente como lo haría pdfimages, con la excepción de que las imágenes vectoriales se devuelven como imágenes vectoriales, y no como mapas de bits. – v923z