2012-03-28 35 views
13

¿Hay alguna herramienta de línea de comando en Linux que extraiga las cifras de un archivo pdf y las guarde en formato vectorial? Sé sobre pdfimages, pero eso crearía un mapa de bits, y eso no es lo que necesito.extraer imagen vectorial de un archivo pdf

Respuesta

14

no para sólo imágenes, como parece que necesita, pero

  • pdftocairo

http://poppler.freedesktop.org/

http://www.manpagez.com/man/1/pdftocairo/(página del manual)

es capaz de presentar una página PDF a otros formatos vectoriales como PS/EPS/SVG

suponiendo que tiene una página PDF con imágenes vectorizadas, puede renderizar esta página a SVG y luego copiar única imagen que está interesado en

nota: pdftocairo no puede rendir PDF de varias páginas a SVG de varias

si es necesario convertir a SVG varias páginas PDF se necesita el primero en recoger este rango de página y luego se echó páginas PDF en simples páginas PDF

ejemplo (si es necesario convertir las páginas 1-10 de un archivo PDF a SVG)

  • 1 °

pdftk file.pdf cat 1-10 output 1-10.pdf

  • 2 °

pdftk 1-10.pdf burst

  • 3 °

for f in *.pdf; do pdftocairo -svg $f; done

  • 4 °

finalmente, con sodipodi o Inkscape, se puede extraer imágenes que está interesado de SVG rendido página pdf

+0

¡Gracias por los comentarios! Por lo que he leído, me parece que todos estos métodos requerirían intervención humana. Lo que estaba buscando es una herramienta que toma un archivo pdf y devuelve todas las figuras que contiene. Exactamente como lo haría pdfimages, con la excepción de que las imágenes vectoriales se devuelven como imágenes vectoriales, y no como mapas de bits. – v923z

2

This article describe las herramientas gpdfx, inkscape y pdf2s vg que no están completamente basados ​​en línea de comandos, pero siguen siendo útiles.

3

¿Qué considera una "figura"? Este es un concepto que no existe en PDF. La razón por la que hay tantas herramientas que pueden extraer imágenes de un archivo PDF es porque las imágenes son una entidad claramente identificada.

Sin embargo, sus "figuras" están mucho menos claramente definidas. Los archivos PDF pueden contener gran cantidad de contenido vectorial que no llamarías una figura.El texto se puede acariciar, por ejemplo, lo que lo convertiría en arte vectorial y, como tal, podría confundirse con sus figuras. Se pueden usar otros elementos decorativos en el fondo de las páginas. El texto puede estar subrayado, que sería un elemento vectorial ...

En la otra dirección, su "figura" puede contener un título que es texto, complicando aún más las cosas.

Como PDF no tiene la noción de una figura, tendrá que averiguar cómo aislar una en una página PDF (tal vez porque la aplicación del creador siempre les agrega metadatos, o porque usan un color especial o ... Si puede aislarlos, debería ser posible recortar todo lo irrelevante en la página y exportar lo que necesita como EPS o SVG utilizando algunas de las técnicas descritas en la otra respuesta.

Cuestiones relacionadas