El año pasado, realicé una aplicación en Java usando PDFBox para obtener el texto en bruto en algunos archivos PDF y ahora tengo que portar esa aplicación a C++.¿Hay una biblioteca C++ para extraer texto de un archivo PDF como PDFBox para Java?
Quería saber cuál era la mejor alternativa de C++ para lograr lo que necesito.
Voy a dar un ejemplo en el caso de que ayuda:
La mayoría de los archivos se vería así: http://www.jumbala.net/backup/league.pdf
Con PDFBox, usando ese archivo, leer cada línea en la página 2 y la mayor parte de la página 3 sería muestra todos los datos de una línea, separados por un espacio en lugar de mantenerlo en una cuadrícula como lo está ahora.
Así que la primera línea relevante en la página 2 podría tener este aspecto:
FB 847 - Tremblay, Gérard 179,63 56 16167 90 268 s27 p3 669 s14 199 223 193 615
o algo así, ya que hay cambios menores en el orden en que aparecen, pero no se preocupan por que mientras líneas similares dan el mismo resultado ya que solo las analizo y pongo los valores que necesito en diferentes variables.
Entonces, sabiendo todo eso, ¿hay una biblioteca que pueda usar en un programa C++ para obtener resultados similares?
Editar: Después de mirar enlace de sacredFaith en http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-file y probarlo, estoy recibiendo una salida extraño como tales para el archivo de ejemplo que he mencionado antes:
http://www.jumbala.net/backup/league.pdf.txt
Las partes que realmente necesitan están en los personajes extraños al principio. Uso de Adobe Acrobat Reader X y mediante Guardar como ... Texto (accesible), me sale el siguiente resultado:
http://www.jumbala.net/backup/league_good.pdf.txt
que es aproximadamente lo que me pasa en Java utilizando PDFBox y lo que yo quiero conseguir como salida en C++.
Tal vez esto puede ayudar http://stackoverflow.com/questions/3784554/creating-a-pdf-reader-in-c – grifos
@grifos Lo miré y podría verlo un poco más en detalle más adelante, pero preferiría tener una biblioteca ya hecha, ya que preferiría no tener que leer todo el documento de especificaciones PDF. El gran enlace que publicaste, sin embargo, podría ser útil más tarde, ¡gracias! –
En el enlace también hablan sobre una biblioteca de C++ PoDoFo, que le permite analizar el pdf y extraer información. – grifos