Tengo un montón de documentos en PDF con datos tabulares que debo extraer en un formato más legible para almacenar en una hoja de cálculo, base de datos o lo que sea.Extraiga las tablas en PDF mediante programación
¿Hay algo en el mundo (preferiblemente libre) que es capaz de obtener datos de tabla de archivos PDF en un formato más legible en mayor ya sea de forma nativa integrada con una aplicación o de forma pasiva a través de línea de comandos o rizando el proceso en el código (.net)?
Puede ser cualquier formato realmente (doc, html) siempre que se mantengan las tablas.
Todo lo que he encontrado hasta ahora es una excepción (solo hace un documento a la vez, tengo cientos, eso no está pasando) o no mantiene la estructura de la tabla.
Cualquier idea por favor publicar.
Ayudaría si pudiera ampliar esta pregunta con ejemplos específicos del PDF fuente, ya que esto es necesario para responder la pregunta con precisión. – andersoj
@Thilo: le asignó una recompensa a esta pregunta, y no está claro si @markdigi está prestando atención. ¿Tiene alguna muestra de datos para señalar que le gustaría abordar? – andersoj
@andersoj Esto está relacionado con http://stackoverflow.com/questions/3929793/how-can-i-extract-parse-tabular-data-from-a-text-file-in-perl (obtengo los datos de texto de pdftotext). – Thilo