2010-10-15 22 views
5

Necesito extraer objetos de tabla de documentos PDF de preferencia programáticamente usando Perl. Puedo cortar y pegar en Excel, pero la tabla requeriría bastante edición manual una vez que los datos se hayan importado a Excel.¿Puedo extraer tablas de PDF usando Perl?

He hecho algunas búsquedas, pero hasta ahora parece que la mayoría de los foros sugieren que la mayoría de las API son muy primitivas.

+0

Me acabo de pasar medio día tratando de hacer exactamente esto. Mi conclusión fue que sería más rápido simplemente copiar y pegar en Excel que tratar de obtener datos de un archivo PDF mediante programación. – CanSpice

+1

¿Has mirado en CPAN? Hay varias API altamente calificadas allí. También hay algunas opciones no gratuitas, como PDFlib, que se pueden usar desde Perl y funcionan muy bien. – Cfreak

+0

@Cfreak, sí miré a CPAN; como se mencionó anteriormente, no parece que esos módulos puedan leer objetos en PDF. Si me equivoco, me encantaría que alguien señalara el módulo correcto y cómo usarlo para leer una tabla. – Face

Respuesta

2

El mejor módulo que conozco para manejar archivos PDF en Perl es PDF::API2. Sin embargo, sin saber más acerca de la manipulación que necesita hacer es difícil dar más recomendaciones. Otra posibilidad es programar usando la funcionalidad VB incorporada de Excel para que al copiar las tablas en su hoja de cálculo de Excel se active una macro que realizará su formateo por usted.

+1

Todo lo que necesito es procesar el texto que está en la tabla. Teniendo en cuenta que una celda puede tener (campos vacíos, líneas múltiples, espacios, comas, etc.). Lo cual si corto y pego presenta un desafío en términos de qué delimitador decirle a Excel que use. – Face

Cuestiones relacionadas