que tiene que extraer el texto de las facturas y archivos pdfRegla extracción de texto PDF en base a las facturas de los sutiles y facturas
Los diseños de los archivos pueden hacerse muy complejos, aunque su mayoría lleno de mesas.
He leído algunas docenas de artículos sobre el formato pdf, lo fácil que es para nuestro cerebro captarlo y lo difícil que es para una máquina entender su estructura.
También se descargaron algunas herramientas como el minminminer de python y algunas herramientas de Java, algunas incluso tienen extracción de disposición basada en reglas, como LA-PDBtext, todas son geniales bibliotecas, dejándole el paso final.
Adobe también tiene un servicio en línea llamado ExportPDF pero no se puede personalizar
En pocas palabras, entiendo que con el fin de extraer el texto de archivos PDF estructurados y convertirlo en XML, por ejemplo, que debería haber alguna nivel de trabajo manual.
También encontré From Data Extractor, una herramienta no gratuita con la capacidad de establecer reglas de extracción que pretende hacer el trabajo, aunque es difícil encontrar un manual adecuado y se ejecuta solo en Windows.
Pensé que incluso podría tratar de convertir esos archivos a imágenes y probar tesseract-ocr, pero decidí pedir consejo aquí antes de dedicarle más tiempo.
Estaré muy agradecido si alguien con tanta experiencia me da una pista.
A menos que estos PDF sean conformes con PDF/A-1a, tendrá que hacer un montón de trabajo: básicamente tendrá que hacer OCR. PDF no es el formato correcto para esto; intente obtener las facturas y las facturas como XML correctamente estructurado o como EDIFACT en su lugar. –
Hola, sé que esta es una publicación anterior, pero prueba con Tabula https://github.com/jazzido/tabula-extractor – blaze