¿Alguien ha intentado extraer texto de un PDF utilizando una biblioteca OCR y Java? ¿Cuál crees que es la biblioteca más confiable para la extracción de texto? La mayoría de los enfoques que he visto (tesseract, GOCR) son bibliotecas C que requerirían que se escriba algún código JNI.Método de extracción de texto PDF mediante OCR
Estoy familiarizado con pdfbox, que ahora es un proyecto de incubadora Apache en la versión 0.8.x, pero su extracción de texto no siempre es precisa. Estoy buscando un enfoque alternativo que sea algo más confiable.
No he probado Asprise JavaPDF aún, en el proceso de intentarlo, pero quería saber más acerca del enfoque de OCR (si es posible).
Cualquier ayuda sería apreciada.
¿Está utilizando un PDF estructurado? Si es así, tiene la capacidad en JAVA para tomar el texto de los metadatos PDF. – northpole
No, no todos los PDF están estructurados. – Jon