Desde hoy sé que: la lo mejor para la extracción de texto de archivos PDF es TET, the text extraction toolkit. TET es parte de la familia de productos PDFlib.com.
PDFlib.com es la empresa de Thomas Merz. En caso de que no reconozca su nombre: Thomas Merz es el autor de la "Biblia PostScript y PDF".
La primera encarnación de TET es a library. Ese probablemente puede hacer todo lo que Budda006 quería, incluida la información posicional sobre cada elemento en la página. Ah, y también puede extraer imágenes. Reúne imágenes fragmentadas en pedazos.
pdflib.com también ofrece otra encarnación de esta tecnología, la TET plugin for Acrobat. Y la tercera encarnación es PDFlib TET iFilter. Esta es una herramienta independiente para escritorios de usuarios. Ambos son gratuitos (como en la cerveza) para uso privado, sin fines comerciales.
Y es realmente potente. Mucho mejor que la extracción de texto de Adobe. Extrajo texto para mí donde otras herramientas (incluida Adobe) escupían basura solo.
Acabo de probar la herramienta de escritorio independiente, y lo que dicen en su página web es cierto. Tiene una muy buena línea de comandos. Algunos de mis archivos de prueba PDF "problemáticos" que la herramienta manejó a mi entera satisfacción.
Esto será de ahora en adelante mi recomendación para todos los sofisticados y desafiantes requisitos de extracción de texto PDF.
TET es simplemente increíble.Detecta tablas. Dentro de las tablas, identifica celdas que abarcan varias columnas. Identifica las filas de la tabla y el contenido de cada celda de la tabla por separado. Se trata muy bien con guiones: elimina guiones y restaura palabras completas. Admite lenguajes que no son ASCII (incluidos CJK, árabe y hebreo). Al encontrar ligaduras, restaura los caracteres originales ...
Pruébalo.
Pregunta relacionada: [Extraiga imágenes y palabras con coordenadas y tamaños de PDF] (http://stackoverflow.com/questions/8241724/extract-images-andwords-with-coordinates-and-sizes-from-pdf) – yms
Para aquellos que necesitan algo realmente simple (sin información de posición), esta expresión regular de Perl puede ser suficiente: '/^\s*\[?\(((?**)\)\]?\s*T[Jj]/mg '. Simplemente busca el operador Tj/TJ, que denota todo el texto normal en un PDF. –
uso [TomRoush PDFBox] (https://github.com/TomRoush/PdfBox-Android) biblioteca de esto funciona bien en android – FaisalAhmed