Java - PDFBox - Extracción de texto

He estado usando pdfbox para extraer información de texto de archivos PDF. He analizado con éxito todas las propiedades del texto como fontname, fontface, tamaño, posición, etc.Java - PDFBox - Extracción de texto

PROBLEMA: Estoy utilizando pdfbox1.2.1 (última versión). El getCharacter() en la clase TextPosition devuelve la cadena completa excepto el último carácter. El último carácter se analiza como una cadena separada.

Ejemplo: "How are you" se analiza como "How are yo" and "u" (2 cadenas separadas).

no quiero que suceda de esa manera ..

ha llegado a nadie al otro lado de esto? .. estoy haciendo algo mal ?? .. La espera de respuesta ..

Gracias y Saludos, Magggi

Fuente

2010-07-28 Magggi

No creo que la estés usando mal. Hay un PDF con el que trabajo que devuelve ** cada personaje ** como un "String" separado. Desafortunadamente, realmente no tengo mucha solución para ti. También me gustaría saber la respuesta. –

Puedo extraer líneas de texto de PDF. Pero dentro de cada línea, se produce la división como se mencionó anteriormente. – Magggi

Este problema se resuelve.

El siguiente código en processEncodedText(byte[] string) en PDFStreamEngine.java

if(spacingText == 0 && (i + codeLength) < (string.length - 1)) 
{ 
    continue; 
}

debe cambiarse a

if(spacingText == 0 && (i + codeLength) < (string.length)) 
{ 
    continue; 
}

Saludos, Maggi

Fuente

2010-08-30 12:09:29 Magggi

Sí. Este problema está resuelto por pdfbox.
Pruebe la última versión de pdfbox. La última versión se puede descargar de http://pdfbox.apache.org/download.html

Fuente

2012-06-30 05:17:54 Neeraj

Java - PDFBox - Extracción de texto

Respuesta

Cuestiones relacionadas