2010-07-28 28 views
5

He estado usando pdfbox para extraer información de texto de archivos PDF. He analizado con éxito todas las propiedades del texto como fontname, fontface, tamaño, posición, etc.Java - PDFBox - Extracción de texto

PROBLEMA: Estoy utilizando pdfbox1.2.1 (última versión). El getCharacter() en la clase TextPosition devuelve la cadena completa excepto el último carácter. El último carácter se analiza como una cadena separada.

Ejemplo: "How are you" se analiza como "How are yo" and "u" (2 cadenas separadas).

no quiero que suceda de esa manera ..

ha llegado a nadie al otro lado de esto? .. estoy haciendo algo mal ?? .. La espera de respuesta ..

Gracias y Saludos, Magggi

+0

No creo que la estés usando mal. Hay un PDF con el que trabajo que devuelve ** cada personaje ** como un "String" separado. Desafortunadamente, realmente no tengo mucha solución para ti. También me gustaría saber la respuesta. –

+0

Puedo extraer líneas de texto de PDF. Pero dentro de cada línea, se produce la división como se mencionó anteriormente. – Magggi

Respuesta

3

Este problema se resuelve.

El siguiente código en processEncodedText(byte[] string) en PDFStreamEngine.java

if(spacingText == 0 && (i + codeLength) < (string.length - 1)) 
{ 
    continue; 
} 

debe cambiarse a

if(spacingText == 0 && (i + codeLength) < (string.length)) 
{ 
    continue; 
} 

Saludos, Maggi

Cuestiones relacionadas