He estado usando pdfbox para extraer información de texto de archivos PDF. He analizado con éxito todas las propiedades del texto como fontname, fontface, tamaño, posición, etc.Java - PDFBox - Extracción de texto
PROBLEMA: Estoy utilizando pdfbox1.2.1 (última versión). El getCharacter() en la clase TextPosition devuelve la cadena completa excepto el último carácter. El último carácter se analiza como una cadena separada.
Ejemplo: "How are you" se analiza como "How are yo" and "u" (2 cadenas separadas).
no quiero que suceda de esa manera ..
ha llegado a nadie al otro lado de esto? .. estoy haciendo algo mal ?? .. La espera de respuesta ..
Gracias y Saludos, Magggi
No creo que la estés usando mal. Hay un PDF con el que trabajo que devuelve ** cada personaje ** como un "String" separado. Desafortunadamente, realmente no tengo mucha solución para ti. También me gustaría saber la respuesta. –
Puedo extraer líneas de texto de PDF. Pero dentro de cada línea, se produce la división como se mencionó anteriormente. – Magggi