Tengo un archivo PDF que es un resultado de un procesador OCR, este procesador OCR reconoce la imagen, agrega el texto al pdf pero al final coloca una imagen de baja calidad en lugar de la original (no tengo idea de por qué alguien lo haría haz eso, pero lo hacen).¿Cómo puedo eliminar todas las imágenes/dibujos de un archivo PDF y dejar el texto solo en Java?
Entonces, me gustaría obtener este PDF, eliminar la secuencia de imágenes y dejar el texto solo, para poder obtenerlo e importarlo (usando la función de importación de páginas iText) a un PDF que me estoy creando con el real imagen.
Y antes de que alguien pregunte, ya he intentado utilizar otra herramienta para extraer las coordenadas del texto (JPedal), pero cuando dibujo el texto en mi PDF no está en la misma posición que el original.
Prefiero tener esto hecho en Java, pero si otra herramienta puede hacerlo mejor, házmelo saber. Y podría ser solo la eliminación de imágenes, puedo vivir con un PDF con los dibujos allí.
¿En qué formato están las imágenes? – Seitaridis
JPEG. TIFF, GIF y PNG. –