¿Cuál es la mejor manera de verificar mediante programación si un archivo PDF es escaneado por completo? Tengo iText y PDFBox a mi disposición. Puedo verificar si un archivo PDF contiene texto o no, y de acuerdo con el resultado para decidir si este archivo está OCRed, pero esta solución no es 100% precisa. Me gustaría saber si hay otra forma de lidiar con el problema.Compruebe si se escanea un archivo PDF
Como comprenderá, la solución debe estar basada en Java.
Oof. Esto suena como un proyecto de investigación de nivel de posgrado o doctorado, especialmente porque el documento escaneado también puede tener el texto disponible. ¡Suerte con ello! –
OCRed pdf contendría texto, ese es el punto de reconocimiento óptico de caracteres. –
cuando dice totalmente escaneado, ¿qué quiere decir? que todo en el documento es una imagen? que todo fue escaneado y luego convertido en texto con OCR? si tomo una foto con una cámara digital y luego la pego en Word, y luego imprimo en un PDF, ¿eso cuenta como una imagen "escaneada"? –