Estoy buscando una biblioteca PDF que me permita extraer el texto de un documento PDF. Miré PyPDF, y esto puede extraer muy bien el texto de un documento PDF. El problema con esto es que si hay tablas en el documento, el texto en las tablas se extrae en línea con el resto del texto del documento. Esto puede ser problemático porque produce secciones de texto que no son útiles y se ven distorsionadas (por ejemplo, muchos números mezclados).Análisis PDF avanzado Uso de Python (extracción de texto sin tablas, etc.): ¿Cuál es la mejor biblioteca?
Estoy buscando algo un poco más avanzado. Me gustaría extraer el texto de un documento PDF, excluyendo cualquier tabla y formato especial. ¿Hay una biblioteca por ahí que hace esto? ¿O me veo obligado a hacer un postprocesamiento en el texto de salida para deshacerme de estas secciones?
PDFMiner parece interesante. Puedo usar el resultado XML de él, y luego analizar eso para ignorar lo que no quiero. Esto aún requiere un procesamiento posterior sustancial, pero por ahora probablemente sea la mejor solución. Gracias. –
@Etienne, ¿se puede usar esto si el PDF tiene otros caracteres de idioma también? –
Debería funcionar con otros caracteres de idioma. Mención de documentos: compatibilidad con lenguajes CJK y escritura vertical. La mejor manera de estar seguro, pruébalo! – Etienne