Quiero una función de python que toma un pdf y devuelve una lista del texto de las anotaciones de notas en el documento. He mirado python-poppler (https://code.launchpad.net/~poppler-python/poppler-python/trunk) pero no puedo encontrar la forma de conseguir que me brinde algo útil.Anotaciones de Parse desde un pdf
Encontré el método get_annot_mapping
y modifiqué el programa de demostración proporcionado para llamarlo a través del self.current_page.get_annot_mapping()
, pero no tengo idea de qué hacer con un objeto AnnotMapping. Parece que no se ha implementado por completo, proporcionando solo el método de copia.
Si hay otras bibliotecas que ofrecen esta función, también está bien.
Si bien eso podría ser útil si quisiera extraer todo el texto de un pdf, solo quiero extraer las anotaciones. La razón por la que mencioné poppler es porque proporciona esta habilidad bastante fácilmente (http://cgit.freedesktop.org/poppler/poppler/tree/glib/poppler-annot.h). Pero, yo quería usar Python. Encontré el proyecto vinculante python-poppler, pero parece que no proporciona acceso completo a las anotaciones. Mi pregunta se reduce a "¿Lo estoy haciendo mal o la biblioteca está incompleta?" y "¿Hay otros que brinden la misma funcionalidad?" – davidb