2010-07-05 12 views
8

Estoy buscando un analizador sintáctico de Microsoft Office basado en python, específicamente Powerpoint.Microsoft Powerpoint Python Parser

Quiero ser capaz de analizar PPT en python y extraer cosas como texto e imágenes del archivo de PowerPoint.

¿Hay una biblioteca disponible?

Respuesta

5

No creo que exista tal biblioteca.

Lo que puede hacer es usar el paquete pywin32 para acceder al COM de PowerPoint.

Aquí es una muy buena introducción al uso del módulo de win32com para automatizar tareas en PowerPoint alguien ha escrito: http://www.s-anand.net/blog/automating-powerpoint-with-python/

+0

Gracias! Estoy en eso ahora. El enlace fue muy útil para entender cómo llevar a cabo todo el proceso. – ramaz

3

Es posible que encuentre una bestia así, pero apostaría en contra; estás buscando dos propiedades raras juntas.

En su lugar, podría considerar utilizar el Open Office SDK, que ya tiene una gran cantidad de maquinaria para leer los archivos de Power Point, y abusar de él para sus propósitos. Esto es todo Java, no Python, pero mi suposición es que la curva de aprendizaje para aprender Java es mucho más pequeña que la curva de aprendizaje para descubrir cómo leer archivos de PowerPoint.