2008-12-17 18 views
13

¿Alguien sabe de una biblioteca que puedo usar en OS X/Linux para analizar archivos de Word y generar el contenido como HTML?Cómo analizar documentos de texto con ruby?

He echado un vistazo a win32ole, pero hasta donde puedo ver es solo para Windows, aunque podría estar equivocado.

¿Alguna sugerencia?

Respuesta

10

El formato de documento de Word (ignorando docx por el momento) es terrible y cambiaba constantemente. En mi humilde opinión, esa es la razón por la que hay muy pocas bibliotecas de rubíes (léase: cero) para analizarlas.

Lo que recomiendo hacer es utilizar JRuby y algunas de las bibliotecas establecidas de Java para leer el formato de documento. Google debería ayudarte: http://schmidt.devlib.org/java/libraries-word.html.

Hay un proyecto de Java para leer formatos de archivo MIcrosoft, POI (http://poi.apache.org/) y tienen enlaces Ruby (http://poi.apache.org/poi-ruby.html) pero no estoy seguro de cuán actualizados están. En su sitio dice que las fijaciones de Ruby son para 1.8.2 ...

Cuestiones relacionadas