2010-02-15 21 views

Respuesta

3

Encontré un poco de Google OpenXML4J. Esto podría resolver su problema. No he usado esto antes, estoy seguro de que alguien en la comunidad tendrá una mejor idea.

Nota: esta es una pregunta duplicada. Esto tiene la solución más un poco de discusión. Link to the question.

+1

¿Es razonable mantener ambas preguntas, dado que uno está preguntando sobre el formato Word doc y el otro Excel? Pueden ser dos subconjuntos de una especificación de formato de documento más grande, honestamente no lo sé. –

+0

Creo que es un duplicado porque cada pregunta está preguntando sobre Office 2007 java api. La otra pregunta, en mi humilde opinión, responde el correo. :) – XanderLynn

5

Si no necesita información de formato, imágenes y otras cosas sofisticadas, entonces el trabajo es mucho más fácil. Solo unas 5 a 10 líneas de código funcionarán.

  1. Tratar DOCX como un archivo zip. Consiste en un grupo de archivos que incluye 'document.xml'. Use ZipInputStream y extraiga ese archivo solo. (¡puede usar su utilidad zip favorita y abrir docx y verlo usted mismo!)
  2. Utilice un analizador SAX y lea los contenidos entre el cuerpo del nodo/p/r/t - ¡de inmediato recibió el texto!

Esto es aplicable solo si necesita el texto solo.

+0

Hola Joseph, ¿puedes escribir aquí el código corto? Sería de GRAN AYUDA para mí ... –

2

Probar apache poi - puede manejar doc, docx, xls, xlsx, ppt, pptx.

Otra solución de nivel de producción es OpenOffice en modo sin cabeza que incluso se puede usar en un escenario del lado del servidor.

Cuestiones relacionadas