Estoy haciendo un procesamiento simple de una variedad de documentos (ODS, MS office, pdf) usando Apache Tika. Tengo que obtener al menos:Apache Tika y metadatos del documento
word count, author, title, timestamps, language etc.
que no es tan fácil. Mi estrategia es utilizar el patrón de método de plantilla para 6 tipos de documentos, donde primero encuentro el tipo de documento y, en función de eso, lo proceso individualmente.
Sé que apache tika debería eliminar la necesidad de esto, pero los formatos de los documentos son bastante diferentes ¿no?
Por ejemplo
InputStream input = this.getClass().getClassLoader().getResourceAsStream(doc);
ContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new OfficeParser();
parser.parse(input, textHandler, metadata, new ParseContext());
input.close();
for(String s : metadata.names()) {
System.out.println("Metadata name : " + s);
}
he tratado de hacer esto para las SAO, MS Office, documentos PDF y la metadados difiere mucho. Hay una interfaz MSOffice que enumera las claves de metadatos para los documentos MS y algunos Lista de metadatos Dublic Core. Pero, ¿cómo se debe implementar una aplicación como esta?
¿Podría agradar a alguien con experiencia compartir su experiencia? Gracias