2011-12-05 10 views
5

Estoy trabajando con SOLR en un proyecto donde importamos un grupo (~ 40k elementos) de documentos enriquecidos, principalmente MS Word, Powerpoint, Excel y PDF.¿Existe una mejor práctica schema.xml para SOLR al importar documentos enriquecidos?

¿Hay una mejor práctica schema.xml y/o solrconfig.xml a utilizar en la SOLR cuando se utiliza el ExtractingRequestHandler?

He estado haciendo ajustes al esquema predeterminado para intentar obtener facetas trabajando en los tiempos de modificación de fechas, pero incluso sin eso, creo que podría existir un buen ejemplo de cómo deberían ser estos archivos cuando la salida predeterminada de Tika es suficiente.

Si no existe una práctica recomendada schema.xml y/o solrconfig.xml, también me interesan los buenos ejemplos, preferiblemente de proyectos de código abierto existentes o incluso buenas publicaciones en el blog.

¡Todos los indicadores son bienvenidos!

Respuesta

0

En los libros Taming Text (http://www.manning.com/ingersoll/) tiene alguna referencia al ExtractingRequestHandler. Este libro trata de procesar texto utilizando herramientas de código abierto como solr, tika o lucene.

He leído hasta el capítulo 5 y hasta ahora el libro explica cómo se amplía la funcionalidad de solr modificando el archivo schema.xml para crear diferentes tipos de campos, y procesando en consulta o indización.

+0

Ok, si encuentra algo relacionado con las mejores prácticas o algo así, asegúrese de actualizar su respuesta. Gracias –

Cuestiones relacionadas