Estoy trabajando con SOLR en un proyecto donde importamos un grupo (~ 40k elementos) de documentos enriquecidos, principalmente MS Word, Powerpoint, Excel y PDF.¿Existe una mejor práctica schema.xml para SOLR al importar documentos enriquecidos?
¿Hay una mejor práctica schema.xml
y/o solrconfig.xml
a utilizar en la SOLR cuando se utiliza el ExtractingRequestHandler
?
He estado haciendo ajustes al esquema predeterminado para intentar obtener facetas trabajando en los tiempos de modificación de fechas, pero incluso sin eso, creo que podría existir un buen ejemplo de cómo deberían ser estos archivos cuando la salida predeterminada de Tika es suficiente.
Si no existe una práctica recomendada schema.xml
y/o solrconfig.xml
, también me interesan los buenos ejemplos, preferiblemente de proyectos de código abierto existentes o incluso buenas publicaciones en el blog.
¡Todos los indicadores son bienvenidos!
Ok, si encuentra algo relacionado con las mejores prácticas o algo así, asegúrese de actualizar su respuesta. Gracias –