¿Qué es un buen rastreador (araña) para usar contra documentos HTML y XML (locales o basados en la web) y que funciona bien en el espacio de la solución Lucene/Solr? Podría estar basado en Java pero no tiene que ser así.¿Recomendaciones para una herramienta de spidering para usar con Lucene o Solr?
Respuesta
En mi opinión, esto es un agujero bastante significativa que es manteniendo la adopción generalizada de Solr. El nuevo DataImportHandler es un buen primer paso para importar datos estructurados, pero no hay un buen inventario de ingestión de documentos para Solr. Nutch funciona, pero la integración entre Nutch crawler y Solr es algo torpe.
He intentado todos los rastreadores de código abierto que puedo encontrar, y ninguno de ellos se integra desde el primer momento con Solr.
Manténgase atento a OpenPipeline y Apache Tika.
sugiero que echa un vistazo Nutch para conseguir un poco de inspiración:
Nutch es de código abierto de software web de búsqueda. Se basa en Lucene Java, añadiendo web específicos, tales como una oruga, una base de datos de enlace gráfico, programas de análisis de HTML y otros formatos de documentos, etc.
También revise los Droids de Apache [http://incubator.apache.org/droids/] - esto espera no ser un simple framework spider/crawler/worker.
Es nuevo y todavía no es fácil de usar en la estantería (llevará algo de tweeking ponerlo en funcionamiento), pero es algo bueno que debe vigilar.
Nutch podría ser su pareja más cercana, pero no es demasiado flexible.
Si necesita algo más, tendrá que hackear prácticamente su propio rastreador. No es tan malo como suena, cada idioma tiene bibliotecas web, por lo que solo necesita conectar un gestor de colas de tareas con el descargador HTTP y el analizador HTML, en realidad no es tanto trabajo. Lo más probable es que se salga con la suya con una sola caja, ya que el rastreo es principalmente intencionado con el ancho de banda, no requiere mucho uso de la CPU.
He intentado nutch, pero fue muy difícil de integrar con Solr. Yo echaría un vistazo a Heritrix. Tiene un extenso sistema de complementos para que sea fácil de integrar con Solr, y es mucho más rápido para gatear. Hace un uso extensivo de hilos para acelerar el proceso.
¿Alguien ha intentado con Xapian? Se ve mucho más rápido que solr y está escrito en C++.
C#, pero produce archivos de índice de consumo de Lucene (Java y C#).
- 1. Situaciones para preferir Apache Lucene sobre Solr?
- 2. ¿Recomendaciones para una herramienta de análisis de montón para Java?
- 3. Motor de búsqueda - Lucene o Solr
- 4. ¿cómo normalizo una puntuación solr/lucene?
- 5. ¿Necesita Solr/Lucene para MongoDB, CouchDB y Cassandra?
- 6. Buscador de consultas con facetas para SOLR
- 7. ¿Recomendaciones para comenzar con WiX?
- 8. Comportamientos extraños de Solr/Lucene con operadores booleanos
- 9. Indexación de diferentes tipos de entidades/objetos con Solr Lucene
- 10. Recomendaciones de búsqueda Recomendaciones
- 11. Recomendaciones para una buena referencia de vi?
- 12. ¿Cómo usar un analizador Lucene para tokenizar una cadena?
- 13. Recomendaciones para aprender Perl?
- 14. ¿Alguien tiene recomendaciones para una buena herramienta de gestión de tareas/tiempos?
- 15. Recomendaciones para Java + OpenPGP?
- 16. Almacenamiento de URL mientras Spidering
- 17. ¿Puedo integrar Solr con Sharepoint sin utilizar Lucene Connector Framework
- 18. ¿Cómo consultar lucene para campos vacíos?
- 19. Recomendaciones para desarrollar documentos Sweave
- 20. Herramienta o biblioteca para comparar archivos xml
- 21. ¿Cómo obtener la explicación de Lucene para SolrDocument con Solrj?
- 22. Tutorial de Lucene para principiantes
- 23. Necesita recomendaciones para el tutorial de Websphere
- 24. La mejor práctica para asegurarse de que el índice Solr/Lucene está "actualizado" después de una reconstrucción prolongada
- 25. Ruby alternativa para Lucene
- 26. Mediante el puerto de Solr y Lucene Zends juntos
- 27. ¿Qué es una buena herramienta o sitio para usar para evaluar el rendimiento de una página web/sitio?
- 28. ¿Solr tiene API para leer solr schema.xml?
- 29. Herramienta para refactorizar bloques "con"
- 30. Dónde puedo encontrar puntos de referencia de rendimiento para Apache Lucene/Solr