Recientemente comencé a buscar apache nutch. Podría hacer la configuración y poder rastrear páginas web de mi interés con nutch. No entiendo muy bien cómo leer estos datos. Básicamente, quiero asociar los datos de cada página con algunos metadatos (algunos datos aleatorios por ahora) y almacenarlos localmente, que luego serán utilizados para la búsqueda (semántica). ¿Debo usar solr o lucene para lo mismo? Soy nuevo en todo esto. Hasta donde sé, Nutch se usa para rastrear páginas web. ¿Puede hacer algunas funciones adicionales, como agregar metadatos a los datos rastreados?Nutch: datos leídos y adición de metadatos
5
A
Respuesta
3
Comandos útiles.
Empezar rastreo
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
obtener estadísticas de
bin/nutch readdb crawl/crawldb -stats
segmento Leer arrastrado de URL (se lleva todos los datos de las páginas web)
bin/nutch readseg -dump crawl/segments/* segmentAllContent
segmento de lectura (sólo recibe el texto campo)
bin/nutch readseg -dump crawl/segments/* segmentTextContent -nocontent -nofetch -nogenerate - noparse -noparsedata
Obtenga toda la lista de enlaces conocidos a cada URL, incluidos tanto la URL de origen como el texto de enlace del enlace.
bin/nutch readlinkdb crawl/linkdb/ -dump linkContent
Obtener todas las URL rastreadas. También da otra información como si se fue a buscar, tiempo exagerado, hora de modificación etc.
bin/nutch readdb crawl/crawldb/ -dump crawlContent
Para la segunda parte. es decir, para agregar un nuevo campo. Estoy planeando usar el complemento index-extra o para escribir un plugin personalizado.
Consulte:
Cuestiones relacionadas
- 1. Adición de metadatos a jsTree
- 2. Leer y graficar datos leídos desde archivos enormes
- 3. Nutch API advice
- 4. de corriente leídos Problema
- 5. Nutch versus Solr
- 6. Obtener datos JSON de JSTree, y es metadatos
- 7. Adición y recuperar los datos de solicitud de contexto
- 8. Diferencia entre metadatos y manifiesto
- 9. Metadatos de base de datos personalizados/arbitrarios
- 10. ifstream, bytes leídos?
- 11. Exportación, adición/anexión de datos y texto en archivos (Mathematica)
- 12. Nutch-Cygwin Cómo configurar JAVA_HOME
- 13. datos leídos del archivo yaml y producir una serie de rubí
- 14. Error de datos de iCloud y Core (Ubiquity: no obtuvo los metadatos iniciales de la URL de metadatos)
- 15. Cómo obtener el contenido html de nutch
- 16. se arrastra usando Nutch ... Muestra una IOException
- 17. Obtener correos no leídos de Outlook
- 18. Obtener el número de SMS no leídos
- 19. NSMutableDictionary adición y eliminación KVO
- 20. Uso del rastreador Nutch con Solr
- 21. Nutch No hay agentes listados en 'http.agent.name'
- 22. Obtener metadatos de MPMoviePlayerController
- 23. Gráficos de JavaScript: adición dinámica de puntos de datos
- 24. Devolución de metadatos con CSS
- 25. Adición small_image y de miniaturas programación
- 26. Adición/eliminación de elementos de datos JSON con jQuery
- 27. Cómo mostrar los datos leídos en el controlador de eventos DataReceived de serialport
- 28. SQL Server: extraer metadatos de tabla (descripción, campos y sus tipos de datos)
- 29. C# Buddy Classes/Metadatos y reflexión
- 30. Apache Tika y metadatos del documento
Hola CRS, ya que se ha insertado en cuestión con 'web semántica' Asumo que desea extraer algunos datos estructurados de las páginas que desea rastrear (ya sea microformatos, RDFa y/o Microdata). Si este es el caso, ahorrará mucho tiempo mirar Any23 (http://incubator.apache.org/any23/) (que podría estar integrado con Nutch y probablemente alguien ya esté tratando de hacerlo o lo haya hecho ya) – castagna
Gracias por la respuesta. Voy a echar un vistazo a Any23. De hecho, estoy rastreando páginas web "normales". No está asociado con ningún metadato. Tenemos un algoritmo que calcula los metadatos del texto de estas páginas web. Estos metadatos deben agregarse a la copia local de la página web. Así que estoy buscando un rastreador que rastree las páginas web y extraiga los contenidos y luego inserte los metadatos en la copia local de las páginas web. – CRS