Estoy trabajando en un proyecto en el que necesito un rastreador maduro para hacer un poco de trabajo, y estoy evaluando Nutch para este fin. Mis necesidades actuales son relativamente sencillas: necesito un rastreador que pueda guardar los datos en el disco y necesito que vuelva a rastrear solo los recursos actualizados de un sitio y omita las partes que ya se han rastreado. ¿Alguien tiene experiencia trabajando con el código de Nutch directamente en Java, no a través de la línea de comando? Me gustaría comenzar de manera simple: crear un rastreador (o similar), configurarlo mínimamente e iniciarlo, nada sofisticado. ¿Hay algún ejemplo para esto, o algún recurso que debería estar mirando? Repaso la documentación de Nutch, pero la mayor parte se trata de línea de comandos, búsqueda y otras cosas. ¿Cómo se puede utilizar el módulo de rastreo de Nutch sin necesidad de indexar ni buscar? Se agradece cualquier ayuda. Gracias.Nutch API advice
6
A
Respuesta
1
Nutch es muy diferente de lo que has practicado más probablemente. Debido a que es algo así como un marco, no solo tiene el frente para la búsqueda &, aunque el solr parece ser más poderoso que el buscador nativo de Nutch. También tiene la parte de rastreo y la indexación (en un índice de Lucene).
Si desea utilizar el rastreo para otros fines además de la búsqueda, deberá desarrollar sus propios programas y familiarizarse con la programación de Hadoop y MapReduce.
No estoy seguro de qué quiere hacer con su rastreo, pero no parece que Nutch es la solución
Cuestiones relacionadas
- 1. C++ namespaces advice
- 2. jQuery lightweight tooltip script advice
- 3. Nutch versus Solr
- 4. Spring AOP AfterThrowing vs. Around Advice
- 5. Nutch-Cygwin Cómo configurar JAVA_HOME
- 6. Cómo obtener el contenido html de nutch
- 7. se arrastra usando Nutch ... Muestra una IOException
- 8. Nutch: datos leídos y adición de metadatos
- 9. Uso del rastreador Nutch con Solr
- 10. Nutch No hay agentes listados en 'http.agent.name'
- 11. ¿Ha indexado los resultados de rastreo nutch usando elasticsearch anteriormente?
- 12. Nutch en problema de EMR leyendo de S3
- 13. Nutch: Invocar en Java, ¿no en la línea de comandos?
- 14. ¿Cómo usar Nutch Solrindex para indexar múltiples núcleos?
- 15. Nutch no rastrea todos los eslabones de forma
- 16. ¿Cómo creamos un motor de búsqueda simple usando Lucene, Solr o Nutch?
- 17. heredada controlador API API Web
- 18. API de redes multiplataforma API
- 19. Streaming API vs Rest API?
- 20. Flickr api vs. Picasa api
- 21. Cocoa API - ¿Contiene una api de diferencias?
- 22. Cómo obtener un API API AppID
- 23. speedtest.net api
- 24. Python API
- 25. Interoperación de clojure a con API iterativa no estándar API
- 26. Google Maps API [Directions API] ¿Limitación de Waypoints?
- 27. Plugin API vs API de biblioteca de clases
- 28. Google Maps API v2 vs Google Maps API v3?
- 29. Google Earth API vs Google Earth COM API
- 30. Enviando un CAll API con la API SOAP de PayPal