2010-12-02 10 views
6

Estoy trabajando en un proyecto en el que necesito un rastreador maduro para hacer un poco de trabajo, y estoy evaluando Nutch para este fin. Mis necesidades actuales son relativamente sencillas: necesito un rastreador que pueda guardar los datos en el disco y necesito que vuelva a rastrear solo los recursos actualizados de un sitio y omita las partes que ya se han rastreado. ¿Alguien tiene experiencia trabajando con el código de Nutch directamente en Java, no a través de la línea de comando? Me gustaría comenzar de manera simple: crear un rastreador (o similar), configurarlo mínimamente e iniciarlo, nada sofisticado. ¿Hay algún ejemplo para esto, o algún recurso que debería estar mirando? Repaso la documentación de Nutch, pero la mayor parte se trata de línea de comandos, búsqueda y otras cosas. ¿Cómo se puede utilizar el módulo de rastreo de Nutch sin necesidad de indexar ni buscar? Se agradece cualquier ayuda. Gracias.Nutch API advice

Respuesta

1

Nutch es muy diferente de lo que has practicado más probablemente. Debido a que es algo así como un marco, no solo tiene el frente para la búsqueda &, aunque el solr parece ser más poderoso que el buscador nativo de Nutch. También tiene la parte de rastreo y la indexación (en un índice de Lucene).

Si desea utilizar el rastreo para otros fines además de la búsqueda, deberá desarrollar sus propios programas y familiarizarse con la programación de Hadoop y MapReduce.

No estoy seguro de qué quiere hacer con su rastreo, pero no parece que Nutch es la solución