2009-04-28 11 views
8

Tengo un rastreador web simple para solicitar todas las páginas del mapa del sitio web que necesito para caché e indexar. Después de varias solicitudes, el sitio web comienza a publicar páginas en blanco.Etiqueta adecuada para un rastreador web Solicitudes HTTP

No hay nada en su robots.txt excepto el enlace a su mapa del sitio, así que supongo que no estoy rompiendo sus "reglas". Tengo un encabezado descriptivo que vincula exactamente mis intenciones, y las únicas páginas que rastreo provienen de su mapa del sitio.

Los códigos de estado HTTP son aún está bien, así que sólo puedo imaginar que están impidiendo un gran número de peticiones HTTP en un corto período de tiempo. ¿Qué se considera una cantidad razonable de retraso entre las solicitudes?

¿Hay otras consideraciones que he pasado por alto que potencialmente podrían causar este problema?

+0

¿qué quiere decir con que no hay nada en su archivo robots.txt a excepción de un enlace a su mapa del sitio? – freespace

+0

no hay nada en la prohibición, y su permiso es * – Adam

Respuesta

8

Cada sitio tiene diferentes características de rastreo y abuso que busca.

La clave para cualquier rastreador es emular la actividad humana, y obedecer al robots.txt.

Un rastreo exhaustivo hará que algunos sitios web pasen desapercibidos, y te desconectarán independientemente de lo lento que vayas, mientras que a algunos hosts no les molesta que los rastreadores sigan moviéndose y absorbiendo todo de una vez.

  • En general, no desea solicitar páginas más rápido que 6 por minuto (sobre la velocidad humana).
  • Estará más seguro siguiendo los enlaces en orden de visibilidad en la página web.
  • Intenta ignorar los enlaces que no son visibles en la página web (mucha gente usa honeypots).

Si todo lo demás falla, no solicite más rápido que una página por minuto. Si un sitio web lo bloquea a este ritmo, póngase en contacto con él directamente; es obvio que no quiere que use su contenido de esa manera.

2

supongo Wikipedia tiene a decent reference sobre el tema. Obedezcalos y, por cortesía, un poco más.

Por ejemplo, probablemente me habría máximo la velocidad de conexión en un hit por segundo, o que estaría arriesgando una inadvertida DoS-ataque.

Cuestiones relacionadas