Tengo un rastreador web simple para solicitar todas las páginas del mapa del sitio web que necesito para caché e indexar. Después de varias solicitudes, el sitio web comienza a publicar páginas en blanco.Etiqueta adecuada para un rastreador web Solicitudes HTTP
No hay nada en su robots.txt
excepto el enlace a su mapa del sitio, así que supongo que no estoy rompiendo sus "reglas". Tengo un encabezado descriptivo que vincula exactamente mis intenciones, y las únicas páginas que rastreo provienen de su mapa del sitio.
Los códigos de estado HTTP son aún está bien, así que sólo puedo imaginar que están impidiendo un gran número de peticiones HTTP en un corto período de tiempo. ¿Qué se considera una cantidad razonable de retraso entre las solicitudes?
¿Hay otras consideraciones que he pasado por alto que potencialmente podrían causar este problema?
¿qué quiere decir con que no hay nada en su archivo robots.txt a excepción de un enlace a su mapa del sitio? – freespace
no hay nada en la prohibición, y su permiso es * – Adam