2009-11-14 14 views
13

Estoy tratando de obtener números de descarga precisos para algunos archivos en un servidor web. Miro a los agentes de usuario y algunos son claramente bots o rastreadores web, pero para muchos no estoy seguro, pueden o no ser un rastreador web y están causando muchas descargas, así que es importante para mí saberlo.¿Hay una lista de rastreadores web conocidos?

¿Hay algún lugar en la lista de rastreadores web conocidos con alguna documentación como agente de usuario, direcciones IP, comportamiento, etc.?

No me interesan las oficiales, como las de Google, Yahoo o Microsoft. Por lo general, se portan bien y se autoidentifican.

Respuesta

4

Desafortunadamente, hemos encontrado que la actividad del bot es demasiado numerosa y variada para poder filtrarla con precisión. Si desea recuentos de descargas precisas, su mejor opción es requerir javascript para desencadenar la descarga. Eso es básicamente lo único que filtrará de manera confiable los bots. También es por eso que todos los motores de análisis de tráfico del sitio actualmente están basados ​​en JavaScript.

+0

El problema en nuestro caso es que tenemos muchos descargadores válidos que no ejecutarán JavaScript, como iTunes o cualquier otro podcatcher. – Pablo

+0

Lamentablemente, no tiene suerte en lo que respecta a descargas altamente precisas. La mejor alternativa que puedo recomendar es mirar tres números: descargas totales (sin filtro), filtro para excluir bots (filtro de lista negra) y filtro para incluir bien conocido (filtro de lista blanca). Eso, al menos, le dará algo a tener en cuenta para las tendencias y la estimación aproximada del parque de béisbol. – jwanagel

Cuestiones relacionadas