Estoy tratando de obtener números de descarga precisos para algunos archivos en un servidor web. Miro a los agentes de usuario y algunos son claramente bots o rastreadores web, pero para muchos no estoy seguro, pueden o no ser un rastreador web y están causando muchas descargas, así que es importante para mí saberlo.¿Hay una lista de rastreadores web conocidos?
¿Hay algún lugar en la lista de rastreadores web conocidos con alguna documentación como agente de usuario, direcciones IP, comportamiento, etc.?
No me interesan las oficiales, como las de Google, Yahoo o Microsoft. Por lo general, se portan bien y se autoidentifican.
El problema en nuestro caso es que tenemos muchos descargadores válidos que no ejecutarán JavaScript, como iTunes o cualquier otro podcatcher. – Pablo
Lamentablemente, no tiene suerte en lo que respecta a descargas altamente precisas. La mejor alternativa que puedo recomendar es mirar tres números: descargas totales (sin filtro), filtro para excluir bots (filtro de lista negra) y filtro para incluir bien conocido (filtro de lista blanca). Eso, al menos, le dará algo a tener en cuenta para las tendencias y la estimación aproximada del parque de béisbol. – jwanagel