pregunta corta:Alguien tiene ningún código C# para analizar y evaluar las URL robots.txt contra ella
Alguien tiene ningún código C# para analizar robots.txt y luego evaluar las URL en contra de ella por lo que ver si serían excluidos o no.
largo pregunta:
He sido la creación de un mapa de sitio para un nuevo sitio aún no se ha lanzado Google. El mapa del sitio tiene dos modos, un modo de usuario (como un mapa del sitio tradicional) y un modo 'admin'.
El modo de administración mostrará todas las URL posibles en el sitio, incluidas URL de entrada personalizadas o URLS para un socio externo específico, como example.com/oprah
para cualquiera que vea nuestro sitio en Oprah. Quiero rastrear enlaces publicados en otro lugar que no sea una hoja de cálculo de Excel.
Tendría que suponer que alguien podría publicar el enlace /oprah
en su blog o en alguna parte. En realidad, no queremos que este 'sitio mini-oprah' sea indexado porque daría lugar a que los espectadores que no son oprah puedan encontrar las ofertas especiales de Oprah.
Así que al mismo tiempo que estaba creando el mapa del sitio, también agregué URLs como /oprah
para excluir de nuestro archivo robots.txt
.
Luego (y esta es la pregunta real) pensé '¿no sería agradable poder mostrar en el mapa del sitio si los archivos están indexados y son visibles para los robots'? Esto sería bastante simple: simplemente analice robots.txt y luego evalúe un enlace en su contra.
Sin embargo, esta es una 'función de bonificación' y ciertamente no tengo tiempo para salir y escribirla (aunque probablemente no sea tan compleja), así que me pregunto si alguien ya ha escrito algún código para analizar robots .TXT ?
oops. admitiría que no busqué google esta vez. Sin embargo, irónicamente, esta pregunta es ahora la primera coincidencia de 'C# robots.txt' :-) Voy a ver si puedo extraer lo que necesito de eso. gracias –
Espero que no estés atrapado en un ciclo infinito ahora ;-) Es curioso, incluso muestran exactamente la parte de Google de mi respuesta como texto de vista previa. No me di cuenta de que Google se ha vuelto tan rápido ahora incluso para sitios que no son de noticias, muy interesante. – realMarkusSchmidt
¿Estoy cayendo en el circuito? :) – Velcro