Como dijo Pablo una Muchos de los intérpretes de robots.txt no son demasiado brillantes y es posible que no interpreten comodines en la ruta, ya que tiene la intención de usarlos.
Dicho esto, algunos rastreadores intentan omitir las páginas dinámicas por su cuenta, preocupándose de que puedan quedar atrapados en infinitos bucles en enlaces con diferentes URL. Asumo que estás haciendo esta pregunta porque te enfrentas a un rastreador valiente que está tratando de acceder a esas rutas dinámicas.
Si tiene problemas con rastreadores específicos, puede intentar investigar específicamente cómo funciona el rastreador buscando en la capacidad del archivo robots.txt y especificando una sección de robots.txt específica para él.
Si por lo general solo desea deshabilitar dicho acceso a sus páginas dinámicas, es posible que desee replantear su diseño de robots.txt.
La mayoría de las veces, las "páginas" de tratamiento de parámetros dinámicos se encuentran bajo un directorio específico o un conjunto específico de directorios. Es por eso que normalmente es muy simple simplemente No permitir:/cgi-bin o/app y listo.
En su caso, parece que ha asignado la raíz a un área que maneja los parámetros. Es posible que desee invertir la lógica de robots.txt y decir algo como:
User-agent: *
Allow: /index.html
Allow: /offices
Allow: /static
Disallow:/
De esta manera su lista Permitir anulará su lista Inhabilitar añadiendo específicamente qué rastreadores debe indexar. Tenga en cuenta que no todos los rastreadores se crean de la misma manera y es posible que desee refinar el archivo robots.txt posteriormente para agregar una sección específica para cualquier rastreador que todavía se comporte mal.
Según [esto] (http://smackdown.blogsblogsblogs.com/2008/05/23/googlebot-creates-pages-instead-of-simply-indexing-them-new-form-crawling-algo-goes -bad /), rechazar las páginas de búsqueda puede ser una muy buena idea. Entonces esta pregunta es muy relevante y no debería ser cerrada. –