2009-01-29 12 views
9

¿Alguien sabe de una manera de detectar programáticamente una página web estacionada? Es decir, aquellas páginas que ingresa accidentalmente (o intencionalmente a veces) y están alojadas en un servicio de estacionamiento de dominio con anuncios en ellas.Método para detectar una página estacionada?

Estoy trabajando en una red de enlaces y quiero asegurarme de que los sitios que caducan no terminen siendo arrebatados por otra persona y que luego sean una página estacionada.

Respuesta

10

Aquí hay una prueba que creo que puede atrapar un número decente de ellas. Aprovecha el hecho de que en realidad no desea tener sitios web reales para sus dominios aparcados. Busca el comodín tanto del subdominio como de la ruta. Digamos que tenemos esta URL en nuestro sistema

http://www.example.com/method-to-detect-parked.

Primero verificaría la URL real y la picaría o tomaría una copia para comparar.

Mi segundo cheque sería

http://random.example.com/random

Si coincide con el enlace original o incluso tiene éxito, usted tiene un buen indicador de que la página está aparcado. Si falla, podría verificar tanto el subdominio como la ruta individualmente. Si la página cambia aleatoriamente algunos elementos, es posible que desee elegir algunos elementos para comparar. Por ejemplo, haga una lista de enlaces incluidos en la página y compare esos o tal vez la etiqueta del título.

7

Yo diría que tendrá que examinar los registros de WHOIS para los sitios en cuestión y/o el contenido real de las páginas y desarrollar algunas heurísticas sobre qué constituye una "página estacionada".

Tome goooogle.com, mirando su registro WHOIS muestra que son propiedad de "Protección de privacidad" y que sus servidores DNS son ns1/ns2.fastpark.net. Si miras la fuente del sitio, son lo suficientemente tontos como para tener un archivo CSS llamado "style_park.css" :)

En general, no creo que puedas inventar una forma genérica de hacerlo. Probablemente termines con alguna base de reglas en evolución o lista negra

+0

Podría tener una mejor oportunidad con la idea de listas negras y reglas ... Es muy difícil averiguar programáticamente si estás mirando basura de datos, pero aún podrías buscar patrones únicos en los archivos (reglas de CSS comunes, imágenes, etc.) – David

2

Puede confiar en sus usuarios para "Informar sobre este enlace" ... ¿qué lo pondría en una cola para revisarlo más tarde?

1

Mire la fecha de creación del registro dns/whois y compárela con la fecha de adición del enlace. Si el DNS es más reciente, es un enlace que necesita verificación manual.

O bien: marque http://example.com/ y http://example.com/xxxxxxrandomstringxxxxx. Si esas dos páginas son idénticas, tiene algún tipo de problema que necesita verificación manual. O bien la página principal a la que quería vincular está rota, o el dominio está estacionado y todas las páginas devuelven el mismo valor. Esta prueba no es 100%, porque algunas páginas estacionadas hacen eco de los elementos de la URL.

Si solo desea consultar un sitio web existente, un servicio como http://www.linkalarm.com/ lo hace bien.

Cuestiones relacionadas