Combinaría la sugerencia de Sklivvz con al menos la inspección de la etiqueta del título y, de ser posible, Whois records.
Si analiza el aviso de copyright de stackoverflow.com, puede terminar con "stackoverflow.com" o "stackoverflow.com LLC" y eso es irrelevante.
En el ejemplo de maxmind.com si analiza el aviso legal "Copyright © 2009 MaxMind, Inc." usted termina con "MaxMind" o "MaxMind, Inc.", si combina con la etiqueta del título "Geolocalización y prevención del fraude en línea de MaxMind", la única palabra que aparece en ambos lugares es MaxMind.
También herramientas de dominio.com rompe el nombre de dominio en palabras (todo el mundo puede cambiar, aunque), puede analizar esta página y agarrar el nombre "real", algunos ejemplos:
http://whois.domaintools.com/maxmind.com = Max Mind
http://whois.domaintools.com/dabbledb.com = Dabble Db
http://whois.domaintools.com/domaintools.com = Domain Tools
http://whois.domaintools.com/stackoverflow.com = Stack Overflow
http://whois.domaintools.com/joelonsoftware.com = Joel On Software
aboutus.org también podría ser una muy buena referencia a la hora disponible :
http://aboutus.org/maxmind.com = MaxMind LLC
http://aboutus.org/dabbledb.com = ...
http://aboutus.org/domaintools.com = DomainTools.com
http://aboutus.org/stackoverflow.com = Stack Overflow AG
http://aboutus.org/joelonsoftware.com = Fog Creek Software Inc.
Gracias por la sugerencia de símbolo de copyright! Creo que esto debería funcionar para la mayoría de los casos sin falta. Cualquier empresa que haga negocios reales definitivamente agregaría esto a su sitio web. ! –
¡Sería genial si pudieras actualizarnos para saber si funcionó! =) – Sklivvz
¡seguro! Planeo hackear algún código esta noche y ejecutarlo en datos de prueba que consisten en un par de cientos de sitios web para ver el resultado. –