Ésta es una respuesta tardía, pero está completo: es bastante difícil conseguir ni siquiera cerca de 90% de ir a buscar todos los iconos de favoritos.
Hace un tiempo escribí un plugin de WordPress: http://wordpress.org/extend/plugins/wp-favicons/ que intenta acercarse.
a. comienza mirando repositorios de favicon como google favicons, getfavicons, etc. ...
b. si ninguno de ellos devuelve un ícono (lo compruebo haciendo coincidir con el icono predeterminado que devuelven) empiezo por intentar obtener el ícono yo mismo
c. esto implica atravesar las páginas, pero también revisar las redirecciones con NO autoredirect así como atravesar los 404 porque también en los 404's podría estar presente un ícono. Al final significa que tendrá que analizar los redireccionamientos en el encabezado html así como los redireccionamientos de JavaScript para estar más cerca de ser 100%
d. después de eso, realizo algunas inspecciones en el archivo de imagen física, porque a veces en algunos servidores (probé 300.000+) los archivos se devuelven con el tipo de mime incorrecto, etc.
El código aún no es perfecto porque en los detalles se vuelve loco, encontrará muchas situaciones extrañas: las personas tienen rutas codificadas incorrectamente (img/favicon.ico donde img NO está en la raíz), encabezados duplicados en la salida html, diferentes respuestas del servidor de una cabeza y cuerpo, etc ...
el núcleo de la pieza es ir a buscar aquí: http://plugins.svn.wordpress.org/wp-favicons/trunk/includes/server/class-http.php para que pueda técnicas de ingeniería inversa, pero tenga en cuenta que la validación de la respuesta realmente debe hacerse (control de tipo de archivo de imagen, mimo, etc ..)
¿Sigue funcionando GetFavIcon? cuando ejecuto su ejemplo me sale un error de 400 – Julien
parece que Google tiene un servicio similar ahora: http://www.google.com/s2/favicons?domain_url=stackoverflow.com – hunter
si alguien quiere una alternativa a Google, DuckDuckGo tiene Otra solución: http://icons.duckduckgo.com/ip2/www.stackoverflow.com.ico –