Su mejor opción es golpear juntos su propia araña en su lenguaje de script de elección, que se podía hacer de forma recursiva a lo largo de las líneas de:
// Pseudo-code to recursively check for broken links
// logging all errors centrally
function check_links($page)
{
$html = fetch_page($page);
if(!$html)
{
// Log page to failures log
...
}
else
{
// Find all html, img, etc links on page
$links = find_links_on_page($html);
foreach($links as $link)
{
check_links($link);
}
}
}
vez que su sitio ha conseguido un cierto nivel de atención de Google, sus webmaster tools son invaluables para mostrar enlaces rotos que los usuarios pueden encontrar, pero esto es bastante reaccionario: los enlaces muertos pueden estar disponibles varias semanas antes de que los indexe y registre el 404 en su panel de webmaster.
Escribir su propio script como el anterior le mostrará todos los enlaces rotos posibles, sin tener que esperar a que google (herramienta de webmaster) o sus usuarios (404 en los registros de acceso) tropiecen con ellos.
También hay [HTTrack] (http://www.httrack.com/) que puede hacer el trabajo bastante bien. –
Si le interesa encontrar enlaces inactivos, incluida la consideración de si el identificador de fragmento está activo, considere https://github.com/gajus/deadlink. – Gajus
@DaviddCeFreitas: ¿Te importa crear una respuesta para que podamos ver exactamente cómo podemos usar httrack para encontrar enlaces muertos? –