Estoy buscando algoritmos que permitan la extracción de texto de sitios web. No me refiero a "strip html", ni a ninguna de las cientos de bibliotecas que lo permiten.Extracción de texto corporal de sitios web, p. extraer solo el encabezado del artículo y el texto no todo el texto en el sitio
Así que, por ejemplo, para un artículo de noticias, me gustaría identificar el encabezado y todo el texto, pero no la sección de comentarios, etc.
¿Hay algún algoritmo para eso? ¡Gracias!
Creo que la frase que estás buscando es "Web raspado" – StriplingWarrior