Obtenga todos los enlaces en la página html?

Im trabajando en un pequeño proyecto de hobby. Ya he escrito el código para obtener una URL, descargo el encabezado y devuelvo el tipo de tipo/contenido de mimo.Obtenga todos los enlaces en la página html?

Sin embargo, el paso antes de que este es el im pegado en - i necesidad de recuperar el contenido de todas las URL de la página de base dentro de una etiqueta, y entre comillas es decir

... 
<link rel='shortcut icon' href="/static/favicon.ico" type="image/x-icon" /> 
...

encontraría el favicon enlazar.

¿Hay algo de ayuda en la biblioteca .net o va a ser necesario para regex?

Fuente

2010-02-11 maxp

+11

Estoy recibiendo una sensación extraña que la agilidad del paquete de HTML es el camino a seguir ... – jball

Miraría usar el Html Agility Pack.

He aquí un ejemplo directamente desde su página de ejemplos sobre cómo encontrar todos los enlaces en una página:

HtmlWeb hw = new HtmlWeb(); 
HtmlDocument doc = hw.Load(/* url */); 
foreach(HtmlNode link in doc.DocumentNode.SelectNodes("//a[@href]")) 
{ 

}

Fuente

2010-02-11 22:56:27 womp

XPath-ey - me gusta ¡eso! – maxp

'DocumentElement' debe reemplazarse con' DocumentNode' – HadiRj

Solo quería agregar que si el sitio que está intentando cargar tiene alguna compresión gzip, arrojará una excepción sobre 'hw.Load':' "'gzip' no es un nombre de codificación compatible. Para obtener información sobre cómo definir una codificación personalizada, consulte la documentación del método Encoding.RegisterProvider. Encontró una solución [aquí] (https://stackoverflow.com/a/36220920/6178243) –

no hay nada integrado en el BCL, pero afortunadamente se puede utilizar el HTML Agility Pack de lograr esto tarea bastante simple.

cuanto a su problema específico, consulte Easily extracting links from a snippet of html with HtmlAgilityPack:

private List<string> ExtractAllAHrefTags(HtmlDocument htmlSnippet) 
{ 
    List<string> hrefTags = new List<string>(); 

    foreach (HtmlNode link in htmlSnippet.DocumentNode.SelectNodes("//a[@href]")) 
    { 
     HtmlAttribute att = link.Attributes["href"]; 
     hrefTags.Add(att.Value); 
    } 

    return hrefTags; 
}

Fuente

2010-02-11 22:56:53

Esto se puede hacer mucho más simplemente usando LINQ. – SLaks

No estoy de acuerdo con que un enfoque basado en LINQ sea más simple. ¿Declarativo? Sí. ¿Funcional? ¿Absolutamente más simple? No, ambas soluciones son iguales en su simplicidad –

XPath debería usar menos memoria –

Es necesario utilizar el HTML Agility Pack.

Por ejemplo:

var doc = new HtmlWeb().Load(url); 
var linkTags = doc.DocumentNode.Descendants("link"); 
var linkedPages = doc.DocumentNode.Descendants("a") 
            .Select(a => a.GetAttributeValue("href", null)) 
            .Where(u => !String.IsNullOrEmpty(u));

Fuente

2010-02-11 22:57:40 SLaks

¿Qué hay de expresiones regulares?

<(a|link).*?href=(\"|')(.+?)(\"|').*?>

con banderas y IgnoreCaseSingleLine

Ver demostración de systemtextregularexpressions.com regex.matches

Fuente

2015-08-04 09:42:39 GRUNGER

Obtenga todos los enlaces en la página html?

Respuesta

Cuestiones relacionadas