considerar lo siguiente:Python - Regex - ¿Cómo encontrar una cadena entre dos juegos de cuerdas
<div id=hotlinklist>
<a href="foo1.com">Foo1</a>
<div id=hotlink>
<a href="/">Home</a>
</div>
<div id=hotlink>
<a href="/extract">Extract</a>
</div>
<div id=hotlink>
<a href="/sitemap">Sitemap</a>
</div>
</div>
Cómo haría usted para sacar la línea de mapa del sitio con expresiones regulares en Python ?
<a href="/sitemap">Sitemap</a>
Lo siguiente se puede utilizar para extraer las etiquetas de anclaje.
'/<a(.*?)a>/i'
Sin embargo, hay varias etiquetas de delimitación. También hay múltiples enlaces de acceso rápido, así que tampoco podemos usarlos realmente?
Es probable que escuche que las expresiones regulares no son adecuados para analizar un libre de contexto lenguaje como HTML. – Gumbo
Si es usted el que genera ese código HTML, vale la pena señalar que múltiples atributos idénticos 'id =' como ese no son válidos. Una 'clase =' es más apropiada. –