¿Cómo usaría Regex para extraer el cuerpo de un documento html, teniendo en cuenta que las etiquetas html y body podrían estar en mayúsculas, minúsculas o podrían no existir?Regex Extract html Cuerpo
Respuesta
No use una expresión regular para esto - use algo como Html Agility Pack.
Se trata de un analizador de HTML ágil que construye una lectura/escritura DOM y apoya XPATH liso o XSLT (que en realidad no tiene que comprender XPath ni XSLT para usarlo, no se preocupe. ..). Es una biblioteca de códigos .NET que le permite analizar los archivos HTML "fuera de la web". El analizador es muy tolerante con el "HTML real global malformado". El objeto modelo es muy similar a lo que propone System.Xml, pero para documentos HTML (o transmisiones).
Luego puede extraer el body
con un XPATH.
Estoy de acuerdo. Lo he usado y debo decir que es rápido, limpio y ordenado. –
Esto debe conseguir que bastante cerca:
(?is)<body(?:\s[^>]*)>(.*?)(?:</\s*body\s*>|</\s*html\s*>|$)
Proporcione una solución detallada. – ShaileshDev
¿Qué tal algo como esto?
Captura todo entre <body></body>
etiquetas (sin distinción de mayúsculas y minúsculas debido a RegexOptions.IgnoreCase
) en un grupo llamado theBody
.
RegexOptions.Singleline
nos permite manejar HTML de varias líneas como una sola cadena.
Si el HTML no contiene <body></body>
etiquetas, la propiedad Success
del partido será falsa.
string html;
// Populate the html string here
RegexOptions options = RegexOptions.IgnoreCase | RegexOptions.Singleline;
Regex regx = new Regex("<body>(?<theBody>.*)</body>", options);
Match match = regx.Match(html);
if (match.Success) {
string theBody = match.Groups["theBody"].Value;
}
- 1. Regex para que coincida con el contenido del cuerpo HTML en PHP
- 2. Python equivalente de PHP's compact() y extract()
- 3. javascript regex reemplazar html chars
- 4. php regex para eliminar HTML
- 5. de ajuste globales en html o cuerpo
- 6. ¿Codifica citas en el cuerpo de HTML?
- 7. cuerpo: => Html en Play framework?
- 8. Regex - Coincidir atributo en un código HTML
- 9. Regex: Strip atributos HTML, excepto SRC
- 10. Expresión regular para extraer contenido de cuerpo HTML
- 11. Uso de sendmail para cuerpo HTML y archivo adjunto binario
- 12. ¿Pone metaetiquetas de Schema Microdata en el cuerpo html?
- 13. ¿Cómo alinear todo el cuerpo html al centro?
- 14. PHP DOMDocument - obtener código fuente HTML de CUERPO
- 15. Agregar HTML al final del cuerpo usando javascript
- 16. HTML vs texto simple como cuerpo en el correo electrónico
- 17. ¿Cómo aplicar CSS al elemento del cuerpo HTML?
- 18. Aplicación de formato HTML en el cuerpo del correo electrónico
- 19. cuerpo HTML es más pequeño que su contenido
- 20. Aumento de Regex Efficiency
- 21. Cuerpo de Javascript OnClick
- 22. ¿Por qué $ ("cuerpo") == $ ("cuerpo") devuelve falso?
- 23. RegEx juego etiquetas HTML y la extracción de texto
- 24. Regex para reemplazar el atributo html src en PHP
- 25. Reemplazar la cadena fuente html de MS Outlook usando regex?
- 26. PHP Regex encontrar texto entre añadido encargo etiquetas HTML
- 27. Regex usando js para quitar js de html
- 28. mailto: Cuerpo de formatear
- 29. Extraer coincidencias de php regex
- 30. Meta Tags en el cuerpo
Duplicado de http://stackoverflow.com/questions/356340/regular-expression-to-extract-html-body-content? – M4N