? Tengo un requerimiento para extraer todo el texto que está presente en el <body>
del html. Muestra de entrada HTML: -¿Cómo puedo extraer solo el texto del html
<html>
<title>title</title>
<body>
<h1> This is a big title.</h1>
How are doing you?
<h3> I am fine </h3>
<img src="abc.jpg"/>
</body>
</html>
La salida debe ser: -
This is a big title. How are doing you? I am fine
Quiero utilizar solamente HtmlAgility para este propósito. Sin expresiones regulares por favor.
Sé cómo cargar HtmlDocument y luego usando xquery como '// body' podemos obtener el contenido del cuerpo. Pero ¿cómo puedo quitar el html como lo he mostrado en la salida?
Gracias de antemano :)
Ver [esta pregunta] (http://stackoverflow.com/questions/846994/how-to-use-html -agility-pack) para algunos enlaces de HTML Agility Pack. Supongo que tienes que llamar algo así como la propiedad 'InnerText' en' HtmlNode'. –