2010-09-27 18 views
6

Necesito extraer texto de un archivo HTML usando C#. Estoy tratando de usar HTMLAgilityPack pero estoy viendo algunos errores de análisis (etiquetas no cerradas). estoy usando estas dos opciones:C# HTMLAgilityPack HTML to Text - Parse Errors

 htmlDoc.OptionFixNestedTags = true; 
     htmlDoc.OptionAutoCloseOnEnd = true; 

¿Hay alguna "arreglar todo" opción de tipo. No me importan los errores, solo quiero el contenido o cerrarlo.

Respuesta

4

Tal vez esto es solución, pero una vez tuve que extraer el texto de HTML que utiliza expresiones regulares:

result = Regex.Replace(result, @"<(.|\n)*?>", String.Empty); 
result = Regex.Replace(result, @"^\n*", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase); 
result = Regex.Replace(result, @"\n*$", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase); 
result = result.Replace("\n", " "); 
+2

Gracias! Estaba buscando una solución más HTMLAgilityPack ... – tvr