C# HTMLAgilityPack HTML to Text - Parse Errors

Necesito extraer texto de un archivo HTML usando C#. Estoy tratando de usar HTMLAgilityPack pero estoy viendo algunos errores de análisis (etiquetas no cerradas). estoy usando estas dos opciones:C# HTMLAgilityPack HTML to Text - Parse Errors

 htmlDoc.OptionFixNestedTags = true; 
     htmlDoc.OptionAutoCloseOnEnd = true;

¿Hay alguna "arreglar todo" opción de tipo. No me importan los errores, solo quiero el contenido o cerrarlo.

Fuente

2010-09-27 tvr

Tal vez esto es solución, pero una vez tuve que extraer el texto de HTML que utiliza expresiones regulares:

result = Regex.Replace(result, @"<(.|\n)*?>", String.Empty); 
result = Regex.Replace(result, @"^\n*", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase); 
result = Regex.Replace(result, @"\n*$", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase); 
result = result.Replace("\n", " ");

Fuente

2010-09-27 09:42:21 Ichibann

Gracias! Estaba buscando una solución más HTMLAgilityPack ... – tvr

C# HTMLAgilityPack HTML to Text - Parse Errors

Respuesta

Cuestiones relacionadas