2010-07-28 34 views
6

¿Alguien ha integrado BeautifulSoup con ASP.NET/C# (posiblemente usando IronPython o de otro modo)? ¿Existe una alternativa BeautifulSoup o un puerto que funciona muy bien con ASP.NET/C#BeautifulSoup y ASP.NET/C#

La intención de la planificación para utilizar la biblioteca es extraer legible texto desde cualquier dirección URL aleatoria.

Gracias

Respuesta

9

Html Agility Pack es un proyecto similar, pero para C# y .NET


EDIT:

Para extraer todo el texto legible:

document.DocumentNode.InnerText 

Tenga en cuenta que este devolverá el contenido de texto de <script> etiquetas.

Para corregir esto, puede eliminar todos los <script> etiquetas, así:

foreach(var script in doc.DocumentNode.Descendants("script").ToArray()) 
    script.Remove(); 
foreach(var style in doc.DocumentNode.Descendants("style").ToArray()) 
    style.Remove(); 

(Crédito: SLaks)

+0

¿Cómo iba a usar H AP para raspar texto legible de una página HTML. En BeautifulSoup, es muy fácil hacer esto. – user300981

+0

He actualizado mi respuesta –

+0

¿El DocumentNode.InnerText obtiene todo el texto dentro de las etiquetas ? Mi preocupación es que necesito apoyar esto para las URL que no siguen ningún estándar. Puede haber suciedad por todas partes. ¿HAP es lo suficientemente inteligente como para distinguir entre texto legible y etiquetas HTML irrelevantes, comentarios, secuencias de comandos del cliente? – user300981

0

Sé que esto es bastante antiguo, pero decidí publicar esto para referencia futura. Encontré esta búsqueda de una solución similar.

me encontré con una biblioteca construida en la parte superior de la agilidad HTML modalidad denominada scrapysharp

Lo he utilizado de manera bastante similar como me BeautifulSoup https://bitbucket.org/rflechner/scrapysharp/wiki/Home

Cuestiones relacionadas