2010-02-24 17 views
6

He estado buscando una herramienta de línea de comandos que convierta el código html en el texto que aparecería en el sitio ... por lo que sería equivalente a un navegador web seleccionar todo y luego pegarlo en un editor de texto ...¿Hay alguna manera simple en Linux para quitar un sitio web de texto de la línea de comandos?

¿Alguien sabe algo en Ubuntu que haría esto? Intento escribir un script para analizar algunas páginas web, pero preferiría no tener que lidiar con el HTML y preferiría simplemente analizar el texto que aparece en el sitio web.

Gracias,

Dan

Respuesta

12
lynx -dump http://example.com/ 
7

si ya tiene el archivo html:

lynx -dump file.html > file.txt 

utilizan de alguna manera @ de Ignacio

3

creo que es necesario lince:

lynx -dump http://stackoverflow.com > file 
Cuestiones relacionadas