2012-03-09 15 views
8

Quiero conseguir el texto de un archivo html en javarecuperar el texto del archivo html en java

Mi archivo html es:

<body> 

<p>vishal</p> 
<strong>patel</strong> 
<bold >vishal patel 

Quiero salida como esta

vishal 

patel 

vishal patel 

Cómo para hacer esto por favor ayúdenme

+0

puede utilizar el analizador xml –

+0

¿Desea leerlo desde un archivo html en la web, que debe utilizar el siguiente tutorial http://docs.oracle.com/javase/tutorial/networking/urls/readingWriting .html –

+0

De lo contrario, use de hecho un XmlParser. Por cierto, usted no finalizó la etiqueta

Respuesta

20

He usado una biblioteca llamada JSoup.
Es muy sencillo recuperar la parte de solo texto de un archivo HTML.
Es muy simple:

Jsoup.parse(html).text(); 

le da el texto del archivo HTML

+0

Quiero tres textos diferentes para que los almacene en String array Pero jsoup solo me da un texto ... –

+5

@ user1206635 amigo, tienes que probar algunos de tus propio. – Nishant

+0

@ user1206635 JSoup te da el texto, tienes que hacer el resto. Nishant, +1 por ti! – Rakesh

3

Es mejor usar analizador de HTML .... Yo prefiero usar JSoup analizador (paquete de código abierto) ....

import org.jsoup.Jsoup; 
public class HTMLUtils { 

    public static String extractText(Reader reader) throws IOException { 
     StringBuilder sb = new StringBuilder(); 
     BufferedReader br = new BufferedReader(reader); 
     String line; 
     while ((line = br.readLine()) != null) { 
      sb.append(line); 
     } 
     String textOnly = Jsoup.parse(sb.toString()).text(); 
     return textOnly; 
    } 

    public final static void main(String[] args) throws Exception { 
     FileReader reader = new FileReader("C:/RealHowTo/topics/java-language.html"); 
     System.out.println(HTMLUtils.extractText(reader)); 
    } 
} 
Cuestiones relacionadas