amigo Tengo que analizar la descripción de la url, donde el contenido analizado tiene pocas etiquetas html, así que ¿cómo puedo convertirlo a texto sin formato.cómo convertir texto HTML a texto sin formato?
Respuesta
Utilizar un analizador de HTML como htmlCleaner
Por respuesta detallada: How to remove HTML tag in Java
lo recomiendo analizar el HTML puro a través jTidy que debería darle salida que se puede escribir expresiones XPath. Esta es la forma más robusta que he encontrado de raspar HTML.
Sólo deshacerse de las etiquetas HTML es simple:
// replace all occurrences of one or more HTML tags with optional
// whitespace inbetween with a single space character
String strippedText = htmlText.replaceAll("(?s)<[^>]*>(\\s*<[^>]*>)*", " ");
Pero, por desgracia los requisitos no son tan simples:
Por lo general, <p>
y <div>
elementos necesitan un manejo separado, puede haber bloques CDATA con >
caracteres (p. Ej., Javascript) que estropean la expresión regular, etc.
¡Bien, aclaraste toda esa complejidad! – ankitjaininfo
Para obtener información general sobre por qué esto no funcionará para el caso general, y no será f (u | oo) l-proof: [Etiquetas abiertas de ajuste de RegEx excepto etiquetas autocontenidas XHTML] (http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags) –
Puede utilizar esta única línea para eliminar las etiquetas html y mostrarla como texto sin formato.
htmlString=htmlString.replaceAll("\\<.*?\\>", "");
Si desea analizar como en la pantalla del navegador, utilice:
import net.htmlparser.jericho.*;
import java.util.*;
import java.io.*;
import java.net.*;
public class RenderToText {
public static void main(String[] args) throws Exception {
String sourceUrlString="data/test.html";
if (args.length==0)
System.err.println("Using default argument of \""+sourceUrlString+'"');
else
sourceUrlString=args[0];
if (sourceUrlString.indexOf(':')==-1) sourceUrlString="file:"+sourceUrlString;
Source source=new Source(new URL(sourceUrlString));
String renderedText=source.getRenderer().toString();
System.out.println("\nSimple rendering of the HTML document:\n");
System.out.println(renderedText);
}
}
espero que esto ayudará a analizar tabla también en el formato de navegador.
Gracias, Ganesh
¿Pueden los downvoters explicar por qué votaron negativamente? – koppor
- 1. Cómo convertir reStructuredText a texto sin formato
- 2. Convertir html a texto sin formato en VBA
- 3. ASP clásico (VBScript) convertir códigos HTML a texto sin formato
- 4. HTML a texto sin formato (para correo electrónico)
- 5. Enviando boletines HTML con texto sin formato
- 6. Convertir HTML a texto sin formato y mantener la estructura/formato, con ruby
- 7. ¿Reducción a texto sin formato en Ruby?
- 8. ¿Hay alguna función que convierta HTML a texto sin formato?
- 9. códigos de convertir HTML a texto plano
- 10. Python: Cómo convertir texto con formato de rebajas al texto
- 11. La mejor manera de convertir HTML a texto sin formato usando Python
- 12. RTF a texto sin formato en Java
- 13. Obtener texto sin formato desde una QLabel con texto enriquecido
- 14. ¿Convertir texto tabulado a html lista desordenada?
- 15. reemplazar texto sin formato con html usando jQuery
- 16. Reconocer URL en texto sin formato
- 17. Obtenga texto sin formato del HTML en .NET
- 18. Obtener texto sin formato de QString con etiquetas HTML
- 19. Convertir texto a formato de número en Excel
- 20. Obtenga texto sin formato de XMLHttpRequest responseText
- 21. Convertir XML a texto sin formato: ¿cómo debo ignorar/manejar espacios en blanco en el XSLT?
- 22. ¿Qué módulo CPAN recomendaría para convertir HTML en texto sin formato?
- 23. Convierta texto sin formato a PDF en Python
- 24. Obtener texto sin formato de un texto RTF
- 25. Transformar un NSAttributedString en texto sin formato
- 26. Convierta HTML a texto sin formato (con inclusión de <br> s)
- 27. ¿Cómo obtengo texto sin formato junto a un elemento HTML usando jQuery?
- 28. códigos HTML Entidad a texto
- 29. Convertir el formato de texto wiki de MediaWiki a HTML usando la línea de comando
- 30. Convertir audio a texto
¿Cuáles son sus requisitos precisos? ¿Necesita quitar etiquetas HTML? Extrae el contenido de una etiqueta específica? –
puedo capaz de extraer el contenido, pero el contenido tiene
zcc dsdfsf ddfdfsf
sfdfdfdfdf, como el de arriba me estoy poniendo mis datos pero necesito ser un simple llano text.without esas etiquetas html – MGSenthilpregunta similar con buena respuesta aquí: http://stackoverflow.com/questions/1518675/open-source-java-library-for-html-to-text-conversion/1519726#1519726. Usé Jericho y funciona bien. –