Solo quiero el contenido de texto de la página y quiero que la búsqueda sea lo más ligera posible. ¿Puedo desactivar todo el análisis y la carga adicional de JavaScript, CSS y otro contenido externo que HTMLUnit hace de la caja?¿Cómo obtener el HTML bruto puro de una página en HTMLUnit mientras se ignoran JavaScript y CSS?
5
A
Respuesta
9
creo que lo más parecido a lo que estás buscando es:
WebClient webClient = new WebClient();
webClient.setCssEnabled(false);
webClient.setAppletEnabled(false);
webClient.setJavaScriptEnabled(false);
Para HtmlUnit 2.13 y arriba, el uso webclient.getOptions()
.
También esto question y la respuesta podría ser útil también. Lo que hizo las cosas más rápido para mí, pero tenía que volver a compilar HtmlUnit ...
Por último, con el fin de obtener el contenido original de la página (en lugar de la salida de asXml()
) intente lo siguiente:
WebClient webClient = new WebClient();
HtmlPage page = webClient.getPage("http://www.yourpage.com");
String originalHtml = page.getWebResponse().getContentAsString();
Cuestiones relacionadas
- 1. Cómo obtener contenidos href "en bruto" en JavaScript
- 2. CSS y Javascript: Obtener una lista de atributos CSS personalizada
- 3. ¿Cómo obtener el título de la página HTML con JavaScript?
- 4. ¿Cómo cambiar el tamaño de una imagen en HTML/CSS puro manteniendo sus proporciones?
- 5. ¿Cómo se refactoriza JavaScript, HTML, CSS, etc.?
- 6. HTML y CSS a PDF en JavaScript
- 7. ¿Cómo minimizar HTML con CSS y Javascript?
- 8. ¿Hay un validador Javascript X/HTML puro?
- 9. Nokogiri para obtener html en bruto de un nodo
- 10. ¿Cómo se emula el botón Atrás del navegador en HtmlUnit?
- 11. ¿Cómo crear el objeto HTML HTML HtmlUnit desde String?
- 12. HTMLUnit no espera para Javascript
- 13. Obtener página HTML y almacenarla en MYSQL- Cómo
- 14. Accediendo a html generado por Javascript con htmlunit -Java
- 15. Cliente HTML WebDAV puro
- 16. ¿Cómo se puede definir un pie de página adhesivo de altura variable en CSS puro?
- 17. Duración de CSS incremental con CSS puro
- 18. HtmlUnit - ¿Convierte una HtmlPage en una cadena HTML?
- 19. ¿Cómo se hace que una página html se desvanezca mientras otra se desvanece?
- 20. Cómo pasar valores de una página html a otra página html ¿javascript?
- 21. ¿Cómo se muestra el código fuente con sangría en una página web? HTML? CSS?
- 22. Obtener índice del elemento cliqueado usando javascript puro
- 23. Aplicaciones web de una página y JavaScript y CSS en línea
- 24. Cómo agregar 1 html puro en otro html
- 25. HTML + CSS + Javascript Editor
- 26. Usar animación CSS mientras javascript calcula
- 27. ¿Cómo obtener el contenido de una página remota con JavaScript?
- 28. Poner CSS y JavaScript en archivos o HTML principal?
- 29. ¿Cómo hacer que el elemento HTML se pueda redimensionar usando javascript puro?
- 30. ¿Puede HtmlUnit manejar los redireccionamientos de JavaScript?
Gracias por su respuesta. ¿Cuál sería la diferencia entre 'asXML()' y 'page.getWebResponse(). GetContentAsString()'? – Thomas
'asXML()' formateará el código (por ejemplo, agregue espacios siempre que se abra una etiqueta html) mientras 'getContentAsString()' le mostrará el código html exactamente como lo devuelve el servidor web –
Al iniciar HTMLUnit 2.13, use webClient.getOptions() para invocar estos métodos de "habilitar". – Paddy