Estoy buscando un enfoque eficiente para extraer un fragmento de HTML de una página web y realizar algunas operaciones específicas en ese fragmento de HTML.Extraer y limpiar fragmento de HTML utilizando el analizador HTML (org.htmlparser)
Las operaciones requeridas son:
- Retire todas las etiquetas que tienen una clase de "oculto"
- quitar todas las etiquetas de secuencia de comandos
- Eliminar todas las etiquetas de estilo
- Eliminar todos los atributos de evento (en * = "*")
- Quitar todos los atributos de estilo
He estado usando HTML Parser (org.htmlparser) para esta tarea y he podido cumplir todos los requisitos, sin embargo, no creo que tenga una solución elegante. Actualmente, estoy analizando la página web con un CssSelectorNodeFilter (para obtener el fragmento) y luego volviendo a analizar ese fragmento con un NodeVisitor para llevar a cabo las operaciones de limpieza.
¿Alguien podría sugerir cómo abordarían este problema? Preferiría analizar solo el documento una vez y realizar todas las operaciones durante ese análisis.
¡Gracias de antemano!
Echaré un vistazo a jsoup. Si proporciona un mejor marco para resolver mi problema, entonces presentaré una respuesta que defienda su uso para mis requisitos. Gracias por el consejo. –
@KieranHall: vea mi respuesta actualizada con un ejemplo de trabajo. – maerics
cómo obtener cadena de retorno después de eliminar el atributo? –