Estamos migrando de un sistema de contenido a otro y tienen toneladas de HTML donde hay líneas, por ejemplo, así:Eliminación de nodos vacíos de HTML
<p style="text-align: justify;"><i> </i></p>
estoy buscando una manera de despojar HTML con Python donde no hay salida de texto a la pantalla. Entonces una línea similar a esto sería despojada.
Y, este es solo uno de MUCHOS ejemplos de líneas donde no hay salida de texto. Entonces, necesitaría encontrarlos a todos para desnudarse. No tengo que preocuparme por imágenes, películas, etc. ya que solo era posible enviar mensajes de texto en nuestro antiguo sistema de administración de contenido.
BTW, la gran mayoría de las líneas o bien comienzan con una etiqueta p
o una etiqueta div
(ignorando los espacios en blanco iniciales).
Hmm. ¿Qué pasa con las etiquetas estructurales que están vacías? (divs para uso de JavaScript, por ejemplo) – Cameron
Creo que necesitará un analizador html para eso ... – greg0ire