Tengo un montón de datos HTML que estoy escribiendo en un archivo PDF usando PHP. En el PDF, quiero que todo el HTML se elimine y limpie. Así, por ejemplo:Limpieza HTML con PHP para crear una cadena limpia
<ul>
<li>First list item</li>
<li>Second list item which is quite a bit longer</li>
<li>List item with apostrophe 's 's</li>
</ul>
debe convertirse en:
First list item
Second list item which is quite a bit longer
List item with apostrophe 's 's
Sin embargo, si simplemente uso strip_tags()
, me sale algo como esto:
First list item

Second list item which is quite a bit
longer

List item with apostrophe ’s ’s
También tenga en cuenta la sangría de la salida.
Algún consejo sobre la manera correcta de limpiar el HTML para agradables cuerdas, limpios sin espacios en blanco desordenado y personajes extraños?
Gracias :)
Dudo que 'strip_tags()' solo codifique sus entidades. ¿Estás seguro de que no estás perdiendo una llamada a 'htmlentities' en algún lado? – Yoshi
La sangría es exactamente lo que esperaría, PHP está quitando las etiquetas, pero no el texto adicional a su alrededor. – scragar
¿Quiere decir que * debería * o * no debería * usar htmlentities() en alguna parte? En este momento no estoy. Los datos HTML provienen directamente de una base de datos. – Rein