I utiliza doc dom para cargar código HTML de base de datos de la siguiente manera:Documentos PHP Dom: conseguir textContent haciendo caso omiso de las etiquetas y comentarios del guión
$doc = new DOMDocument();
@$doc->loadHTML($data);
$doc->encoding = 'utf-8';
$doc->saveHTML();
entonces consigo el cuerpo del texto haciendo siguientes:
$bodyNodes = $doc->getElementsByTagName("body");
$words = htmlspecialchars($bodyNodes->item(0)->textContent);
Las palabras que he recibido incluyen todo en el <body>
. Cosas como <scripts>
también fueron incluidas. ¿Cómo los elimino y solo guardo el contenido de texto real?
que significa el contenido del texto extracto de recursiva de todos los elementos de ''
? –solo texto contenido que sea significativo, excluyendo javascripts u otros comentarios html o etc. que no son datos útiles. – nuttynibbles