php regex para eliminar HTML

Antes de comenzar, strip_tags() no funciona.php regex para eliminar HTML

ahora,

Tengo algunos datos que necesita ser analizado, el problema es que necesito para deshacerse de todo el HTML que ha sido formateada de manera muy extraña. las etiquetas se ven así: (observe los espacios)

<p> blah blah blah </p > < a href= " link.html " > blah blah blah </a>

Todos los regexs He estado tratando no están funcionando, y no sé lo suficiente sobre el formateo de expresiones regulares para hacer que funcionen. No me importa preservar nada dentro de las etiquetas, y preferiría deshacerme del texto dentro de un enlace si pudiera.

¿Alguien tiene alguna idea?

(Realmente tengo que acaba de sentarse y aprender expresiones regulares de un día)

Fuente

2009-04-17 Me1000

¿El

preg_replace('/<[^>]*>/', '', $content)

trabajo?

Fuente

2009-04-17 02:55:58 chaos

en lugar de '*' usted podría usar '+', ya que con '*' también puede sustituir '<>' si se encuentra en el texto – machineaddict

solución que no es a prueba de tontos, pero trabajará para lo que envió:

s/<[^>]*>//g

Fuente

2009-04-17 02:56:48 strager

formateado extraña? Eso es válido HTML, ¿verdad? En ese caso, no lo tocaría con expresiones regulares. Ejemplos de cómo esto puede salir mal y por qué es una mala idea son legión. En cambio, usaría HTML Tidy para, por ejemplo, limpiar espacios en blanco innecesarios.

Fuente

2009-04-17 02:57:38 cletus

Iba a publicar esto, pero estaba demasiado cansado para decirlo de forma inteligible. +1. – strager

Cuando ejecuto la cadena a través de HTML Tidy, cambia los signos < and > a < and > para que strip_tags() aún no funcione en esos. Estaba usando tanto tidy_parse_string() como tidy_repair_string(). ¿Hay alguna otra función que funcione que no veo? – Me1000

-2

http://ca3.php.net/strip_tags es probablemente lo que necesita.

Fuente

2009-04-17 03:19:27 Ian

strip_tags() no funciona (como se señala en la primera línea de mi pregunta) porque PHP no reconoce las etiquetas como HTML debido al formateo. Ese fue mi primer pensamiento también. – Me1000

-2

Pruébelo y hágamelo saber.

<?php 
$text = '<p> blah blah blah </p > < a href= " link.html " > blah blah blah</a>'; 
echo strip_tags($text); 
echo "\n"; 
echo strip_tags($text, '<p><a>'); 
?>

Fuente

2009-04-17 03:20:59

strip_tags() no funciona (como se señala en la primera línea de mi pregunta) porque PHP no reconoce las etiquetas como HTML. Ese fue mi primer pensamiento también. – Me1000

¿Lo agregó más tarde? Me lo perdí por completo ... ¿Intentaste usar preg_replace? –

no, la publicación no ha sido editada en absoluto. Estaba preguntando sobre la expresión regular que podría usar. La respuesta del caos es probablemente la que terminaré usando, pero si pudiera usar tidy html para limpiar el código, entonces use strip_tags que estaría bien, pero no puedo encontrar una función en tidy html que haga lo que necesito ; de ahí que no haya verificado la respuesta del caos. :) – Me1000

strip_tags() funcionará si utiliza html_entity_decode() en una variable antes de strip_tags()

<?php 
$text = '<p> blah blah blah </p > < a href= " link.html " > blah blah blah</a>'; 
echo strip_tags(html_entity_decode($text)); 
?>

Fuente

2012-08-07 11:34:38 Slobodan

esta debería ser la respuesta aceptada. – dendini

¿Por qué 'html_entity_decode' es necesario? – alex

Respuesta

Cuestiones relacionadas