He aquí una pregunta rápida Perl:¿Cómo puedo decodificar entidades HTML?
¿Cómo puedo convertir caracteres especiales HTML como ü
o '
al texto ASCII normal?
empecé con algo como esto:
s/\&#(\d+);/chr($1)/eg;
y podrían escribir para todos los caracteres HTML, pero alguna función como esto probablemente ya existe?
Tenga en cuenta que no necesito un convertidor HTML-> Text completo. Ya analizo el HTML con el HTML::Parser
. Solo necesito convertir el texto con los caracteres especiales que obtengo.
Para aquellos a los que les gusta el CLI one liners: 'perl -MHTML :: Entidades -le 'imprimir decode_entities (" & iquest; ' ")' –