Estoy analizando un documento HTML con un par de módulos Perl: HTML::TreeBuilder y HTML::Element. Por alguna razón, siempre que el contenido de una etiqueta es simplemente
, lo que es de esperar, que se devuelve HTML :: elemento como un personaje extraño que nunca he visto antes:¿Por qué aparece este carácter A0 en mi resultado HTML :: Element?
alt text http://www.freeimagehosting.net/uploads/2acca201ab.jpg
lo que pueda' Copie el personaje para que no pueda buscarlo en Google, no lo encuentre en el mapa de caracteres y, curiosamente, cuando lo busque con una expresión regular, lo encuentra en \w
. Cuando convierto el documento devuelto a ANSI o UTF-8, desaparece por completo. No pude encontrar ninguna información en la documentación HTML :: Element tampoco.
¿Cómo puedo detectar y reemplazar este personaje con algo más útil como null
y cómo debo lidiar con caracteres extraños como este en el futuro?
el enlace de la imagen tiene podrido –