así que tengo esta página:¿Cómo puedo verificar una cadena Unicode de Python para ver que * en realidad * es Unicode correcto?
http://hub.iis.sinica.edu.tw/cytoHubba/
Al parecer es todo tipo de mal estado, ya que se decodifica correctamente, pero cuando trato de guardarlo en postgres me sale:
DatabaseError: invalid byte sequence for encoding "UTF8": 0xedbdbf
El la base de datos se bloquea después de eso y se niega a hacer nada sin una reversión, que será un poco difícil de publicar (larga historia). ¿Hay alguna forma de que compruebe si esto sucederá antes de que llegue a la base de datos? source.encode ("utf-8") funciona sin problemas, por lo que no estoy seguro de lo que está pasando ...
¿Está seguro de que su conexión está configurada para usar UTF-8? – Wolph
Sí, 300,000 páginas web adicionales se agregaron muy bien, es solo esta que falla ... –