Después de investigar un poco cómo la manera diferente en que las personas slugify títulos, me he dado cuenta de que a menudo falta cómo lidiar con títulos no ingleses.reglas para babosas y unicode
La codificación de URL es muy restrictiva. Ver http://www.blooberry.com/indexdot/html/topics/urlencoding.htm
Así, por ejemplo, ¿cómo tratan la gente por las babosas de título para cosas como
"Una lágrima Cayó en la arena"
Uno puede llegar a una mesa razonable para indo idiomas europeos, es decir. cosas que pueden codificarse mediante ISO-8859-1. Por ejemplo, una tabla de conversión se traduciría 'a' => 'a', por lo que la bala sería
"una-lagrima-cayo-en-la-arena"
Sin embargo, estoy usando Unicode (en particular usando la codificación UTF-8), por lo que no hay garantías sobre qué tipo de código obtendré (tengo que prepararme para cosas que no pueden codificarse con ISO-8859-1.
I a nushell ¿Cómo lidiar con esto? ¿Debo encontrar una tabla de conversión para los caracteres en el rango ISO_8859-1 (< 255) y soltar todo lo demás?
EDITAR: para dar un poco más de contexto, a priori, realmente no espero relativizar datos en idiomas europeos no indo, pero me gustaría tener un plan si encuentro esos datos. Una tabla de conversión para el ASCII extendido sería agradable. ¿Alguna sugerencia?
Además, dado que la gente está pidiendo, estoy usando pitón, que se ejecuta en Google App Engine
Por cierto, ¿hay alguna buena razón para que Unicode no esté permitido en las URL? – Zifre