Hmmm
Se puede encontrar una gran cantidad de datos incidentales por google (y vea la columna derecha para preguntas como éstas en SO ...)
Sin embargo, recomiendo que construir más o menos sus cadenas de prueba como matriz de bytes. En realidad, no se trata de "qué datos", solo que el Unicode se maneja correctamente.
E.g. querrá asegurarse de que las cadenas idénticas en diferentes formas normalizadas (es decir, incluso si no están en forma canónica) todavía se comparen por igual.
Querrá comprobar que la detección de longitud de cadena es robusta (y reconoce caracteres de bytes simples, dobles, triples y cuádruples). Querrá comprobar que atravesar una cadena de principio a fin respeta la misma lógica. Pruebas más específicas para el acceso aleatorio de caracteres Unicode.
Estas son todas las cosas que usted sabía, estoy seguro. Estoy deletreándolos para recordarle que necesita datos de prueba atendidos exactamente en los casos extremos, las propiedades lógicas que son intrínsecas a Unicode.
Solo entonces tendrá los datos de prueba adecuados.
Más allá de este ámbito de aplicación (manejo Unicode correcta técnica) es la localización real (intercalación, charset conversión etc.). Me refiero a la prueba de Turquía
Éstos son enlaces de ayuda:
¡eso es exactamente lo que estaba buscando! –
El documento de quickbrown.txt se refiere a una lista más exhumante en Wiki, pero eso se ha eliminado. Sin embargo, está [aquí] (http://clagnut.com/blog/2380/). – TinyRacoon