preg_replace para eliminar los caracteres no imprimibles parece eliminar todos los caracteres extraños

Estoy usando la siguiente expresión regular para eliminar los caracteres de control que no son de impresión de la entrada del usuario antes de insertar los valores en la base de datos.preg_replace para eliminar los caracteres no imprimibles parece eliminar todos los caracteres extraños

preg_replace('/[\x00-\x1F\x80-\xFF]/', '', $value)

¿Hay algún problema con el uso de esto en las cadenas utf-8? Parece eliminar por completo todos los caracteres no ascii.

Fuente

2010-07-20 Greg

Parte del problema es que no está tratando el objetivo como una cadena UTF-8; necesita el modificador /u para eso. Además, en UTF-8, cualquier carácter no ASCII está representado por dos o más bytes, todos ellos en el rango \x80..\xFF. Prueba esto:

preg_replace('/\p{Cc}+/u', '', $value)

\p{Cc} es la propiedad Unicode para caracteres de control, y las causas u tanto la expresión regular y la cadena de destino que ha de tratarse como UTF-8.

Fuente

2010-07-20 23:26:07

¿Dejará caracteres válidos fuera del rango ASCII, como los caracteres diacétricos polacos (como ąęćśńżź)? Estoy buscando una expresión regular que elimine las secuencias UTF-8 no válidas (por lo que MySQL no se quejará al insertar dicha cadena en la base de datos), pero deje todo lo demás intacto. – pako

Creo que para eso querrías usar ''/ \ P {Any}/u'' -' Any' debería ser autoexplicativo, y '\ P {}' (mayúscula) es la forma negada de '\ p {} '. Pero estaría más preocupado por cómo esas secuencias de bytes inválidas entraron allí en primer lugar. –

Puede utilizar Unicode character properties

preg_replace('/[^\p{L}\s]/u','',$value);

(se suman las otras clases que desea dejar pasar)

Si desea revertir Unicode a ASCII, de ninguna manera fullproof pero con algunas traducciones bonito:

echo iconv('utf-8','ascii//translit','éñó'); //prints 'eno'

Fuente

2010-07-20 23:29:36 Wrikken

NOTA: La URL anterior está rota y SO no me deja editar la respuesta; la URL correcta es: http://php.net/manual/en/regexp.reference.unicode.php – DOOManiac

@DOOManiac: OK, gracias por señalarlo, corrigió la URL. – Wrikken

preg_replace para eliminar los caracteres no imprimibles parece eliminar todos los caracteres extraños

Respuesta

Cuestiones relacionadas