Regex: ignorar caracteres adicionales

estoy tratando de encontrar la manera de detectar caracteres adicionales dentro de una palabra como correo no deseado:Regex: ignorar caracteres adicionales

pha.rmacy o vi*agra

alguna idea?

Fuente

2010-03-24 Fuxi

Puede usar una métrica de (des) similitud, como edit distance. Por ejemplo, la distancia de edición entre vi.agra y viagra es 1.

A continuación, se determina que una palabra dada es la misma que la palabra correo no deseado, si la distancia de edición entre ellas se encuentra por debajo de un cierto umbral como, por ejemplo, 2.

Pero si realmente desea usar una expresión regular, puede usar algo como /[^a-zA-Z0-9-\s]/ para eliminar la puntuación de la palabra. Pero, de nuevo, no identificaría algo como viZagra como la misma palabra que viagra.

Fuente

2010-03-24 23:28:13

Las expresiones regulares no parecen ser la herramienta adecuada para resolver esto. Sino como un intento de responder a ella sólo porque es interesante, una forma sencilla sería la de hacer algo como esto:

/v.?i.?a.?g.?r.?a/

coincidiría con 0 o 1 caracteres entre cada letra.

Fuente

2010-03-24 23:33:54

Eso depende de qué tan ampliamente quiera hacer coincidir. El siguiente coincidirá con cualquier secuencia contigua de no está en blanco-o-Word-caracteres intercalados entre las letras:

/p[^\s\w]*h[^\s\w]*a[^\s\w]*r[^\s\w]*m[^\s\w]*a[^\s\w]*c[^\s\w]*y/

Puede construir esta expresión regular en el código. Por ejemplo, en Perl:

$re = join("[^\\s\\w]*", split("", "pharmacy"))

En última instancia, expresiones regulares probablemente no satisfacer todas sus necesidades, sin embargo.

Fuente

2010-03-24 23:39:51

Regex: ignorar caracteres adicionales

Respuesta

Cuestiones relacionadas