Debe intentar implementar una versión modificada de Naive Bayes spam filter. Por ejemplo, en la detección normal de spam, usted calcula la probabilidad de que una palabra sea spam y usa probabilidades de palabras individuales para determinar si el mensaje completo es correo no deseado.
De manera similar, puede descargar una lista de palabras y calcular la probabilidad de que un par de letras pertenezca a una palabra real.
Por ejemplo, crear una tabla 26x26
decir, T
. Deje que la 5ª fila represente la letra e
y que la entrada T(5,1)
sea la cantidad de veces que ea
apareció en su lista de palabras. Una vez que haya terminado de contar, divida cada elemento en cada fila con la suma de la fila para que T(5,1)
sea ahora el porcentaje de veces que ea
aparezca en su lista de palabras en un par de letras que empiece por e
.
Ahora, puede utilizar la probabilidad par individual (por ejemplo, en Jimy
que habría {Ji
, im
, iy
} para comprobar si Jimy
es un nombre aceptable o no. Es probable que tenga que determinar la probabilidad derecho de umbral at, pero pruébelo --- no es tan difícil de implementar.
¿Qué idiomas admite? ¿Solo inglés? Porque si admite un idioma que no habla, ¿cómo sabrá si se trata de un nombre? un nombre en un idioma desconocido, o simplemente falso? –
¡Buena suerte validando los nombres galés! :) – Unicron
inglés solamente. jaja unicron – Jimy