2010-07-22 11 views
5

Siempre me sorprende la alta calidad del filtro de spam de Gmail. Durante el último año, filtró el 99.95% del spam y bloqueó por error solo un correo. En comparación, cualquier otro servicio de correo que utilicé comete al menos un error por cada 50 correos.¿Cómo funciona el filtro de spam de Gmail?

¿Cómo, internamente, Gmail lo hace para alcanzar este nivel de calidad? ¿Se basa en los comentarios de los clientes (es decir, si N los clientes bloquean el correo como correo no deseado, se clasifica como correo no deseado para todos los demás clientes)? ¿O hay algún truco? ¿Tal vez un algoritmo de filtro básico filtra el correo basura más obvio, y algunos casos difíciles son analizados por humanos reales?

+4

Hahaha. Eso es gracioso. Preguntándonos cómo funciona el algoritmo de secretos comerciales de Googles. ¿Por qué no preguntarles? –

Respuesta

8

En pocas palabras, esto se basa en comentarios de la comunidad. Aquí hay una cita de la explicación oficial:

Los usuarios de Gmail juegan un papel importante para evitar que los mensajes de spam entren en millones de bandejas de entrada. Cuando la comunidad de Gmail vota con sus clics para informar que un correo electrónico en particular es correo no deseado, nuestro sistema aprende rápidamente a comenzar a bloquear mensajes similares. Mientras más spam marque la comunidad, más inteligente será nuestro sistema.

Puede leer un poco más al respecto en su página Spam Explained.

7

Esta es la pregunta del millón de dólares, y si se pudiera responder en stackOverflow, entonces el filtro de spam de todos sería igual de efectivo.

+0

No es tan obvio. Como dije, tal vez Google contrate humanos para filtrar casos difíciles, o el filtro se basa en los comentarios de los usuarios. En este caso, sí, todos los que contraten a personas para hacer estas cosas o dependan de una comunidad en general podrían hacer un filtro de spam efectivo. –

+0

No, no lo haría porque la alta calidad de su filtro de spam es debido a la gran cantidad de datos que tienen. Vea la charla de Peter Norvig "La efectividad irracional de los datos" – Wes

2

Realmente no sé exactamente cómo Google hace el filtrado de SPAM (pero creo que es un secreto comercial después de todo). Si está interesado en cómo funciona el filtrado de SPAM, le recomiendo consultar el filtrado de SPAM bayesiano (http://en.wikipedia.org/wiki/Bayesian_spam_filtering). Es un método bastante fácil de entender.

-1

Es muy probable que Google use un sistema clasificador, como Regresión logística o Redes neuronales. La detección de spam de última generación utiliza con frecuencia algoritmos de Machine Learning como estos.

La clasificación de salida es "Correo no deseado" o "No es spam" y las entradas, estoy seguro, son muy secretas en Google, pero estoy seguro de ciertas frases de correo electrónico como "Comprar ahora", "En Venta, "Viagra" o "Mejora masculina" son todos factores en su modelo.

Cuestiones relacionadas