2009-07-26 12 views
5

Wordpress tiene un plugin de filtrado de spam llamado Akismet que parece ser capaz de clasificar cualquier bloque de texto como correo no deseado o no. La única advertencia es que necesitas pasar por su interfaz y su base de datos/algoritmo no es de origen abierto o fácilmente disponible.¿Hay una base de datos antispam gratuita?

También hay proveedores comerciales que proporcionan una API accesible en la web para que pueda clasificar los correos electrónicos, comentarios o cualquier otro texto que envíen los usuarios en su aplicación web.

¿Hay algún tipo de base de datos de código abierto o de libre acceso que pueda clasificar un bloque de texto como correo no deseado/no no deseado?

Edición: He aquí una explicación más clara de lo que quiero

Básicamente Tenía la esperanza de que no había una base de datos extensa por ahí con las probabilidades de ciertas frases como no deseado. Dado que (supongo) los spammers envían correos no deseados a todas las direcciones de correo electrónico, al rellenar previamente mi filtro bayesiano de correo no deseado con esta base de datos, podría crear una aplicación que empiece capturando la mayoría de los correos basura sin formación del usuario.

Respuesta

1

Actualización basada en comentario:

no creo una base de datos sencilla sería hacer el truco. La mayoría de los mensajes no deseados se generan algorítmicamente (por ejemplo, los comentarios no deseados normalmente incorporan contenido de la publicación). Akismet hace una combinación de cosas, probablemente incluyendo el análisis de enlaces y el uso de firmas de spam conocidas, pero no las publican.

He leído sobre algunos proyectos de inteligencia artificial interesantes al classify good rather than bad content. También puede consultar Spam Karma, que analiza los comentarios de blog en función de una variedad de activadores de correo no deseado (publicación de respuesta inmediatamente después de cargar la página, etc.).


Respuesta original (listas negras DNS):

+0

Estoy buscando más una base de datos que pueda clasificar un bloque de texto como correo no deseado o ahora. Akismet (un complemento de WordPress), por ejemplo, puede clasificar cualquier comentario como spam o no. –

+0

Según lo declarado por Jon, una base de datos no es muy útil para la clasificación. Akismet imita la generación de procedimientos utilizada para crear correo no deseado en lugar de compararlo con una base de datos. – JoshJordan

+0

Gracias por esos enlaces. Si bien existen muchos algoritmos para clasificar el spam, una buena base de datos de firmas de spam es MUY valiosa. Esperaba que alguien como Wordpress o Google publicara sus firmas de spam como una base de datos gratuita. Improbable, lo sé. Pero un hombre puede soñar ¿verdad? –

1

Quizás esto sea una pregunta totalmente muerta. Sin embargo, mira esto: http://www.stopforumspam.com Utiliza su API para verificar la IP o los nombres de usuario o correos electrónicos ingresados ​​en su base de datos. Pero te aconsejo que utilices cURL con su parámetro de tiempo de espera, el servicio puede o no agotar el tiempo a veces.

Cuestiones relacionadas