2011-06-03 11 views
6

Mi sitio es cada vez más grande y está empezando a atraer una gran cantidad de correo no deseado a través de varios canales. El sitio tiene muchos tipos diferentes de UGC (perfiles, foros, comentarios de blog, actualizaciones de estado, mensajes privados, etc.). Tengo en marcha varios esfuerzos de mitigación, que espero desplegar de forma relámpago para convencer a los spammers de que no somos un objetivo que valga la pena. Tengo una gran confianza en lo que estoy haciendo con la funcionalidad, pero una pieza faltante está matando todo el viejo correo no deseado de una sola vez.¿Qué es un buen paquete de código abierto para crear detección de spam flexible en un gran sitio de Rails?

Esto es lo que tengo:

  • grande bueno/malo corpus (5 cifras mala, 6 o 7-figura bien). Gran parte del spam tiene huellas dactilares muy confiables, y el hecho de que he estado ignorándolo durante 6 meses ayuda :)
  • Sitio grande y modular de Rails implementado en AWS. No es un sitio de tráfico enorme, pero estamos ejecutando 8 instancias con los comienzos de una SOA.
  • Ruby, Redis, Resque, MySQL, barniz, Nginx, unicornio, cocinero, todo en Gentoo

Mis requisitos:

  1. lo quiero para llevar a cabo razonablemente bien dado el volumen de datos (por lo tanto, desconfío de una solución pura de rubí).
  2. Debería ser capaz de entrenar múltiples clasificaciones a diferentes tipos de contenido (spam 419-scam vs botnet)
  3. Me gustaría poder agregar factores manuales basados ​​en nuestro propio trabajo de detective (coincidencia de patrones, reutilización de IP , etc.)
  4. En última instancia, quiero construir una interfaz agradable para usar con Ruby. Si esto requiere ensuciarme las manos en C o lo que sea, puedo manejarlo, pero lo evitaré si puedo.

Sé que esto es una cuestión de largo y vago, pero lo que estoy buscando principalmente es sólo una lista de buenos paquetes, y en segundo lugar los pensamientos al azar de alguien que ha construido un sistema similar sobre formas de acercarse a él .

Respuesta

5

Buscamos una solución de código abierto aceptable y no encontramos ninguna.

Si llega a la misma conclusión y decide considerar el antispam patentado, consulte el servicio de filtrado de spam pagado Akismet. Hemos tenido un rendimiento decente a través de una docena de sitios de tamaño mediano. Se integra con rieles a través de rack y rackismet.

+0

Definitivamente una cosa que consideré. Cuestiono el rendimiento y el costo relativo de la misma, especialmente considerando los diferentes corpora que quiero entrenar para diferentes propósitos. Tal vez estoy equivocado, pero voy a seguir buscando mi propio momento por el momento ... – gtd

Cuestiones relacionadas