Soy nuevo en el aprendizaje automático, y para mi primer proyecto me gustaría escribir un ingenuo filtro de spam de Bayes. Me preguntaba si hay juegos de capacitación públicamente disponibles de correos electrónicos no deseados etiquetados como spam o no, preferiblemente en texto plano y no como un volcado de una base de datos relacional (a menos que impriman bien esos).Publicly Available Spam Filter Training Set
Sé que existe una base de datos públicamente disponible para otros tipos de clasificación de texto, específicamente el texto del artículo de noticias. Simplemente no he podido encontrar el mismo tipo de cosas para los correos electrónicos.
Si está en 2011 con nosotros, solo revise su casilla de correo no deseado en Gmail. Debería ser una fuente bastante consistente de correos electrónicos no deseados. ;) – coreyward
Mi cuenta de Gmail solo tiene unos 50 mensajes de correo no deseado y cada mensaje se elimina después de 30 días. Sorprendentemente, para empezar no recibo mucho spam. – JeremyKun