Proporcioné algunos de mis programas con una función de retroalimentación. Desafortunadamente, me olvidé de incluir algún tipo de protección contra correo no deseado, para que los usuarios pudieran enviar lo que quisieran a mi servidor, donde cada respuesta se almacena en una gran base de datos.Algoritmo para separar el texto sin sentido del texto significativo
Al principio revisé periódicamente esas retroalimentaciones - filtré lo que se podía usar y eliminé la basura. El problema es: obtengo 900 retroalimentaciones por día. Sólo 4-5 son realmente útiles, los otros mensajes son en su mayoría de tipo 2 galimatías:
- sin sentido: jfvgasdjkfahs kdlfjhasdf (La gente rompiendo la cabeza en el teclado)
- idioma que no entiendo
Lo que hice hasta ahora:
he instalado un filtro para eliminar cualquier comentario que contiene "asdf", "qwer", etc ... -> a 700 por día
He instalado un filtro de palabras a delte cualquier cosa que contenga lenguaje inapropiado -> 600 por día (no preguntar - pero hay muchas personas extrañas por ahí)
- que filtrar los mensajes que contienen letras que no son utilizados en mi lenguaje -> 400 por día
Pero 400 por día sigue siendo demasiado. Así que me pregunto si alguien ya se ha enfrentado a ese problema antes y conoce algún tipo de algoritmo para filtrar los mensajes sin sentido.
¡Cualquier ayuda sería realmente apreciada!
Oooh, rápido y sucio, hackish y de alguna manera completamente repugnante ... ¡Me encanta!: D – Rob
Upvoted por la singularidad :) – Ross
+1 por piggybacking de Gmail - eso es probablemente lo que yo también haría; su filtrado de spam es excelente y como solución rápida (y bastante fácil) definitivamente vale la pena intentarlo como primer esfuerzo. Buena sugerencia práctica y sin complicaciones. –