¿Cuál es la mejor manera de generar datos falsos para un problema de clasificación?

estoy trabajando en un proyecto y tengo un subconjunto de datos de tiempos de pulsaciones de teclas del usuario. Esto significa que el usuario hace n intentos y utilizaré estos datos de tiempo de intentos grabados en varios tipos de algoritmos de clasificación para futuros intentos del usuario para Verifique que el proceso de inicio de sesión lo realice el usuario o alguna otra persona. (Simplemente puedo decir que esto es biométrico)¿Cuál es la mejor manera de generar datos falsos para un problema de clasificación?

Tengo 3 diferentes momentos del proceso de intento de inicio de sesión de usuario, por supuesto, esto es un subconjunto de los datos infinitos.

hasta ahora es un problema de clasificación fácil, decidí usar WEKA pero hasta donde tengo entendido, tengo que crear algunos datos falsos para alimentar el algoritmo de clasificación. Los intentos medidos del usuario serán 1 y los datos falsos serán 0

¿Puedo usar algunos algoritmos de optimización? o hay alguna forma de crear estos datos falsos para obtener un mínimo de falsos positivos?

Gracias

Fuente

2010-04-10 berkay

Hay un par de maneras diferentes que usted puede ir al acercarse a este.

Recopilar ejemplos negativos - Una solución fácil sería recopilar datos de sincronización de teclas de otras personas que podrían utilizarse como ejemplos negativos. Si desea reunir una muestra grande a muy bajo costo, como en aproximadamente 1000 muestras por alrededor de $ 10, puede usar un servicio como Amazon Mechanical Turk.

Es decir, podría armar una tarea de inteligencia humana (HIT) que haga que las personas escriban una contraseña aleatoria como secuencias. Para obtener la información de tiempo, necesitará usar un External Question, ya que el HTML restringido para preguntas regulares no es compatible con JavaScript.

Utilice un modelo generativo - Alternativamente, podría entrenar un modelo de probabilidad generativa para el comportamiento de teclado de un usuario. Por ejemplo, puede entrenar un Gaussian mixture model (GMM) a la demora del usuario entre pulsaciones de teclas.

Tal modelo le dará una estimación de probabilidad de la información de tiempo de pulsación de tecla que se genera por un usuario específico. A continuación, solo debe establecer un umbral de la probabilidad de que la información de tiempo deba estar en orden para que el usuario se autentique.

Utilice los SVM de clase 1 - Finalmente, 1-class SVMs le permite entrenar un clasificador de tipo SVM usando solo ejemplos positivos. To learn one-class SVMs in WEKA, use el contenedor LibSVM si está utilizando v3.6. Si está utilizando la versión de desarrollador de vanguardia, está weka.classifiers.meta.OneClassClassifier.

Fuente

2010-04-10 05:06:29 dmcer

gracias por la respuesta Daniel.Después de entender sus puntos, voy a publicar aquí para obtener ayuda. – berkay

Claro, hágamelo saber si hay algo que deba ser elaborado. Si encuentra esta respuesta u otras que sean útiles o informativas, asegúrese de votarlas y seleccionar una como respuesta aceptada a la pregunta. – dmcer

¿Cuál es la mejor manera de generar datos falsos para un problema de clasificación?

Respuesta

Cuestiones relacionadas