Me gustaría crear un algoritmo para distinguir a las personas que escriben en el foro bajo diferentes apodos.Descubre el usuario detrás de múltiples cuentas de usuario diferentes según las palabras que usa
El objetivo es descubrir a las personas que registran una cuenta nueva en el foro de llama de forma anónima, no en su cuenta principal.
Básicamente estaba pensando en derivar palabras que usan y comparar usuarios según las similitudes o estas palabras.
Como se muestra en la imagen no es User3 y user4 que utiliza mismas palabras. Significa que probablemente haya una persona detrás de la computadora.
Está claro que hay muchas palabras comunes que están siendo utilizadas por todos los usuarios. Así que debería centrarme en las palabras "específicas del usuario".
de entrada está (relacionado con la imagen de arriba):
<word1, user1>
<word2, user1>
<word2, user2>
<word3, user2>
<word4, user2>
<word5, user3>
<word5, user4>
... etc. The order doesnt matter
de salida debe ser:
user1
user2
user3 = user4
estoy haciendo esto en Java pero quiero esta pregunta sea independiente del lenguaje.
¿Alguna idea de cómo hacerlo?
1) cómo almacenar palabras/usuarios? ¿Qué estructuras de datos?
2) ¿cómo deshacerse de las palabras comunes que todo el mundo usa? Tengo que ignorarlos de alguna manera entre las palabras específicas del usuario. Tal vez podría simplemente ignorarlos porque se pierden. Me temo que van a ocultar la diferencia significativa de "palabras específicas del usuario"
3) ¿cómo reconocer a los mismos usuarios? - de alguna manera contar las mismas palabras entre cada usuario?
Estoy muy agradecido por cada consejo con antelación.