La respuesta de Fredley se puede extender a una gramática que construiría palabras de letras cercanas.
Por ejemplo asasasasasdf
se podría generar con una gramática que conecta as
, sa
, sd
y df
.
Con esta gramática, ampliado a todas las letras del teclado (con letras que están una al lado de la otra) podría, después del análisis, darle una medida de la cantidad de texto que se puede generar con esta gramática "galimatías".
Advertencia: por supuesto, cualquier texto que discuta tal gramática y enumere ejemplos de texto 'galimatías' puntuaría significativamente más alto que un texto de revisión ortográfica regular.
Tenga en cuenta que el enfoque de ejemplo no detectaría el vandalismo en forma de 'h4x0r rulezzzzz !!!!!'.
Otro enfoque aquí (que se puede integrar con el método anterior) sería analizar estadísticamente un corpus de texto vandalizado y tratar de obtener palabras comunes en los textos dañados.
EDITAR:
Dado que está asumiendo QWERTY, ¿supongo que también podríamos asumir el inglés?
¿Qué pasa con KISS? Ejecute el texto a través del corrector ortográfico inglés y si falla concluye miserablemente que es probablemente un galimatías (la pregunta es, ¿por qué quiere distinguir rápidamente galimatías de tonterías al azar o para el caso de texto muy mal deletreado ?)
Alternativamente, si se deben considerar otros diseños de teclado (Dvorak, ¿alguien?) E idiomas, entonces puede ejecutar el texto a través de todos los correctores ortográficos de idiomas disponibles y luego proceder (esto daría autodetección de idioma también).
Este no sería un método muy eficiente, pero podría usarse como una prueba de referencia.
Nota:
A la larga me imagino que los vándalos se adaptarían y empezar a destrozar con, por ejemplo, extractos de otras páginas de Wikipedia, lo que sería en última instancia, difícil de detectar automáticamente como el vandalismo (bueno, los textos existentes podrían ser una suma de comprobación y bandera levantada en duplicados, pero si el texto proviene de alguna otra fuente sería finalmente difícil).
Los algoritmos de detección de vandalismo ya incluyen la detección basada en el diccionario/gramática, así que aquí estoy buscando un algoritmo que NO use diccionarios o gramática, sino patrones de los dedos. –
y cómo exactamente 'patrones de dedos' difieren de las entradas del diccionario además de las reglas de gramática? Es el mismo enfoque, la distinción es que uno es detección positiva y la otra detección negativa. Además, no está claro lo que estás pidiendo: los golpes de teclado aleatorios considerando qwerty no son diferentes de los golpes de teclado aleatorios considerando dvorak, a menos que no sean realmente aleatorios (mejor denomínalos "construcciones de vandalismo de uso común"). – Unreason
@Unreason: sobre su primera pregunta: quise decir diccionarios y gramáticas de lenguas humanas existentes. La "detección negativa" que propone es interesante, siéntase libre de proponerla como respuesta. Acerca del "Más": reformulo mi pregunta: se le da una secuencia de caracteres que se han escrito en un teclado QWERTY, ¿cómo se calcula la probabilidad de que se haya tecleado sin cuidado? (es decir, por alguien cuyo objetivo no era expresar algo, sino ingresar rápidamente a muchos personajes, por ejemplo, oiuroiqewrcoqf) –