me preguntó cómo que a ir sobre la tokenizar cadenas en Inglés (u otros idiomas occidentales) si se eliminaran los espacios en blanco?Justadistraction: tokenizing Inglés sin espacios en blanco. Murakami Sheepman
La inspiración para la cuestión es el carácter Ovejas Hombre en la novela de Murakami Dance Dance Dance '
En la novela, el hombre ovejas se traduce como diciendo cosas como:
"likewesaid, nos' llunderhatwecan. Trytoreconnectyou, towhatyouwant ", dijo el hombre de las ovejas. "Pero no podemos hacerlo solos. Tú también trabajaste".
Por lo tanto, se conservan algunos signos de puntuación, pero no todos. Suficiente para que un humano lo lea, pero algo arbitrario.
¿Cuál sería su estrategia para la construcción de un analizador para esto? Combinaciones comunes de letras, recuentos de sílabas, gramáticas condicionales, expresiones anticipadas/regexps detrás, etc.
Específicamente, pitón-sabia, ¿cómo estructurar un flujo de traducción (perdón)? No está pidiendo una respuesta completa, solo más cómo su proceso de pensamiento sería sobre la solución del problema.
lo pido de una manera frívola, pero yo creo que es una pregunta que podría obtener algunos (/ PNL/cripto frecuencia/sociales) respuestas interesantes. Gracias!
Usted puede tratar de un árbol de raíz de letra por letra las búsquedas. También le permitiría saber fácilmente si hubo coincidencias potenciales más largas. – Olson
Oh, wow. Había pensado en algo así (un árbol con 26 niños en cada nodo, fue mi idea), pero mi jefe dijo que era una idea ridícula. Debo dejar de escucharlo. > :( – JoshD
+1 Realmente había pensado en algo como esto hace un tiempo. Incluso me encontré con los mismos problemas: "hola allí" == "hithere" == "golpea aquí". "Para obtenerla" == " juntos "==" juntos ". – inspectorG4dget