No sé qué método es utilizado por SO, pero:
supongo una manera rápida (y muy simplista) de hacer esto es volviendo a C, y los cheques, uno por uno, tal vez con un algoritmo KMP.
Otra forma (no tan simple) de hacer esto, es mantener un trie con esas 10.000 palabras y buscar el texto con eso. Esto sería súper rápido, pero bastante difícil de implementar. Si está interesado, tengo una implementación ficticia en C++.
EDITAR
Mirando hacia atrás a ella, veo sólo lo he utilizado fstream, por lo que este podría ser modificado fácilmente para C, por lo que be able to integrate with python easily. Esta es la fuente:
#include <fstream>
using namespace std;
ifstream in("trie.in");
ofstream out("trie.out");
struct Trie
{
short nr, pref;
Trie *children[26], *father;
Trie()
{
int i;
nr = pref = 0;
for(i=0; i<26; i++)
children[i] = NULL;
father = NULL;
}
};
Trie t, *it, *it2;
int n, op, val, i, l, len;
char s[22],*p;
int main()
{
while(in>>op>>s)
{
p = s;
it = &t;
l = 0;len=0;
while(p[0] != '\0')
{
if(it->children[p[0] - 'a'] == NULL && op == 2)
{op=9; out<<"0\n"; break;}
if(it->children[p[0] - 'a'] == NULL && op == 3)
break;
if(it->children[p[0] - 'a'] == NULL)
it->children[p[0] - 'a'] = new Trie(), it->children[p[0] - 'a']->father = it,
it = it->children[p[0] - 'a'];
else
it = it->children[p[0] - 'a'];
if(op == 0)
++ it->pref;
else if(op == 1 && it->pref > 0)
-- it->pref;
else if(op == 3 && it->pref > 0)
l = p-s+1;
p++;
}
if(op == 0)
it->nr ++;
else if(op == 1 && it->nr > 0)
{
it->nr --;
l = strlen(s)-1;
while(it->pref == 0 && it != &t && l>=0)
{
it2 = it->father;
it2->children[s[l--] - 'a'] = NULL;
delete it;
it = it2;
}
}
else if(op == 2)
out<<it->nr<<'\n';
else if(op == 3)
out<<l<<'\n';
}
return 0;
}
Esto toma en trie.in
texto con formato como esto:
0 lat
0 mare
0 lac
2 la
0 mare
1 lat
0 ma
0 lung
3 latitudine
0 mari
2 mare
0 lat
0 mic
3 latime
2 lac
3 mire
y produce texto como este
0
2
2
3
1
2
0 w - añadir la palabra w en la lista (podría ser varias veces)
1 w - eliminar un registro de la palabra w de la lista (podría ser varias veces)
2 W - impresión cuántos w palabras hay en la lista
3 w - imprimir la longitud del prefijo más largo común de w con cualquier otra palabra en la lista
Oh , y perdón por el pobre formato, esto fue hecho para entrenar.
Por favor dé su aplicación trie, estoy muy interesado. ¿Cómo uso su implementación C++ desde un programa Python? – Continuation