2011-01-24 15 views

Respuesta

6
+0

Ese documento era muy útil con la excepción de 'Generación de un diccionario'. ¿La distribución viene con un script para generar ese diccionario? – joeforker

+0

Puede usar la herramienta de pronunciación que puede verificar desde subversion http://cmusphinx.svn.sourceforge.net/viewvc/cmusphinx/trunk/logios/Tools/MakeDict/ Hay paquetes de g2p externos como http://code.google. com/p/phonetisaurus/o sequitur-g2p, también se pueden usar. –

+0

Parece que Pocketsphinx tiene un diccionario en el directorio en_US, justo al lado de los modelos. Voy a intentar usar ese. – joeforker

1
No

una tarea trivial. Generar un modelo de lenguaje es una tarea que requiere mucho tiempo y recursos.

Si desea tener un modelo de lenguaje "bueno", necesitará un cuerpo de texto grande o muy grande para entrenar un modelo de lenguaje (piense en el orden de magnitud de varios años de textos del diario de Wall Street).

"bueno" significa: si el modelo de lenguaje será capaz de generalizar a partir de los datos de entrenamiento para introducir datos nuevos y nunca antes vistas

usted debe buscar en la documentación de la Esfinge y los kits de herramientas HTK modelo de lenguaje.

http://cmusphinx.sourceforge.net/wiki/tutoriallm

También revise estas dos hilos:

Building openears compatible language model

Ruby Text Analysis

usted podría tomar un modelo de lenguaje más general, sobre la base de un corpus más grande e interpolar el más pequeño modelo de idioma con es ... por ejemplo, un modelo de lenguaje alternativo ... pero esa no es una tarea trivial.

ver: Katz's back-off model

Cuestiones relacionadas