¿Cómo construyo un modelo de lenguaje de gran vocabulario para CMU Sphinx?

Me gustaría construir un modelo de lenguaje para CMU Sphinx, pero mi corpus tiene más de 1000 palabras, así que no puedo usar la herramienta en línea. ¿Cómo uso (los scripts en cmuclmtk?) Para construir mi modelo de lenguaje?¿Cómo construyo un modelo de lenguaje de gran vocabulario para CMU Sphinx?

Fuente

2011-01-24 joeforker

Por favor, lea el tutorial

http://cmusphinx.sourceforge.net/wiki/tutoriallm

Fuente

2011-01-24 19:20:14

Ese documento era muy útil con la excepción de 'Generación de un diccionario'. ¿La distribución viene con un script para generar ese diccionario? – joeforker

Puede usar la herramienta de pronunciación que puede verificar desde subversion http://cmusphinx.svn.sourceforge.net/viewvc/cmusphinx/trunk/logios/Tools/MakeDict/ Hay paquetes de g2p externos como http://code.google. com/p/phonetisaurus/o sequitur-g2p, también se pueden usar. –

Parece que Pocketsphinx tiene un diccionario en el directorio en_US, justo al lado de los modelos. Voy a intentar usar ese. – joeforker

una tarea trivial. Generar un modelo de lenguaje es una tarea que requiere mucho tiempo y recursos.

Si desea tener un modelo de lenguaje "bueno", necesitará un cuerpo de texto grande o muy grande para entrenar un modelo de lenguaje (piense en el orden de magnitud de varios años de textos del diario de Wall Street).

"bueno" significa: si el modelo de lenguaje será capaz de generalizar a partir de los datos de entrenamiento para introducir datos nuevos y nunca antes vistas

usted debe buscar en la documentación de la Esfinge y los kits de herramientas HTK modelo de lenguaje.

http://cmusphinx.sourceforge.net/wiki/tutoriallm

También revise estas dos hilos:

Building openears compatible language model

Ruby Text Analysis

usted podría tomar un modelo de lenguaje más general, sobre la base de un corpus más grande e interpolar el más pequeño modelo de idioma con es ... por ejemplo, un modelo de lenguaje alternativo ... pero esa no es una tarea trivial.

ver: Katz's back-off model

Fuente

2011-10-05 02:01:13 Tilo

¿Cómo construyo un modelo de lenguaje de gran vocabulario para CMU Sphinx?

Respuesta

Cuestiones relacionadas