Me gustaría construir un modelo de lenguaje para CMU Sphinx, pero mi corpus tiene más de 1000 palabras, así que no puedo usar la herramienta en línea. ¿Cómo uso (los scripts en cmuclmtk?) Para construir mi modelo de lenguaje?¿Cómo construyo un modelo de lenguaje de gran vocabulario para CMU Sphinx?
Respuesta
Por favor, lea el tutorial
una tarea trivial. Generar un modelo de lenguaje es una tarea que requiere mucho tiempo y recursos.
Si desea tener un modelo de lenguaje "bueno", necesitará un cuerpo de texto grande o muy grande para entrenar un modelo de lenguaje (piense en el orden de magnitud de varios años de textos del diario de Wall Street).
"bueno" significa: si el modelo de lenguaje será capaz de generalizar a partir de los datos de entrenamiento para introducir datos nuevos y nunca antes vistas
usted debe buscar en la documentación de la Esfinge y los kits de herramientas HTK modelo de lenguaje.
http://cmusphinx.sourceforge.net/wiki/tutoriallm
También revise estas dos hilos:
Building openears compatible language model
usted podría tomar un modelo de lenguaje más general, sobre la base de un corpus más grande e interpolar el más pequeño modelo de idioma con es ... por ejemplo, un modelo de lenguaje alternativo ... pero esa no es una tarea trivial.
- 1. Puede CMU Sphinx configurarse para reconocer ~ 200 palabras
- 2. Cómo utilizar CMU Sphinx 4 para voz a texto con los modelos de voxforge en inglés
- 3. ¿Qué lenguaje de bloque de código Sphinx usar para JSON
- 4. Escribir un gran proyecto utilizando lenguaje de programación J
- 5. ¿Cómo construyo un formulario Django con objetos de modelo en un widget Seleccionar?
- 6. ¿Cómo construyo un proyecto xcode para la tienda de iTunes?
- 7. ¿Qué es un árbol de vocabulario y cómo construir uno?
- 8. Elegir un modelo de coherencia para un lenguaje de programación concurrente
- 9. ¿Cómo construyo e instalo un complemento para KDevelop?
- 10. ¿Cómo construyo un proyecto simple con Cabal?
- 11. ¿Cómo construyo un DataTemplate en código C#?
- 12. ¿Cómo construyo un simulador USB virtual?
- 13. ¿Cómo construyo un proyecto Play con Hudson?
- 14. ¿Cómo construyo un bucle en JavaScript?
- 15. obtener ID de vocabulario por nombre
- 16. ¿Hay un diccionario sobre vocabulario común de programación?
- 17. ¿Cómo construyo una aplicación de consola VB6?
- 18. ¿Cómo construyo una ExcepciónViolación de Constraint?
- 19. ¿Cómo construyo un proyecto de Android usando Ant? (IntelliJ IDE)
- 20. Usando sphinx autodoc para un fabfile
- 21. ¿Cómo se implementaría el 'Modelo' en una aplicación web Rails en un lenguaje de programación funcional?
- 22. lenguaje de programación independiente del modelo de validación
- 23. Cálculo de la perplejidad de un modelo de idioma para la clasificación de correo electrónico
- 24. ¿Cómo construyo OpenCV con TBB?
- 25. Sphinx sin utilizar un ID de auto_increment
- 26. ¿Cómo construyo una matriz numpy de un generador?
- 27. Polaco para la búsqueda de Sphinx?
- 28. Sphinx: lista de idiomas compatibles para resaltar?
- 29. Cómo compilar solo un archivo con sphinx
- 30. Un gran ejemplo de arquitectura de desarrollo
Ese documento era muy útil con la excepción de 'Generación de un diccionario'. ¿La distribución viene con un script para generar ese diccionario? – joeforker
Puede usar la herramienta de pronunciación que puede verificar desde subversion http://cmusphinx.svn.sourceforge.net/viewvc/cmusphinx/trunk/logios/Tools/MakeDict/ Hay paquetes de g2p externos como http://code.google. com/p/phonetisaurus/o sequitur-g2p, también se pueden usar. –
Parece que Pocketsphinx tiene un diccionario en el directorio en_US, justo al lado de los modelos. Voy a intentar usar ese. – joeforker