2009-03-04 29 views
11

¿Hay alguien que tenga experiencia con cualquier código abierto o API de reconocimiento de voz relativamente barata para Java? Estoy buscando algo que convierta las palabras habladas en texto.reconocimiento de voz Java

Desde la página de reconocimiento de voz de java en el sol, parece que es algo que está bastante muerto. Mis requisitos son algo que al menos se ejecuta en Linux.

¿Alguien puede recomendar algo? Java puro sería una ventaja, de lo contrario podría considerarse una solución basada en Linux. Y como este es un proyecto hogareño ... cuanto más barato, mejor.

  • Editar

CMU Sphinx Como se señaló Amit CMU Sphinx http://cmusphinx.sourceforge.net/html/cmusphinx.php Mi problema es una tasa de error de palabra masiva. El entrenamiento parece un proyecto en sí mismo, espero reunir fuerzas para probarlo este fin de semana.

IBM ViaVoice
Hay anuncios de noticias flotando alrededor de 2004 sobre Via Voice being made open source. Parece que el comunicado de prensa fue prematuro y que nunca sucedió. VIA Voice fue released for linux en algún momento, pero parece que se detuvieron. Todo lo que parece quedar en el sitio web de IBM es ViaVoice embedded.

IBM Websphere Voice
Me imagino que este es el motivo por el cual ViaVoice (desktop) parece descontinuado. IBM creó esta solución comercial que costará mucho más que un brazo y una pierna. Y solo usarlo tomará los que te quedan, al menos después de mi experiencia con websphere y su IDE.

Nuance
Parece que todavía pueden crear productos para Linux. Pero creo que se perdieron y siguieron a IBM en el mercado de servidores. No estoy seguro de esto, su sitio web no es tan amigable para encontrar información útil.

Open Mind/Free Speech
Estos tipos siguen cambiando el nombre de su proyecto. Probablemente alguna compañía hambrienta de dinero los siga amenazando, pero no lo sé. El proyecto parece un poco muerto.

Podría intentar entrenar a Sphinx este fin de semana para ver si quiere ser amigos. En otro caso peor, voy a ver el uso de la solución de voz de Microsoft. Me ha funcionado bien en el pasado, pero no es una gran solución de Linux. Probablemente podría usarlo a través del vino, pero luego tendré dos servidores separados ... desordenados.

Ah, y lo que parece un buen lugar para visitar para voz/habla SpeechTechMag. Tienen una 'referencia anual' que tiene una lista de compañías que de alguna manera se relacionan con voz/habla.

Respuesta

9
+0

Después de trabajar con él, de hecho es bastante horrible. Apenas reconoce algo, y no es como si tuviera un acento horrible o algo así. El entrenamiento parece un problema aún mayor y, a menos que esté dispuesto a embolsarse una base de datos de terceros, su sesión quedará en el fondo del montón. – guyumu

+0

No he tenido ninguna experiencia práctica con él./ –

+2

Esta pregunta es bastante antigua, pero me gustaría decir el rendimiento actual de Sphinx. Utilicé Sphinx 4 y adapté el modelo WSJ y me dio un 86% de precisión. – Shekhar

1

he estado buscando lo mismo durante unos días. Hasta ahora he encontrado Sphinx4 y FreeTTS. Ambas son implementaciones de Java y parece que Sphinx se actualiza con bastante frecuencia a diferencia de FreeTTS. El único problema que tengo es que Sphinx tiene problemas para entenderme en un entorno de oficina, y necesito una solución para un entorno de almacén.

3

sphinx es de lejos la mejor opción disponible si tiene un presupuesto ajustado. sin embargo, también hace una diferencia enorme diferencia qué modelos utiliza, cómo los sintoniza y cómo sintonizar su fuente de audio. absolutamente todo tiene que coincidir de lo contrario simplemente no funcionará. dado el problema que describió, puede estar dispuesto a apostar una suma sustancial que tiene. Tiene sus modelos mezclados y su micrófono no está calibrado correctamente. Además, si tiene un acento, probablemente no funcione, esto no es un problema con el decodificador, sino con los modelos acústicos. Si no se incluyera a nadie con una voz/acento similar al suyo en los datos de capacitación, obtendrá malos resultados. .

Dicho esto, ¿ha mirado su página de modelos de código abierto?

http://www.speech.cs.cmu.edu/sphinx/models/

dependiendo de lo que está tratando de hacer que debe ser capaz de obtener alrededor del 90% de precisión en la libertad de expresión con los modelos de 16 kHz y el WSJ gigaword LM NVP. Sin embargo, advierto que ASR es una empresa masiva y aún no ha alcanzado el estatus de mercancía.

+0

Creo que llegué a esa conclusión, todavía me queda un largo camino por recorrer. Si tengo un acento o no, es subjetivo: D pero probable. Recientemente he dejado de usar ubuntu y salté al carro de Windows. Cuando continúe con esto, creo que tendré la capacidad de usar el motor de microsoft, que funcionó razonablemente en el pasado. Pero al final ... creo que la tecnología tiene mucho por hacer, y creo que dejaré esa parte por completo durante 10 años :) – guyumu

+0

El motor de microsoft también solía estar basado en la esfinge. ahora creo que tal vez confíen más en HTK, otro sistema de reconocimiento de voz de código abierto. su acento no es un problema subjetivo desde el punto de vista de un sistema ASR. los resultados dependerán en gran medida de qué tan bien las características de su voz coincidan con las de las voces en los datos de entrenamiento. las diferencias que pueden parecerle triviales, por ejemplo, un acento canadiense frente a un acento estadounidense, pueden tener un impacto muy significativo en la calidad del ASR. en la actualidad, la mayoría de los sistemas se basan en los mismos algoritmos, la diferencia son los datos. – si28719e

0

Mi grupo terminó un mini programa en Java para reconocer los dígitos hablados usando Sphinx.

2

puede descargar vPass (contraseña de voz) de http://www.basic-signalprocessing.com.

Para (vText) voz a texto, puedo enviar el archivo vText.jar a su correo electrónico. Pls notificar a [email protected]

Los componentes están diseñados para Java y el lenguaje .Net. El período de reconocimiento es de 5 segundos. VPass está bien probado vText no es, todavía es nuevo, por eso aún no está empaquetado.

cordiales, Andreas

Cuestiones relacionadas