2012-10-04 24 views
25

Ahora estoy trabajando con mi proyecto y estoy por construir una aplicación similar a Siri para la computadora de escritorio. Estoy pensando si Google Speech API es confiable y precisa para el reconocimiento de voz. ¿Puede sugerirme qué API de voz es la más precisa en términos de reconocimiento de voz? Más preferiblemente una API gratis. Gracias.Google speech API

+0

Es posible que desee considerar la posibilidad de ejecutar su propio reconocedor de voz. CMU Sphinx proporciona modelos acústicos específicos e instrucciones de compilación para usar en dispositivos móviles http://cmusphinx.sourceforge.net/wiki/building –

Respuesta

36

Si bien la API de Google speech es gratuita, no es una API pública oficial. Algunas personas lo han diseñado por ingeniería inversa, como es discussed in this blog. Si está planeando acceder a la API directamente para un producto comercial, no lo recomendaría porque pueden quitarlo o cambiarlo sin previo aviso, rompiendo su producto. Esto sucedió recientemente a los desarrolladores que utilizaron el Google Weather API. Si está accediendo a través de un navegador Chrome usando x-webkit-speech, por otro lado, probablemente esté seguro ya que es compatible con Google. El reconocimiento de voz de Google está a la altura de muchas de las soluciones comerciales más populares. Tienen mucha experiencia en otros proyectos como Google Voice y el ahora difunto Google 411. Tienen algunos de los principales expertos en discursos que trabajan para ellos. La única alternativa gratuita que puedo pensar es Sphinx, que es un proyecto de código abierto de la Universidad Carnegie Mellon. Empinada curva de aprendizaje utilizando esta solución y si desea que se configure como un servicio, tendrá que desarrollarlo usted mismo. Nuance es el otro gran jugador en el mercado de reconocimiento de voz (creo que es lo que usa Siri) y tienen soluciones que ofrecen reconocimiento de voz como un servicio. Pero son caros.

Actualización sobre la respuesta De Comentarios en Soporte de idiomas

de Windows reconocimiento de voz es compatible con otros idiomas, al igual que la mayoría de los sistemas de reconocimiento de voz. Pero la advertencia es que tienes que decirle al sistema qué idioma usar y tiene que ser compatible con el idioma en cuestión. Cada proveedor tiene una lista de idiomas que admite y son específicos de una región. Por ejemplo, un proveedor puede admitir español mexicano, español estadounidense y español español; que todos tienen dialectos ligeramente diferentes. Pero el motor de reconocimiento de voz solo puede admitir un idioma/dialecto en un temporizador por usuario. Un usuario no puede hablar varios idiomas a un sistema de reconocimiento de voz sin primero solicitarle que cambie a ese idioma.

Updated 3/17/2014

El campo de entrada-webkit-speech x está en desuso debido a la falta de apoyo en otros navegadores. Esto se reemplazará con el Web Speech API, que es una API de JavaScript. Puede encontrar un example on how to use it here.

+0

Estoy completamente de acuerdo con Kevin en la API de Google. Solo agregaría una sugerencia más ya que la pregunta era para una aplicación de escritorio. Windows proporciona reconocimiento de voz para sus sistemas operativos tanto de escritorio como de servidor. Consulte http://stackoverflow.com/questions/4213035/sapi-and-windows-7-problem y http://stackoverflow.com/a/6351055/90236 para obtener más información. –

+0

Tengo un problema en términos de precisión con el reconocimiento de voz de Windows porque tal vez necesite hablar en inglés. También estoy refiriendo para qué API tiene la más precisa en términos de reconocimiento de voz y también adoptará otra dicción. Gracias Michael Levy, nd Kevin Junghans. –

+1

Muchas gracias por toda su respuesta, señor. Estoy usando esta API de Google speech ahora para mi proyecto. sobre su precisión es bueno, pero tal vez pueda cambiarlo la próxima vez si algunas API de voz ofrecen más precisión que esto. Depende de qué proyecto vaya a usar. Gracias. –