Ahora estoy trabajando con mi proyecto y estoy por construir una aplicación similar a Siri para la computadora de escritorio. Estoy pensando si Google Speech API es confiable y precisa para el reconocimiento de voz. ¿Puede sugerirme qué API de voz es la más precisa en términos de reconocimiento de voz? Más preferiblemente una API gratis. Gracias.Google speech API
Respuesta
Si bien la API de Google speech es gratuita, no es una API pública oficial. Algunas personas lo han diseñado por ingeniería inversa, como es discussed in this blog. Si está planeando acceder a la API directamente para un producto comercial, no lo recomendaría porque pueden quitarlo o cambiarlo sin previo aviso, rompiendo su producto. Esto sucedió recientemente a los desarrolladores que utilizaron el Google Weather API. Si está accediendo a través de un navegador Chrome usando x-webkit-speech, por otro lado, probablemente esté seguro ya que es compatible con Google. El reconocimiento de voz de Google está a la altura de muchas de las soluciones comerciales más populares. Tienen mucha experiencia en otros proyectos como Google Voice y el ahora difunto Google 411. Tienen algunos de los principales expertos en discursos que trabajan para ellos. La única alternativa gratuita que puedo pensar es Sphinx, que es un proyecto de código abierto de la Universidad Carnegie Mellon. Empinada curva de aprendizaje utilizando esta solución y si desea que se configure como un servicio, tendrá que desarrollarlo usted mismo. Nuance es el otro gran jugador en el mercado de reconocimiento de voz (creo que es lo que usa Siri) y tienen soluciones que ofrecen reconocimiento de voz como un servicio. Pero son caros.
Actualización sobre la respuesta De Comentarios en Soporte de idiomas
de Windows reconocimiento de voz es compatible con otros idiomas, al igual que la mayoría de los sistemas de reconocimiento de voz. Pero la advertencia es que tienes que decirle al sistema qué idioma usar y tiene que ser compatible con el idioma en cuestión. Cada proveedor tiene una lista de idiomas que admite y son específicos de una región. Por ejemplo, un proveedor puede admitir español mexicano, español estadounidense y español español; que todos tienen dialectos ligeramente diferentes. Pero el motor de reconocimiento de voz solo puede admitir un idioma/dialecto en un temporizador por usuario. Un usuario no puede hablar varios idiomas a un sistema de reconocimiento de voz sin primero solicitarle que cambie a ese idioma.
Updated 3/17/2014
El campo de entrada-webkit-speech x está en desuso debido a la falta de apoyo en otros navegadores. Esto se reemplazará con el Web Speech API, que es una API de JavaScript. Puede encontrar un example on how to use it here.
Estoy completamente de acuerdo con Kevin en la API de Google. Solo agregaría una sugerencia más ya que la pregunta era para una aplicación de escritorio. Windows proporciona reconocimiento de voz para sus sistemas operativos tanto de escritorio como de servidor. Consulte http://stackoverflow.com/questions/4213035/sapi-and-windows-7-problem y http://stackoverflow.com/a/6351055/90236 para obtener más información. –
Tengo un problema en términos de precisión con el reconocimiento de voz de Windows porque tal vez necesite hablar en inglés. También estoy refiriendo para qué API tiene la más precisa en términos de reconocimiento de voz y también adoptará otra dicción. Gracias Michael Levy, nd Kevin Junghans. –
Muchas gracias por toda su respuesta, señor. Estoy usando esta API de Google speech ahora para mi proyecto. sobre su precisión es bueno, pero tal vez pueda cambiarlo la próxima vez si algunas API de voz ofrecen más precisión que esto. Depende de qué proyecto vaya a usar. Gracias. –
- 1. Gramática en Google Web Speech API
- 2. Speech Recognition API
- 3. Text-To-Speech con jquery API HTML
- 4. Google Maps API v2 vs Google Maps API v3?
- 5. Google Earth API vs Google Earth COM API
- 6. Text-to-speech en iPhone
- 7. Python Speech Comparar
- 8. Microsoft Speech Recognition Platform
- 9. Google goggles API
- 10. Google Alerts API?
- 11. Google Maps API
- 12. Fotos de Google+ api
- 13. Google API para Python
- 14. Google SERP API - Obtener
- 15. Obtener Google API Token
- 16. Geocodificación sin Google API?
- 17. Google Form API?
- 18. Google images api
- 19. Google Suggest API
- 20. google-files-api
- 21. Google Maps API limitaciones
- 22. Google Distancia Matrix API
- 23. Google Latitude API
- 24. Google Places API - REQUEST_DENIED
- 25. Detección de palabras clave en Speech
- 26. Android Speech to Text Ejemplo
- 27. Text-to-Speech en Emacs
- 28. Delphi SAPI Text-To-Speech
- 29. Flex Text to Speech Program
- 30. Google chart API styling tooltips
Es posible que desee considerar la posibilidad de ejecutar su propio reconocedor de voz. CMU Sphinx proporciona modelos acústicos específicos e instrucciones de compilación para usar en dispositivos móviles http://cmusphinx.sourceforge.net/wiki/building –