Actualmente estoy tratando de implementar el reconocimiento de voz básico en AS3. Necesito que esto sea completamente del lado del cliente, como tal no puedo acceder a poderosas herramientas de reconocimiento de voz del lado del servidor. La idea que tenía era detectar sílabas en una palabra, y usar eso para determinar la palabra hablada. Soy consciente de que esto limitará enormemente las capacidades para el reconocimiento, pero solo necesito reconocer algunas palabras clave y puedo asegurarme de que todas tengan una cantidad diferente de sílabas.¿Detección de pico múltiple 1D?
Actualmente puedo generar una matriz 1D de nivel de voz para una palabra hablada, y puedo ver claramente, si de alguna manera la dibujo, que hay picos distintivos para las sílabas en la mayoría de los casos. Sin embargo, estoy completamente estancado en cuanto a cómo descubriría esos picos. Realmente solo necesito el conteo, pero supongo que eso viene con encontrarlos. Al principio pensé en obtener algunos valores máximos y compararlos con el promedio de valores, pero me había olvidado de ese pico que es más grande que los demás y, como tal, todos mis "picos" se ubicaron en un pico real.
Me encontré con some Matlab code que parece casi demasiado corto para ser cierto, pero no puedo mucho porque no puedo convertirlo a cualquier idioma que conozco. Intenté AS3 y C#. Entonces, me pregunto si ustedes podrían iniciarme en el camino correcto o si tenían algún seudocódigo para la detección de picos.
Esta función no devuelve nada, pero si lo hiciera, no sería simplemente devolver el índice de la pico más alto, no todos los picos? – Matt