8

Estoy trabajando en un proyecto donde el sistema biométrico se usa para asegurar el sistema. Estamos planeando usar voz humana para asegurar el sistema.Cómo convertir voz humana en formato digital?

La idea es permitirle a la persona decir algunas palabras u oraciones y el sistema almacenará esa voz en formato digital. La próxima vez que la persona quiera ingresar al sistema, él/ella tiene que decir algunas palabras que pueden o no ser diferentes de las palabras utilizadas anteriormente.

No queremos unir palabras pero queremos coincidir con la frecuencia de voz.

He leído algunos trabajos de investigación sobre este sistema, pero esos documentos no tienen ningún detalle de implementación.

Solo queremos saber si hay algún programa/API que pueda convertir la voz analógica a formato digital y también nos dirá la frecuencia de la voz.

Hasta ahora estaba trabajando en aplicaciones normales basadas en web, así que conozco API y plataformas normales como Java EE, C#, etc. pero no tengo ninguna experiencia sobre este tipo de aplicaciones.

Por favor ilumine !!!

+0

Solo me preguntaba qué tan seguro sería eso.¡Tan fácil grabar la voz de alguien y reproducirla! – Matt

+0

Oye, ¿tienes la solución a esta pregunta? Si es así, ¿cómo hiciste esto? Lo mismo es lo que tengo que hacer ... y no tengo idea, ¿puedes mostrarme el camino para lograrlo? – subodh

+0

Consulte esta pregunta, http://stackoverflow.com/questions/8724454/java-voice-biometric – subodh

Respuesta

2

Este es un buen punto de partida como cualquier: http://marsyas.info/

Es un marco de software de código abierto para el procesamiento de audio. Han enumerado un grupo de proyectos que han utilizado su marco de trabajo de varias maneras, por lo que probablemente pueda inspirarse en él. http://marsyas.info/about/projects. El proyecto Telligence en particular, parece el más cercano a sus necesidades, ya que se utiliza para el género clasifican de audio: http://marsyas.info/about/projects#5Teligence

2

Hay dos pasos en un proyecto como éste creo:

primer paso sería grabar la voz desde una entrada analógica a formato digital (vamos a suponer wav-PCM). Para esto puede usar DirectShow API en C#, o estándar Wav-In como en este proyecto: http://www.codeproject.com/KB/audio-video/cswavrec.aspx. Puede considerar comprimir sus archivos de audio más adelante, hay muchas opciones para esto, en Windows puede considerar el SDK de Windows Media Format para evitar problemas de licencia con otros formatos.

El segundo paso es construir o usar un marco de reconocimiento de voz, si desea construir un marco de reconocimiento probablemente necesitará definir un conjunto de "características" para sus fragmentos de sonido y seleccionar + implementar un algoritmo de reconocimiento. Hay muchos enfoques disponibles para esto, IEEE y los websties de ACM.org suelen ser buenas fuentes. Si desea utilizar un marco existente, puede considerar Nuance Recognizer (comercial) o http://cmusphinx.sourceforge.net (código abierto).

Espero que esto ayude.