Python Speaker Recognition

Tengo un archivo de audio (conversación telefónica grabada de 2 personas). Necesito separar las voces de 2 parlantes automáticamente. Soy nuevo en el reconocimiento de voz y busqué en el módulo Wave de Python, pero faild para encontrar información fructífera.Python Speaker Recognition

Por favor, ayuda para saber cómo empezar. También sugiérame bibliotecas gratuitas de Python que me ayudarán a resolver el problema.

Fuente

2011-09-05 PJC

Comience con numpy, y me gustaría ver los espectrpgraphs (básicamente una FFT rodante) como un buen método para distinguir diferentes voces en una grabación de audio.

Aquí está la función de espectrograma en Matplotlib:

http://matplotlib.sourceforge.net/api/pyplot_api.html#matplotlib.pyplot.specgram

recomendaría Python(x,y) si acaba de empezar en una plataforma Windows.

Fuente

2011-09-05 14:15:17

Eche un vistazo a la biblioteca CMU Sphinx Python. Está desarrollado en Java, así que creo que las libs de Python son solo envoltorios para eso. El proyecto tiene mucha investigación en curso detrás de esto.

wiki oficial: http://cmusphinx.sourceforge.net/wiki/

tutorial de inicio rápido para Linux aquí: http://probing.wikidot.com/speech-recognition-using-sphinx3-and-python

Fuente

2011-09-05 16:08:58 bcoughlan

Salida sciKits Talkbox: http://projects.scipy.org/scikits/wiki/Talkbox

tutoriales Unfortunutly están muy restringido: http://www.ar.media.kyoto-u.ac.jp/members/david/softwares/talkbox/talkbox_doc/intro.html

Fuente

2013-06-14 16:20:36 billwild

La tarea de separación de los altavoces no es una tarea de reconocimiento de voz, es una tarea de reconocimiento de hablante. En la comunidad del habla, esta tarea también se conoce como diarización del hablante. Hay varios paquetes para diarización altavoz y el reconocimiento del hablante disponibles para Python:

SIDEKIT from LIUM

Bob toolkit from Idiap

Speaker diarization from ISCI

En caso de que no se limitan a Python, hay otros:

LIUM speaker diarization

Speaker recognition setup in Kaldi. Incluye i-vectores basados en DNN de última generación.

Fuente

2013-06-14 18:24:35

Respuesta

Cuestiones relacionadas