2010-07-05 14 views
6

Tengo un flujo de audio y extraería palabras (habla) de él. Entonces, por ejemplo, con audio.wav obtendría 001.wav, 002.wav, 003.wav, etc. donde cada XXX.wav es una palabra.Biblioteca para extraer palabras (voz) del flujo de audio?

Estoy buscando una biblioteca o programa para hacerlo - la plataforma no importa, pero prefiero la solución de código abierto.

Gracias de antemano por su ayuda.

Respuesta

2

Nuance, la compañía que hace Dragon Naturally Speaking, tiene un número de Software Development Kits.

El kit Audio Mining parece satisfacer sus necesidades:

Dragon NaturallySpeaking SDK AudioMining es un conjunto de herramientas de reconocimiento voz independiente del hablante que permite la indexación de 100% de la información discurso dentro de los archivos de audio. La tecnología utiliza el reconocimiento de voz de alta precisión para convertir los archivos de audio en texto XML con información de marca de tiempo . Esto se puede integrar con los productos de búsqueda de texto estándar a para permitir un acceso rápido al contenido específico de audio .

Los metadatos de voz a palabra son por lejos la parte más difícil de conseguir. Una vez que tenga los metadatos de discurso +, la extracción de las palabras como archivos de audio individuales es much more straightforward.

+0

NB El kit Audio Mining mencionado viene con la siguiente advertencia: "** La tecnología Dragon AudioMining está diseñada específicamente para el inglés estadounidense y no está destinada a la transcripción de reuniones o entrevistas. **" – LeeGee

+0

@greenoldman prefirió una fuente abierta solución –

+0

Es muy difícil encontrar información sobre Nuance AudioMining en línea. Y parece ser contradictorio, ya que la transcripción de reuniones y entrevistas se mencionó explícitamente en el lanzamiento del producto en 1999: https://www.youtube.com/watch?v=yagvFY_rUwM – Christoph

Cuestiones relacionadas