De acuerdo con el código que envía los datos de audio como una solicitud POST a:
https://www.google.com/speech-api/v1/recognize?client=chromium&lang=??&lm=??&xhw=??&maxresults=3
lm
es grammar
en el código, xhw
es hardware_info
que es opcional de acuerdo con un comentario. El audio parece ser speex,-speex-con-header-byte x:
// Encode the frame and place the size of the frame as the first byte. This
// is the packet format for MIME type x-speex-with-header-byte.
Parece que sería bastante trivial para modificar el código de Chrome para utilizar en su propia aplicación.
Actualización:
también es necesario para obtener una speech recognition API key y son limitada a 50 solicitudes por día. No hay forma de aumentar ese límite, ni siquiera pagando.
Presentación de Hacker News en la que probablemente se encuentre ese enlace: http://news.ycombinator.com/item?id=1972855 – balu