2009-07-09 13 views
13

¿Qué tiene de difícil el tema que los diseñadores de algoritmos están teniendo dificultades para abordarlo?¿Por qué no avanza el reconocimiento de voz?

¿Es realmente tan complejo?

Estoy teniendo dificultades para entender por qué este tema es tan problemático. ¿Alguien puede darme un ejemplo de por qué este es el caso?

+21

Si es tan fácil, ¿por qué no puedes resolverlo? = :) –

+8

Todo el mundo parece haber aceptado su premisa, que el reconocimiento de voz no avanza, pero eso simplemente no es cierto. Simplemente no avanza tan rápido como quisieras. Eche un vistazo a programas como Dragon Naturally Speaking, en comparación con los terribles programas de reconocimiento de voz que tuvimos hace cinco o diez años. –

Respuesta

38

Porque si a la gente le cuesta entender a otras personas con un fuerte acento, ¿por qué crees que las computadoras serán mejores?

+3

Me encanta la explicación =) –

+14

¿Puedes calcular 99923423423^32423343? no pero la computadora puede;) – Sadegh

+4

Adinochestva: En realidad, calcular eso llevaría un tiempo incluso para una computadora. Y no hay ninguna razón por la cual un humano no podría emular una Máquina de Turing, así que teóricamente es tan difícil para una computadora como para un humano. –

2

La síntesis de voz es muy compleja en sí misma: muchos parámetros se combinan para formar el habla resultante. Romperlo es difícil incluso para las personas: a veces usted malinterpreta una palabra por palabra.

6

beecos iyfe peepl encuentra difícil sostenerse uvver peepl wif e strang acsent wie doo yoo fink compootrs wyll bee ani bettre ayt it it?

Apuesto a que tardó medio segundo en descubrir qué diablos estaba escribiendo y todo lo que hice fue repetir la respuesta de Simons con un "acento" diferente. La potencia de procesamiento simplemente no está allí, pero está llegando.

+1

Y me acabo de dar cuenta de que cometí un error en mi tipeo de "y todos los IW diciendo", lo que irónicamente ayuda a mi punto, creo. Eso es un poco como un tic de habla o tartamudeo que hace que el reconocimiento de voz sea aún más difícil que los problemas de acento ... –

+0

No son solo acentos extraños: la herramienta de reconocimiento de voz (inglés) en Mac no reconoce ni siquiera el acento británico. –

+1

Soy británico y no puedo entender algunos de nuestros acentos regionales. –

0

No es mi campo, pero sí creo que está avanzando, solo lentamente.

Y creo que la respuesta de Simon es algo correcta en cierta forma: parte del problema es que no hay dos personas que hablen igual en cuanto a los patrones que una computadora está programada para reconocer. Por lo tanto, es difícil analizar el habla.

6

La variedad en el lenguaje sería el factor predominante, por lo que es difícil. Dialectos y acentos harían esto más complicado. Además, contexto. El libro fue leído. El libro era rojo. ¿Cómo se determina la diferencia? El esfuerzo adicional necesario para esto haría que fuera más fácil simplemente escribir la cosa en primer lugar.

Ahora, probablemente habría más esfuerzo dedicado a esto si fuera más necesario, pero los avances en otras formas de entrada de datos han llegado tan rápido que no se considera necesario.

Por supuesto, hay áreas en las que sería genial, incluso extremadamente útil o útil. Situaciones en las que tiene las manos ocupadas o no puede mirar una pantalla para obtener información. Ayudando a los discapacitados, etc. Pero la mayoría de estos son nichos de mercado que tienen sus propias soluciones. Tal vez algunos de ellos estén trabajando más para lograr esto, pero la mayoría de los entornos donde se usan computadoras no son buenos candidatos para el reconocimiento de voz. Prefiero que mi entorno de trabajo sea silencioso. Y la interminable charla a las computadoras haría que la diafonía sea un problema realista.

Además de esto, a menos que esté dictando prosa en la computadora, cualquier otro tipo de entrada es más fácil y rápido usando el teclado, el mouse o el tacto. Una vez intenté codificar usando la entrada de voz. Todo fue doloroso de principio a fin.

+0

Respondió la limpieza de la nueva búsqueda de Google Voice y teléfono inteligente. ;) –

0

Para empezar, las computadoras no son muy buenas en el procesamiento del lenguaje natural. Son geniales para emparejar, pero cuando se trata de inferir, se pone peludo.

Luego, tratando de descifrar la misma palabra de cientos de acentos/inflexiones diferentes, y de repente no parece tan simple.

1

La mayoría de las veces lo entendemos humano según el contexto. De modo que una oración particular está en armonía con toda la conversación, lamentablemente la computadora tiene una gran desventaja en este sentido.Simplemente trata de capturar la palabra que no está entre ella.

entendemos que un extranjero cuyo acento inglés es muy pobre puede adivinar qué está tratando de decir en lugar de qué está diciendo en realidad.

1

Para reconocer bien el habla, necesita saber lo que las personas quieren decir, y las computadoras aún no están allí.

3

Debido Lernout&Hauspie quebró :)

(lo siento, como un belga no pude resistir)

+0

+1, exactamente mi pensamiento cuando vi esta pregunta. :) – KristoferA

0

Bueno, yo tengo Google Voice Search en mi G1 y funciona sorprendentemente bien. La respuesta es que el campo está avanzando, ¡pero no lo has notado!

+1

google búsqueda de voz está lejos del reconocimiento de voz. – markus

+2

@tharkun: Google Voice Search hace un uso intensivo de la tecnología de reconocimiento de voz. –

1

Lo dijo usted mismo, los diseñadores de algoritmos están trabajando en ello ... pero el lenguaje y el habla no son construcciones algorítmicas. Son la cima del desarrollo del sistema humano altamente complejo que involucra conceptos, metaconceptos, sintaxis, excepciones, gramática, tonalidad, emociones, actividad neuronal y hormonal, etc. etc.

El lenguaje necesita una gran heurística enfoque y es por eso que el progreso es lento y las perspectivas tal vez no demasiado optimistas.

18

Recuerdo haber leído que Microsoft tenía un equipo trabajando en el reconocimiento de voz, y se llamaron a sí mismos el equipo "Wreck a Nice Beach" (un nombre que les dio su propio software).

Para convertir el habla en palabras, no es tan simple como asignar sonidos discretos, también tiene que haber una comprensión del contexto. El software debería tener una vida de experiencia humana codificada en él.

+5

"Reconocer voz" ~ = "Naufragio de una playa bonita" ejemplo = +1. – Beska

+2

e incluso entonces podría/podría fallar con ruido de fondo, nuevos acentos o cambios sorprendentes en el tema al igual que una bolsa de carne –

+1

No toda la vida; 10 a 20 años debería ser suficiente. :) –

1

Una vez le hice una pregunta similar a mi instructor; Le pregunté algo así como qué desafío hay en hacer un convertidor de voz a texto. Entre las respuestas que dio, me pidió que pronuncie 'p' y 'b'. Luego dijo que difieren por muy poco tiempo al principio, y luego suenan similares. Mi punto es que incluso es difícil reconocer qué sonido se produce, reconocer que la voz sería aún más difícil. Además, tenga en cuenta que una vez que graba las voces de las personas, son solo números los que almacena. Imagine tratar de encontrar métricas como el acento, la frecuencia y otros parámetros útiles para identificar la voz a partir de nada más que entradas como matrices de números. Las computadoras son buenas para el procesamiento numérico, etc., pero la voz no es realmente 'números'. Necesita codificar la voz en números y luego hacer todos los cálculos en ellos.

+1

En realidad, la diferencia entre "p" y "b" no es tanto en el sonido inicial como en el aspecto sonoro o no vocal de ellos. Definitivamente son similares, ambos son oclusivas bilabiales, pero el aspecto sonoro de b es lo que lo diferencia del p no sordo. – Beska

3

El problema básico es que el lenguaje humano es ambiguo. Por lo tanto, para entender el habla, la computadora (o humano) necesita entender el contexto de lo que se está hablando. Ese contexto es en realidad el mundo físico en el que habitan el hablante y el oyente. Y ningún programa de IA ha demostrado tener una profunda comprensión del mundo físico.

+0

Creo que SHRDLU, de Terry Winograd, tenía una comprensión bastante profunda del mundo físico. Al menos una pequeña parte de eso. –

+0

No creo que haya entendido nada. Si le pediste que moviera el "objeto sólido de seis lados cuyo color es el mismo que mi corbata", ¡apostaría a que habría tenido dificultades! –

0

Si el reconocimiento de voz fuera posible con menos MIPS que el cerebro humano, realmente podríamos hablar con los animales.

La evolución no gastaría todas esas calorías en materia gris si no se les exigiera hacer el trabajo.

9

Este tipo de problema es más general que solo el reconocimiento de voz. Existe también en el procesamiento de la visión, procesamiento del lenguaje natural, inteligencia artificial, ...

El reconocimiento de voz se ve afectada por el problema semantic gap:

La brecha semántica caracteriza la diferencia entre dos descripciones de un objeto por diferentes representaciones lingüísticas, por ejemplo idiomas o símbolos. En equipo la ciencia, el concepto es relevante actividades humanas cada vez ordinarias, observaciones, y las tareas son transfirió a un computacional representación

entre una forma de onda de audio y una palabra textual, la brecha es grande,

Entre la palabra y su significado, es aún más grande ...

0

El lenguaje hablado es sensible al contexto, ambiguo. Las computadoras no manejan bien los comandos ambiguos.

1

yo esperaría algunos avances de Google en el futuro debido a su recolección de datos de voz a través de 1-800-Goog411

+0

Hehe, y sin embargo, Speech To Text de Google para el correo de voz es horrible. – Moshe

0

No estoy de acuerdo con el supuesto de la cuestión - que recientemente se han introducido al discurso de Microsoft reconocimiento y estoy impresionado. Puede aprender mi voz después de unos minutos y generalmente identifica palabras comunes correctamente. También permite que se agreguen nuevas palabras. Ciertamente es útil para mis propósitos (entender la química).

Diferenciar entre el reconocimiento de los tokens (palabra) y la comprensión del significado de los mismos.

Aún no conozco otros idiomas o sistemas operativos.

0

El problema es que hay dos tipos de motores de reconocimiento de voz. Los capacitados con parlantes como Dragon son buenos para el dictado. Pueden reconocer casi cualquier texto hablado con bastante buena precisión, pero requieren (a) entrenamiento por parte del usuario, y (b) un buen micrófono.

Los motores de reconocimiento de voz independientes del altavoz se usan con mayor frecuencia en telefonía. No requieren "capacitación" por parte del usuario, pero deben saber con anticipación qué palabras se esperan. El esfuerzo de desarrollo de aplicaciones para crear estas gramáticas (y ocuparse de los errores) es enorme. La telefonía está limitada a un ancho de banda de 4Khz debido a los límites históricos en nuestra red telefónica pública. Esta calidad de audio limitada dificulta en gran medida la capacidad de los motores de reconocimiento de voz para "escuchar" lo que dice la gente. Los dígitos como "seis" o "siete" contienen un sonido ssss que es particularmente difícil de distinguir para los motores. Esto significa que reconocer cadenas de dígitos, una de las tareas de reconocimiento más básicas, es problemático. Agregue acentos regionales, donde "nueve" se pronuncia "nan" en algunos lugares, y la precisión realmente se resiente.

La mejor esperanza son las interfaces que combinan gráficos y voz rec. Piense en una aplicación para iPhone que puede controlar con su voz.

40

El procesamiento auditivo es una tarea muy compleja. La evolución humana ha producido un sistema tan bueno que no nos damos cuenta de lo bueno que es. Si tres personas te hablan al mismo tiempo, podrás enfocar una señal y descartar las otras, incluso si son más fuertes. El ruido está muy bien descartado también. De hecho, si escuchas la voz humana reproducirse al revés, las primeras etapas del sistema auditivo enviarán esta señal a un área de procesamiento diferente que si es una señal de habla real, porque el sistema la considerará como "sin voz". Este es un ejemplo de las habilidades excepcionales que tienen los humanos.

El reconocimiento de voz avanzó rápidamente desde los años 70 porque los investigadores estaban estudiando la producción de voz. Este es un sistema más simple: cuerdas vocales excitadas o no, resonancia del tracto vocal ... es un sistema mecánico fácil de entender. El producto principal de este enfoque es el cepstral analysis. Esto llevó el reconocimiento automático de voz (ASR) para lograr resultados aceptables. Pero este es un enfoque subóptimo. La separación de ruido es bastante mala, incluso cuando funciona más o menos en entornos limpios, no va a funcionar con música alta en segundo plano, no como lo harán los humanos.

El enfoque óptimo depende de la comprensión del sistema auditivo. Sus primeras etapas en la cóclea, el colículo inferior ... pero también el cerebro está involucrado. Y no sabemos mucho sobre esto. Es un cambio de paradigma difícil.

El profesor Hynek Hermansky comparó en a paper el estado actual de la investigación con cuando los humanos querían volar. No sabíamos cuál era el secreto — Las plumas? alas batiendo? — hasta que descubrimos la fuerza de Bernoulli.

+2

¿Por qué no se marcó esto como una respuesta? –

+0

Respondió meses después. – MiseryIndex

+2

+1 excelente explicación. – Lazer

Cuestiones relacionadas