Los humanos vemos, escuchamos, sentimos y entendemos, aparentemente sin esfuerzo, un sinnúmero de estímulos diversos que cambian rápidamente en nuestro entorno. Sin embargo, hacer lo que hace nuestro cerebro con facilidad es muchas veces una tarea imposible para los ordenadores. Unos investigadores del Instituto Max Planck para las Ciencias de la Cognición y el Cerebro Humanos en Leipzig y del WTCN (Wellcome Trust Center for Neuroimaging) en Londres, han desarrollado ahora un modelo matemático que podría mejorar significativamente el reconocimiento y procesamiento automáticos del lenguaje hablado.
A los actuales sistemas computerizados de reconocimiento del habla humana les resulta muy difícil entendernos cuando hablamos. La razón principal es que, hasta ahora, los programas informáticos que han sido utilizados dependen de procesos que son particularmente sensibles a perturbaciones. Cuando los ordenadores procesan el habla, tratan sobre todo de reconocer rasgos característicos en las frecuencias de la voz con el fin de reconocer palabras. Todo apunta a que el cerebro utiliza un proceso muy distinto, tal como señala Stefan Kiebel del Instituto Max Planck para las Ciencias de la Cognición y el Cerebro Humanos en Leipzig. El investigador cree que el análisis de secuencias temporales desempeña un papel importante en el procesamiento cerebral del habla. Muchos estímulos perceptuales en nuestro entorno podrían ser descritos como secuencias temporales. La música y el lenguaje hablado, por ejemplo, están compuestos de secuencias de longitudes distintas que están ordenadas jerárquicamente. Según esta hipótesis, el cerebro clasifica las distintas señales, desde los componentes más pequeños y de cambio rápido (por ejemplo, unidades de sonido simples como "e" o "u") hasta los elementos grandes de cambio lento (por ejemplo, el tema). El cerebro busca permanentemente estructuras temporales en el entorno con el propósito de deducir qué pasará después. De esta forma, a menudo el cerebro puede, por ejemplo, predecir las próximas unidades de sonido basándose en la información de cambio lento. Así, si el tema de conversación es el verano caluroso, "so…" será más probablemente el inicio de la palabra "sol" que el de la palabra "sopa". Para comprobar esta hipótesis, los investigadores construyeron un modelo matemático diseñado para imitar, de forma muy simplificada, el proceso neuronal que se realiza durante la comprensión del habla. El modelo tuvo éxito procesando el habla; reconoció sílabas y sonidos del habla individuales. A diferencia de otros dispositivos de reconocimiento artificial del habla, fue capaz de procesar secuencias aceleradas de lenguaje hablado. Además, tuvo la habilidad del cerebro de "predecir" el próximo sonido fonético. El punto crucial, desde una perspectiva neurocientífica, es que las reacciones del modelo fueron similares a las que podrían ser observadas en el cerebro humano. Esto indica que el modelo de los investigadores podría representar los procesos del cerebro. Al mismo tiempo, el modelo proporciona nuevos enfoques para aplicaciones prácticas en el campo del reconocimiento artificial del habla. Scitech News |
No hay comentarios:
Publicar un comentario