El cerebro memoriza mejor las palabras desde la infancia si labios y voz están perfectamente sincronizados, revela un estudio

Un estudio reciente revela que la sincronía perfecta entre labios y sonido potencia la memoria del habla. La investigación podría tener implicaciones importantes para la educación y el uso de pantallas en la infancia.
Las conversaciones cara a cara crean un espacio seguro donde los niños se sienten escuchados y comprendidos
Las conversaciones cara a cara crean un espacio seguro donde los niños se sienten escuchados y comprendidos (Midjourney - RG) - Las conversaciones cara a cara crean un espacio seguro donde los niños se sienten escuchados y comprendidos

La conjunción perfecta entre lo que se ve y se oye, entre la expresión facial y el tono de voz es clave, según la neurociencia, para formar recuerdos duraderos del habla. Un nuevo estudio ha demostrado que el cerebro necesita de los movimientos coordinados de los labios con el sonido del habla para que la memoria del lenguaje se consolide desde su aprendizaje en la infancia. 

Un estudio publicado en abril de 2025 en The Journal of Neuroscience ha demostrado que el cerebro humano necesita que los movimientos de los labios y los sonidos del habla estén sincronizados para que la memoria del lenguaje se consolide eficazmente. La investigación, liderada por Emmanuel Biau, de la Universidad de Liverpool, y su equipo, abre nuevas vías para entender el aprendizaje lingüístico, y tiene implicaciones directas en contextos como el uso de pantallas en la infancia.

Los investigadores observaron que cuando se desincroniza la imagen (los labios) del sonido (la voz), el cerebro trabaja de forma menos eficiente para almacenar esa información. Y si bien el estudio se hizo con adultos, los mecanismos cerebrales implicados están también presentes en edades tempranas.

Así influye la coordinación de labios y sonidos del habla

Los científicos presentaron a los participantes 88 pequeños clips de entrevistas reales en los que los hablantes eran visibles mientras se les escuchaba. En algunos clips, el sonido y la imagen estaban perfectamente alineados. En otros, se había introducido un pequeño retraso de entre 63 y 125 milisegundos para desincronizar la voz con respecto al movimiento de los labios.

Durante la visualización de los vídeos, los participantes estaban conectados a un sistema de magnetoencefalografía (MEG), que permite medir la actividad cerebral con gran precisión. El objetivo era analizar cómo respondía el cerebro ante las condiciones de sincronía o asincronía audiovisual.

Los resultados mostraron que, en situaciones donde voz y labios estaban alineados, las oscilaciones theta (una frecuencia cerebral vinculada a la memoria y el aprendizaje) se activaban intensamente tanto en la neocorteza como en el hipocampo. En cambio, cuando el habla era desincronizada, esa activación era notablemente menor.

Figura 3. Medida de la precisión de la reproducción del habla durante la recuperación. ( A ) Durante la recuperación exitosa, los participantes recordaron las características auditivas asociadas con la cara del hablante, lo que teóricamente llevó a reproducir mentalmente palabra por palabra el discurso memorizado durante la codificación de la película. ( B ) En este caso, la actividad cerebral en la corteza auditiva (MEG; línea negra) restablece los patrones oscilatorios theta transmitidos por la envolvente auditiva del habla de la película (envolvente del habla; línea naranja). ( C ) La precisión de la restitución del habla se mide con el nivel de similitud de fase entre la oscilación theta de la envolvente auditiva del estímulo y la reproducción de la memoria del habla producida por la oscilación theta neuronal. Para hacer eso, se extrajo la fase de la frecuencia theta dominante de la envolvente auditiva del estímulo (línea naranja) y la señal MEG en los sensores auditivos (línea negra). ( D ) La similitud de fase se estimó entre la primera ventana deslizante (sw) de un segundo que contiene la fase theta de la envolvente auditiva centrada en su primer punto temporal (sw t1 ), y cada punto temporal de la señal MEG (arriba). La similitud de fase se representó con un único valor que oscilaba entre 0 y 1 en cada punto temporal de la señal MEG (abajo). ( E ) Esta operación se repitió desplazando la ventana deslizante al siguiente punto temporal (sw t2 ) de la señal de la envolvente auditiva y así sucesivamente hasta su último punto temporal (sw tn ), para calcular la similitud de fase entre las dos dimensiones de la señal a lo largo del tiempo (izquierda). Luego, la similitud de fase theta se promedió en las ventanas, los ensayos y los sensores de interés para los análisis estadísticos (derecha). Adaptado de Michelmann et al. (2016) .
Figura 3. Medida de la precisión de la reproducción del habla durante la recuperación. ( A ) Durante la recuperación exitosa, los participantes recordaron las características auditivas asociadas con la cara del hablante, lo que teóricamente llevó a reproducir mentalmente palabra por palabra el discurso memorizado durante la codificación de la película. ( B ) En este caso, la actividad cerebral en la corteza auditiva (MEG; línea negra) restablece los patrones oscilatorios theta transmitidos por la envolvente auditiva del habla de la película (envolvente del habla; línea naranja). ( C ) La precisión de la restitución del habla se mide con el nivel de similitud de fase entre la oscilación theta de la envolvente auditiva del estímulo y la reproducción de la memoria del habla producida por la oscilación theta neuronal. Para hacer eso, se extrajo la fase de la frecuencia theta dominante de la envolvente auditiva del estímulo (línea naranja) y la señal MEG en los sensores auditivos (línea negra). ( D ) La similitud de fase se estimó entre la primera ventana deslizante (sw) de un segundo que contiene la fase theta de la envolvente auditiva centrada en su primer punto temporal (sw t1 ), y cada punto temporal de la señal MEG (arriba). La similitud de fase se representó con un único valor que oscilaba entre 0 y 1 en cada punto temporal de la señal MEG (abajo). ( E ) Esta operación se repitió desplazando la ventana deslizante al siguiente punto temporal (sw t2 ) de la señal de la envolvente auditiva y así sucesivamente hasta su último punto temporal (sw tn ), para calcular la similitud de fase entre las dos dimensiones de la señal a lo largo del tiempo (izquierda). Luego, la similitud de fase theta se promedió en las ventanas, los ensayos y los sensores de interés para los análisis estadísticos (derecha). Adaptado de Michelmann et al. (2016) .

Impacto en el desarrollo del lenguaje desde la infancia 

Este hallazgo es especialmente relevante para padres, educadores y profesionales de la educación en la infancia, ya que, si un niño o niña ve dibujos animados o videollamadas donde el audio no está sincronizado con la imagen, su cerebro podría tener más dificultades para recordar y comprender el lenguaje que está percibiendo.

En una etapa en la que el desarrollo del lenguaje es una de las prioridades, este tipo de interferencias puede afectar cómo se almacenan las palabras, cómo se asocian a rostros y emociones, y cómo se consolidan los sonidos en la memoria a largo plazo. La investigación sugiere que el procesamiento de recuerdos del habla no es sólo auditivo, sino que también depende del acompañamiento visual sincronizado.

Figura 4. Las oscilaciones theta rastrean y restablecen la actividad dominante transportada en la envoltura auditiva. ( A ) Localización de la fuente de la similitud de la fase theta entre las oscilaciones cerebrales y la envolvente del habla auditiva durante la codificación sincrónica o asincrónica de películas (umbral en valores t significativos y normalizado para visualización). El seguimiento de las oscilaciones theta dominantes llevadas por la información del habla auditiva pareció más consistente bilateralmente en las regiones auditivas esperadas cuando los movimientos de los labios y los sonidos del habla se percibieron en sincronía en comparación con la asincronía. ( B ) Similitud de la fase theta entre las oscilaciones theta de las cortezas auditivas (izquierda + derecha; eje X) y las oscilaciones theta transmitidas por la envolvente del habla auditiva (eje Y) durante la recuperación. El eje Y representa el tiempo para la envolvente del habla, el eje x representa el tiempo para la fase theta MEG. Las oscilaciones theta en la corteza auditiva reflejan el restablecimiento de las envolventes del habla auditiva cuando los participantes recordaron con éxito la información auditiva. Los puntos de tiempo del grupo significativo se representan a todo color, mientras que los datos no significativos se enmascaran con transparencia. ( C ) Diferencia de similitud de fase theta entre las condiciones sincrónicas y asincrónicas en las cortezas auditivas izquierda y derecha durante la recuperación exitosa. La precisión de la restitución se vio modulada por la asincronía audiovisual en la corteza auditiva izquierda, pero no en la derecha. Los puntos temporales del grupo significativo se representan a todo color y con contorno, mientras que los datos no significativos se ocultan con transparencia. ( D ) Fuentes virtuales localizadas en las cortezas auditivas izquierda y derecha utilizadas para el análisis de similitud de fase (respectivamente, el giro de Heschl izquierdo y derecho; LHG y RHG).
Figura 4. Las oscilaciones theta rastrean y restablecen la actividad dominante transportada en la envoltura auditiva. ( A ) Localización de la fuente de la similitud de la fase theta entre las oscilaciones cerebrales y la envolvente del habla auditiva durante la codificación sincrónica o asincrónica de películas (umbral en valores t significativos y normalizado para visualización). El seguimiento de las oscilaciones theta dominantes llevadas por la información del habla auditiva pareció más consistente bilateralmente en las regiones auditivas esperadas cuando los movimientos de los labios y los sonidos del habla se percibieron en sincronía en comparación con la asincronía. ( B ) Similitud de la fase theta entre las oscilaciones theta de las cortezas auditivas (izquierda + derecha; eje X) y las oscilaciones theta transmitidas por la envolvente del habla auditiva (eje Y) durante la recuperación. El eje Y representa el tiempo para la envolvente del habla, el eje x representa el tiempo para la fase theta MEG. Las oscilaciones theta en la corteza auditiva reflejan el restablecimiento de las envolventes del habla auditiva cuando los participantes recordaron con éxito la información auditiva. Los puntos de tiempo del grupo significativo se representan a todo color, mientras que los datos no significativos se enmascaran con transparencia. ( C ) Diferencia de similitud de fase theta entre las condiciones sincrónicas y asincrónicas en las cortezas auditivas izquierda y derecha durante la recuperación exitosa. La precisión de la restitución se vio modulada por la asincronía audiovisual en la corteza auditiva izquierda, pero no en la derecha. Los puntos temporales del grupo significativo se representan a todo color y con contorno, mientras que los datos no significativos se ocultan con transparencia. ( D ) Fuentes virtuales localizadas en las cortezas auditivas izquierda y derecha utilizadas para el análisis de similitud de fase (respectivamente, el giro de Heschl izquierdo y derecho; LHG y RHG).

Además, este hallazgo se puede relacionar con estudios previos que han demostrado que el uso de subtítulos o ver a los hablantes ayuda a la comprensión infantil, como se comentó en este artículo publicado por Ser Padres sobre el vínculo entre lenguaje y contacto visual.

Por otro lado, el estudio también invita a reflexionar sobre el tipo de tecnología que usamos en casa: algunos dispositivos presentan desajustes entre audio y video, especialmente en conexiones lentas. ¿Podría esto estar interfiriendo en cómo nuestros hijos recuerdan lo que ven y oyen?

Hablar a la altura de los ojos potencia la conexión emocional y favorece el desarrollo del lenguaje en la infancia
Hablar a la altura de los ojos potencia la conexión emocional y favorece el desarrollo del lenguaje en la infancia (Midjourney - RG)

En resumen, este estudio aporta evidencia neurocientífica sobre cómo el cerebro forma recuerdos más eficaces del habla cuando integra lo que oye con lo que ve, al mismo ritmo. Para las familias, la investigación deja al menos tres ideas claves que resumimos a continuación a modo de conclusión: 

  • Revisa que los vídeos que ven tus hijos e hijas tengan buena sincronización labial.
  • Las videollamadas son herramientas valiosas para la comunicación y el lenguaje, pero mejor si el sonido y la imagen están bien alineados.
  • Hablar cara a cara con los niños y que te vean hablar refuerza el aprendizaje del lenguaje.

Referencias

  • TEmmanuel Biau, Danying Wang, Hyojin Park, Ole Jensen, Simon Hanslmayr. Neocortical and Hippocampal Theta Oscillations Track Audiovisual Integration and Replay of Speech Memories. Journal of Neuroscience, 2025. DOI: 10.1523/JNEUROSCI.1797-24.2025

Recomendamos en