Como funcionan los sintetizadores de voz

Publicado el: 22/05/2011

Los sintetizadores de voz son esos programas como Loquendo que dotan de voz humana a la máquina. Aunque la mayoría de ellos tienen una voz muy robótica, sin entonación ni sentimientos, al menos si se les puede entender. Aquí veréis, por encima, como se imita la voz humana en un ordenador y porqué es tan difícil conseguir una voz idéntica a la nuestra.

En primer lugar tenemos que aprender como funciona el sistema que queremos imitar, es decir, nuestra voz. El sonido son ondas de presión que se propagan por el aire, gracias a que las moléculas que lo forman chocan unas con otras. Para producir sonido cuando hablamos, los pulmones expulsan el aire que tienen dentro, éste pasa por la tráquea hacia la laringe, donde se encuentran las cuerdas vocales. En realidad estos nombres sólo sirven para confundirnos, la tráquea es un "tubo", la laringe es el trozo final donde se ensancha ese "tubo" y se une con el "tubo" que viene del estómago, y las cuerdas vocales son dos pliegues musculosos de la laringe. A continuación viene la Glotis, una hendidura que hace vibrar el "tubo" a diferentes frecuencias e intensidades según varíe la masa, longitud y tensión de las cuerdas vocales en ese instante.

Seguidamente, el sonido rebota por las cavidades de nuestro tracto vocal, haciendo que la forma del interior de nuestra boca, la laringe, la forma de la lengua, los dientes, los labios, la nariz, etc., produzcan un sonido distinto en cada uno. Es fácil comprobar que si nos tapamos la nariz nuestra voz suena distinta.

Las vocales se obtienen mediante la combinación de los movimientos de la boca y de la lengua con cada tipo diferente de vibración de las cuerdas vocales, y cuando movemos la boca y la lengua y expulsamos el aire sin producir ningún tipo de vibración en las cuerdas vocales, generamos las consonantes.

Hasta aquí ya sabemos como funciona la voz, pero... ¿Cómo se imita todo esto en el ordenador?. En un ordenador el sonido lo generan los altavoces haciendo vibrar una membrana que es movida por un imán. La intensidad y la velocidad con la que tiene que moverse el imán viene dada por la señal eléctrica que le llega al altavoz, así que lo que hay que hacer es enviar a los altavoces la señal adecuada. Para eso, primero debemos saber que sonido tenemos que producir, convirtiendo un texto en fonemas. Después, para cada fonema, generamos una señal periódica si queremos generar una vocal. Si lo que queremos generar es una consonante, tendremos que generar una señal de ruido. A continuación, se pasa por un modelo que imite las resonancias del tracto vocal y, por último, por otro modelo que imite el efecto que produce el medio en el que se expande la onda sonora. Cuando llegamos al siguiente fonema se intenta que el cambio entre uno y otro sea gradual, para que la voz sea más realista. Después de todo este procesamiento, la señal que hasta ahora sólo era información, se convierte en una señal eléctrica que se envía a los altavoces.

Todo este procesamiento es bastante complejo, sobre todo el crear un modelo de la boca que sea realista. Los mejores sintetizadores se han conseguido haciendo escáneres del tracto vocal a humanos. Añadido a esto, está la dificultad de imitar las emociones que transmitimos con la voz y darle la entonación adecuada al leer un texto. Esto último todavía no lo ha conseguido nadie. Hay que investigar más sobre cómo son las entonaciones que damos cuando estamos enfadados, deprimidos o alegres, además de que hay que conseguir que la máquina entienda el significado del texto, para que pueda deducir la entonación que tiene que darle según el contexto en el que se encuentre.

Los japoneses han conseguido con sintetizadores muy sofisticados, voces de cantantes bastante realistas usando el truco de hacer que la voz sintetizada siga la música. A las voces de los cantantes que no saben cantar se les hace algo parecido para que sigan la melodía, pasando su voz por un software como Autotune. Los dos sintetizadores de voz japoneses más famosos son Vocaloid, que reproduce la voz de varios cantantes virtuales como Miku Hatsume, y Vocalistener, para el que han creado una robot con apariencia humana, aunque ésta no se hará famosa porque entra dentro del valle inquietante. A continuación podéis ver un par de videos de estos sintetizadores:

Ver en Youtube un concierto dónde canta el holograma de Miku Hatsume

Ver en Youtube la presentación de Vocalistener en el CEATEC 2010 (Combined Exhibition of Advanced Technologies)

Pensamientos (0): Comentar