¡Yo no he dicho eso! O cómo los ordenadores pueden "robarte" la voz

En estos días cuarentenosos (¡lavaos las manos!), he aprovechado para terminar de ver un par de series que tenía pendientes desde hace mucho tiempo. Una vez puesto al día, el cuerpo me pedía algo de ciencia ficción, así que pregunté a Ángel y, después de unas cuantas recomendaciones, me decidí por empezar a ver The Expanse.

Para los que no estén al tanto, The Expanse presenta un futuro lejano en el que los humanos han colonizado Marte después de prácticamente destruir La Tierra (de momento la única parte de ficción aquí es que seamos capaces de colonizar un planeta...). La escasez de aire y agua ha hecho necesario establecer bases en el cinturón de asteroides, donde se recolectan bloques de hielo que vagan por el espacio para aumentar las reservas de agua.

Durante los primeros capítulos se nos introducen varias tramas (cada una siguiendo una de las facciones existentes), de las cuales una llamó claramente mi atención: la trama que sigue los pasos de Miller, un policía que investiga la desaparición de la joven activista Julie Mao. En el segundo capítulo, Miller entra en el apartamento de la desaparecida, y utiliza su teléfono móvil / herramienta multiusos para imitar la voz de Julie y poder controlar todos los elementos de la casa (que sólo pueden utilizarse por control de voz). Pongo un par de clips para que veáis de lo que estoy hablando:

Este trocito del segundo capítulo me hizo recordar una tecnología que se ha puesto muy de moda durante los últimos años, denominada Machine Learning (ML). Sobre este tema ya se ha hablado alguna vez en el blog y en el podcast, pero un breve resumen sobre qué es Machine Learning sería el siguiente. ML engloba un conjunto de técnicas que, con ayuda de un conjunto de datos, son capaces de aprender las estructuras internas que estos datos presentan. Una vez que un algoritmo de ML se ha entrenado con un conjunto de datos inicial, es posible realizar predicciones sobre eventos relacionados con dicho conjunto.

Igual parece un poco engorroso, pero con el ejemplo de la imitación de voz creo que resulta bastante fácil de entender. Si yo le doy a mi algoritmo unas cuantas horas de video y audio en las que salgo hablando, este es capaz de aprender cómo formo las palabras, mis tics faciales, el ritmo al que hablo, etc. Una vez entrenado, si yo le doy una frase escrita, este algoritmo es capaz de generar un vídeo en el que yo salgo diciendo esa frase, aunque nunca me haya escuchado/visto diciéndola.

Aunque pueda parecer extraordinario, este tipo de algoritmos ya existen hoy en día, y son capaces de realizar vídeos y audio tremendamente detallados. A continuación he recopilado algunos ejemplos:

Barack Obama introduciendo una clase de Machine Learning en el MIT

Nota: en este vídeo, los autores (investigadores/profesores del MIT) redujeron la calidad del sonido para que nadie utilizase la voz de Obama con fines malintencionados.

Usando Machine Learning para engañar a tu madre

Breve vídeo sobre una startup que utiliza unos cuantos minutos de tu voz para sintetizar cualquier frase que le escribas a continuación. En el reportaje se puede ver como el periodista llama por teléfono a su madre, que es incapaz de reconocer que está hablando con un algoritmo.

Y como bonus, mis dos favoritos:

Introduciendo a Nicolas Cage en varias series/películas

La intro del príncipe de Bel Air cantado por varios famosos (Obama, Trump, Schwarzenegger...)

Parece que, una vez más, lo que vemos en las series de ciencia ficción se trata de algo totalmente real a día de hoy...

Related Articles