Seguro viste a Jim Carrey siendo Jack Nicholson en El resplandor. O a Sylverster Stallone como Terminator. O a Barak Obama, Vladimir Putin y Hillary Clinton diciendo cosas fuera de lo esperable. ¿Y a Cristina Fernández de Kirchner reemplazando a Jimena Barón en el clip de La cobra? Se trata de deepfakes: la técnica que permite crear videos hiperrealistas de cualquier persona y hacer que digan lo que se te ocurra. Mediante un entrenamiento de Inteligencia Artificial (IA), y a través de una compilación de datos y trabajos con redes neuronales, se “alimenta” la computadora para que a partir de una o varias fotos de una persona aprenda su representación 3D. Así, una foto estática se convierte en un objeto tridimensional que se puede controlar.
Desde hace un tiempo, y con mayor fuerza en el último año, se generan deepfakes de todo tipo, incluso a nivel local, con diversas intenciones y criterios estéticos. Del mismo modo han surgido reflexiones en torno a estas tecnologías que vienen a poner en duda qué consideramos real y qué no. De estos y otros temas habló el NO con cuatro artistas que manipulan la IA para fines creativos y artísticos: Mathias Gatti, Maja, Mer y Tutanka.
Mathias Gatti hizo rapear a Trump
Una mujer negra y canosa mira absorta por la puerta entreabierta. Dos niñas negras detienen su juego en la vereda. Otra mujer negra riega mientras la cámara acaba apuntando a la calle, donde viene cabalgando, entre glitches, Donald Trump. Mathias Gatti y el italiano Luca Barbera tomaron el clip del tema Old Town Road, de Lil Nan X, y reemplazaron su imagen por la del presidente estadounidense, quien rapea y baila como en el video original. “Eso es casi lo más avanzado que existe en término de deepfakes: control total del cuerpo y de la voz, haciendo que cante”, dice Gatti. Y advierte que por eso los resultados no tienen calidad perfecta: ”Son técnicas que están empezando y todavía necesitan mejorar”.
Mathias es científico de datos, hace análisis y desarrollo de modelos de machine learning, en particular de redes neuronales. Es egresado de Ciencias de la Computación, en Exactas, y dedica sus investigaciones personales a indagar en el aspecto sonoro de las redes neuronales. Y curioso de si las computadoras pueden hablar de formas que consideramos únicamente humanas (como gritar, llorar o susurrar), probó algo de eso en un video sintético de ASMR.
Lo que hicieron con el de Trump fue arrancar con un programa de síntesis de canto que Gatti desarrolló para performances de livecoding. “Genera una voz que canta el texto que le digas, con las notas y al tempo que quieras”, resume. Hasta ahí, la voz resultante es robótica. “Lo que hice con Luca fue entrenar un modelo de machine learning para que aprenda a convertir esa voz en la de Trump”. De hecho, Gatti comparte unos videos donde su Trump suena en plena performance de livecoding. Es maravilloso escucharlo explicar el procedimiento de control del cuerpo...
Elegido el modelo que te interesa, lo tenés que alimentar con datos para que aprenda. Y mientras más datos mejor. Muchas veces, si son imágenes o grabaciones de mala calidad, la red quizá no aprenda bien. “Por ejemplo, es mucho más fácil hacer un deepfake de la voz de alguien de un audiolibro que utilizar grabaciones caseras, donde hay música, ruido u otras voces de fondo.” Para el de Trump eligieron videos del canal oficial de la Casa Blanca. “A medida que se vayan puliendo estas tecnologías, va a ser cada vez más accesible para cualquiera generar deepfakes.”
¿Qué habrá del futuro cuando sea realmente difícil distinguir un deepfake de algo real, y haya Trumps diciendo cosas que él no dijo? O peor, diciendo cosas y después echándole la culpa a un video creado por IA. “Como cualquier tecnología, va a traer complicaciones. Pero ya existen herramientas y se está investigando mucho cómo detectar deepfakes. Por otro lado, va a abrir puertas muy interesantes: desde asistentes virtuales súper realistas hasta revivir a los Beatles.“ En Japón, de hecho, una de las principales estrellas pop es la robot Hatsune Miku, que estaba anunciada para Coachella 2020.
El ojo mutante de Maja
Una criatura parece rubia, pero al mirar bien es imposible dilucidar si eso es pelo. Uno de los ojos celestes está como con cataratas muy avanzadas, y bajo lo que podría ser la nariz destaca un tramo de piel rosada con hendiduras y marcas propias de un pie. Tampoco se puede precisar. Las creaciones que Maja postea lucen perturbadoras. Hace como un año empezó a investigar la técnica creación con IA. “Tenía que hacer una obra para una materia de Artes Electrónicas en la Untref, y como venía haciendo cosas más conceptuales dije 'fue' y me metí con algo re hi-tech. Descubrí videos en YouTube de caras medio deformes que se transformaban unas en otras, y que estaban hechas con redes neuronales. Y me flasheó.”
Maja usa StyleGAN, una red neuronal para hacer síntesis de imagen. “Podés usar los modelos que ya están pre-entrenados o entrenar el tuyo”, dice. “Usé bastante el de caras que hay por default, y está mega-bien entrenado. Y modificando algunos parámetros podés obtener cosas bien deformes”, explica. “Como la variable Truncation: modificás esa y se va todo a la mierda. Termina siendo un proceso más curatorial que de programación. Punk livecode”, resume. El resultado son criaturas de otros universos, imágenes que lucen como hacer zoom en la carne, donde la textura y sus pliegues se vuelven muy extraños.
Maja también entrenó modelos propios: “Hay uno de ojos que hicimos con mi amiga Sofi, que quedó muy piola”. Destaca que lo más complejo es armar el dataset para que sea coherente. El dataset es el conjunto de datos, en este caso imágenes, con el que se va a entrenar las redes neuronales. “Tiene que ser bastante grande, de cinco mil o más imágenes que sean similares, como para que la red aprenda algo. Se usan herramientas web para rejuntar y bajar un montón de data de Internet a partir de una palabra clave. Muchas veces, entre las miles de imágenes que bajaste hay algunas que nada que ver y se descartan. Y a veces bajás todas las fotos de un Instagram, ponele, y funca joya.”
Para entrenar estas redes necesitás mucho procesamiento. “Ningún usuario común lo tiene, solo las corporaciones. Entonces terminás usando sus servidores”, dice. Y por un momento todo suena súper hacker, pero nada que ver: “La plataforma Google Colab permite correr códigos en sus servidores con tremendas placas de video, y se suele utilizar para machine learning”.
Maja probó sus primeros deepfakes aplicados a sus creaciones de un modo más sencillo: “Cargás el código de una foto y un video de alguien hablando, y te hace hablar la foto como el video. Es un flash ver cómo un ser extraño que tenés en una foto empieza a gesticular y a mover la cabeza”. Maja hace hincapié en el fomento que desde el primer mundo se hace al desarrollo de estas tecnologías. Si bien ya hay algoritmos que detectan deepfakes, sin duda va a cambiar la manera en la cual une se vincula con la información. “Vas a desconfiar de algo que estás percibiendo, como un audio de tu vieja, que puede ser fake, jaja.”
Mer y la revolución de las máquinas
Detrás de la recolección de datos hay una comunidad compartiendo códigos para que cada une utilice a su manera. “Suelo hablar con algunxs. Y, partiendo de ahí, trato de generar datasets propios, para darles mi marca personal”, dice Mer, quien desde el año pasado venía con la atención captada por el uso de IA en el campo artístico. “Holly Herndon, una artista sonora que me inspira, sacó un álbum en colaboración con IA y fue un gran disparador”. El taller de redes neuronales de Leandro Garber y Pablo Riera, en el WIP, fue lo que necesitaba para lanzarse: “Ya no puedo parar de explorarlo”.
Uno de esos trabajos fue en colaboración con lx fotográfx, Gonzalo Resti. Indagar en esa transformación no binarie que permite la IA resulta atractivo para Mer: “Crear nuevas identidades en las que se disipe el género, alejarme de la humanización instaurada, incluso dentro de la IA. Por ejemplo, en un post elegí una imagen mía como referencia, y con el parametro ‘belleza’ la redes neuronales empezaron a usar datasets de imágenes hegemónicas”. Del mismo modo otrxs artistxs expusieron datasets predeterminados donde escasean las imagenes de personas de color. “Me interesa utilizar la IA para romper con esas cadenas, y a la vez también ser críticx con ella.”
Esta comunidad se interesa sobre todo en StyleGAN: “Estamos en Twitter, Reddit, donde se va compartiendo data, repositorios; si algunx tiene algún error de código, están ahí para arreglar, intercambiar modelos. Ahí también se encuentra Mario Klingemann, uno de los pioneros. Hay un programa nuevo que se llama RunwayML, y lo están usando muchxs”, comenta.
Frente a un futuro en el que sea más complejo distinguir lo real y lo falso, Mer apuesta por una utilización más humana de estas herramientas: “Con la tecnología, se trata mucho de ser conscientes de lo que usamos y cómo, de lo que nos rodea”. Surgen así los debates planteados alrededor de los audio deepfakes, donde se colecta la voz de un artista para que diga o cante la canción de alguien más. De pronto, Bob Dylan canta ...Baby One More Time, de Britney. “Quienes hacen esto, ¿están realmente infringiendo derechos de autor? Tengo más preguntas que respuestas”.
Tutanka y la evolución de los memes
El Instagram de Tutanka es una fiesta. Celebridades y politicxs de todas las corrientes desfilan en sus posteos, donde el deepfake se vuelve una herramienta que evoluciona el meme. Poniendo el acento en temas de coyuntura, cada video está cargado de detalles que hacen imposible no repetir. Ahí nomás, entre los últimos, está el de Mirtha Legrand confinada como la Reina Elizabeth (con un pin de los Peces del Infierno, de Los Simpson), hablando sobre cómo la covid-19 ha afectado a todxs. En otro, Cristina Fernández es una profe de gym que enseña a hacer actividad física en la cuarentena, en base al video de Workout de Dua Lipa. Hay uno de Alberto Fernández onda Game of Thrones, donde alista la inminente batalla contra el coronavirus.
Tutanka arrancó haciendo intervenciones callejeras, fue parte del colectivo Surdelta, con quienes analizaba el discurso público del momento y traducía ciertos temas a intervenciones urbanas. Ahí estuvieron con el 8A (aborto) y la campaña Vasectomizate, los Juegos Olímpicos de la juventud en CABA, y más. “Hacia el final del macrismo sentí que lo de las intervenciones estaba como en piloto automático, y ya venía con ganas de editar videos, y me metí con lo que estoy ahora”, dice.
El intercambio de caras y el armando personajes ya aparecía en las intervenciones en la calle, donde Gabriela Michetti era Tía Lydia, de El cuento de la criada. “Me interesó darles movimiento, y ahí aparecieron estos videos más caseros donde pongo una cara recortada que va acompañando el movimiento”. El primer video del estilo que publicó fue un extracto de la película Mean Girls, donde se la ve a CFK cruzada de brazos viendo a todxs pelear. Eso fue al poco tiempo de haber desencajado a todes con el anuncio de la candidatura con Alberto Fernández. Y explotó. Pasó de 4500 likes a 109000.
“Al poco tiempo ya andaban dando vuelta los deepfakes y me interesó aprender. Invertí un poco en hardware, porque necesitaba una computadora más potente”, cuenta. Y recala en que hay chistes en los que da igual si es un deepfake, una cara recortada o un cartel. Todo tiene que ver con la síntesis del mensaje. “Algo interesante de los memes es que representan no sólo ‘algo’ sino una relación, una tensión, un latiguillo. Son como unidades mínimas de sentido pero que son más complejas.” Habiendo estudiado diseño gráfico y siendo profe de la FADU, entiende que “lograr esa síntesis y que se entienda es de las cosas más difíciles de hacer”.
Para Tutanka, que se nutre de videos que son públicos (y ”no todos están en buena calidad”), las elecciones presidenciales del año pasado se volvieron una fuente permanente de videos, coronados para Navidad, con Alberto Fernández como James Corden haciendo carpool karaoke con CFK/Mariah Carey y el tema All I Want for Christmas is You. “Sacando de lado la pandemia, que es como una situación aparte, el contexto cambió 180 grados, y estoy ahí, recalculando”, comparte. “Es mucho más fácil tener un enemigo claro, y ahora ya no es tan claro, o las tensiones pasan por otro lado.”
No tiene mucha idea de qué tratarán sus próximas creaciones, pero “hay una sensación que uno tiene cuando hace algo que sabe que está bueno y que va a pegar. Bueno, no me siento así hace rato”. ¿Cuándo se sintió así? “Desde antes de las PASO, que supe exactamente todos los videos que quería hacer y los hice. Pero había una agenda que lo marcaba, había fechas. ¡Ahora Alberto te corre esa fecha quince días cada quince días! ¡No se puede así! Jaja.“