La empresa OpenAI, creadora de ChatGPT y del generador de imágenes DALL-E, presentó una innovación mayor en el campo de la inteligencia artificial: se trata de una nueva herramienta, llamada "Sora", que permite crear, a partir de una simple instrucción en texto, videos realistas de hasta un minuto de duración.
La compañía californiana aclaró que esta novedosa plataforma, creada basándose en las búsquedas anteriores en DALL-E y ChatGPT, está todavía en fase de prueba. Sin embargo, para entusiasmar a sus clientes, compartió este jueves algunos ejemplos de videos hiperrealistas generados a partir de sus direcciones textuales.
"Presentamos a Sora, nuestro modelo de texto a video. Sora puede crear videos de hasta 60 segundos con escenas altamente detalladas, un movimiento de cámara complejo y múltiples personajes con emociones vibrantes. El programa puede generar videos de un minuto de duración, con calidad visual y respetando la demanda del usuario", indicó OpenAI en su sitio web.
El director de la empresa, Sam Altman, consignó que por el momento otorgan "acceso" a un número limitado de "artistas visuales, diseñadores y cineastas", para obtener comentarios sobre "cómo hacer avanzar el modelo para que sea más útil para los profesionales creativos".
Con esta propuesta, la compañía busca "enseñar a la IA a comprender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas que requieren interacción con el mundo real".
"Sora tiene un profundo conocimiento del lenguaje, lo que le permite interpretar indicaciones con precisión y generar personajes convincentes que expresan emociones vibrantes. También puede crear múltiples tomas dentro de un solo video, generado que persisten con precisión los personajes y el estilo visual", describió.
Además, OpenAI consignó que la plataforma permite "crear un video a partir de una imagen fija" y "alargar videos ya existentes".
En su sitio web y en las redes sociales, OpenAI compartió videos generados con su nueva herramienta que usa inteligencia artificial, y además, mostró cuáles fueron las indicaciones textuales que dio para su generación.
Por ejemplo: "Una hermosa y nevada ciudad de Tokio bulliciosa. La cámara se mueve por la bulliciosa calle City, siguiendo a varias personas que disfrutan del hermoso clima nevado y de compras en puestos cercanos. Los hermosos pétalos de Sakura volan por el viento junto con los copos de nieve".
Los puntos débiles de Sora
En tanto, OpenAI advirtió que el "actual modelo" de la plataforma presenta "defectos", como una confusión entre izquierda y derecha, o la imposibilidad de mantener una continuidad visual durante toda la extensión del video. "Una persona puede comer una galleta, pero luego, la galleta puede no exhibir una mordedura", ejemplificaron desde la empresa.
Por otra parte, la compañía afirmó que la seguridad es un asunto clave en este desarrollo, y afirmó que organizará simulaciones con usuarios a los que se les pedirá tratar de provocar errores o crear contenido inapropiado, para poder definir mejor los límites de la plataforma.
"Involucraremos a tomadores de decisiones políticas, educadores y artistas en el mundo para comprender sus preocupaciones e identificar los casos positivos de uso de esta nueva tecnología", aseguró OpenAI.
Meta, Google y Runway AI, que trabajan en aplicaciones similares, conocidas como "text-to-video", es decir que permiten pasar una idea escrita a video, también presentaron muestras de sus avances.