OpenAI ha anunciado el lanzamiento de Sora, un modelo de inteligencia artificial que, a partir de instrucciones de texto, es capaz de generar vídeos en diversas resoluciones y relaciones de aspecto. Además, tiene la capacidad de editar vídeos existentes, permitiendo un cambio rápido de escenario, iluminación y estilo de disparo, todo a partir de un simple mensaje de texto.
“Sora puede generar videos de hasta un minuto de duración manteniendo la calidad visual y cumpliendo las indicaciones del usuario. También estamos otorgando acceso a varios artistas visuales, diseñadores y cineastas para obtener comentarios sobre cómo mejorar el modelo para que sea más útil para los profesionales creativos”.
OpenAI
En un comunicado, OpenAI señaló que Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo. El modelo comprende no sólo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico.
Además, el modelo tiene un profundo conocimiento del lenguaje, lo que le permite interpretar indicaciones con precisión y generar personajes convincentes. Sora también puede crear múltiples tomas dentro de un solo video generado en armonía con los personajes y el estilo visual.
En cuanto a sus políticas de seguridad, la compañía expresó lo siguiente:
“Tomaremos varias medidas de seguridad importantes antes de que Sora esté disponible en los productos de OpenAI. Estamos creando herramientas para ayudar a detectar contenido engañoso, como un clasificador de detección que puede indicar cuándo Sora generó un video. Además, estamos aprovechando los métodos de seguridad existentes que creamos para nuestros productos que utilizan DALL·E 3, que también son aplicables a Sora”.
Asimismo, OpenAI indicó que trabajarán con formuladores de políticas, educadores y artistas de todo el mundo para comprender sus preocupaciones e identificar casos de uso positivos para esta nueva tecnología.
¿Cómo funciona Sora?
Sora es un modelo de difusión que genera un vídeo partiendo de uno que parece ruido estático y lo transforma gradualmente eliminando el ruido a lo largo de muchos pasos.
La tecnología funciona de forma similar a la familia GPT de modelos lingüísticos que impulsa el chatbot de la empresa, ChatGPT. Todos ellos utilizan una arquitectura de «transformador», un tipo de red neuronal que toma las entradas y las convierte en salidas. También han incorporado elementos de DALLE-3, como el sistema de recapitulación.
Por ahora no hay fecha oficial de lanzamiento.