No mucho tiempo atrás, la generación de videos requería (siempre) gran dedicación: grabar las escenas, eventualmente guionarlas, encarar pesados trabajos de edición, entre otras tareas. El avance de la inteligencia artificial generativa llegó para revolucionar esas labores que mixturan creatividad y sudor. Las grandes tecnológicas ya anunciaron sistemas que crean clips audiovisuales a partir de simples órdenes por escrito.
Estos avances generan entusiasmo y también temores. ¿Los realizadores serán reemplazados por estos modelos que crean videos en un abrir y cerrar de ojos? ¿O, como prometen las compañías que ya anunciaron sus generadores, los nuevos ingenios servirán como asistentes de los humanos a la hora de crear piezas audiovisuales?
Leé también: Canciones argentinas bajo la lupa de la IA: ChatGPT analiza letras clásicas del rock con resultados espantosos
Una buena forma de ahondar en esas preguntas y encontrar posibles respuestas es conocer las novedades; no alejarse de ellas, sino adentrarse en sus características. Con ese ánimo, en esta nota de TN Tecno revisamos el funcionamiento de los tres generadores más conocidos: Sora de OpenAI, Google Veo y Movie Gen de Meta. Además, ahondaremos en el siguiente aspecto: ¿por qué se anunciaron, pero son poquísimos los que pueden usarlos?
Las claves para entender el funcionamiento de los generadores de video
Estos sistemas son una suerte de evolución de los chatbots de IA generativa y de los generadores de imágenes. En este caso, son capaces de crear videos.
La mecánica es similar: el usuario escribe un prompt, que en la jerga de la inteligencia artificial es una instrucción en formato de texto. En base a ese pedido, la máquina genera contenido, en este caso videos. Sí, con movimiento. Parece magia, pero es IA en su máxima expresión (aunque, por el momento, algunos resultados no sean absolutamente encantadores).
El video sobre este párrafo fue creado por Sora de OpenAI. En este caso, el prompt fue algo como esto: “Un hombre y una mujer, sentados en reposeras, en una playa, cerca del mar. Él lee un libro y ella se sobresalta cuando en el agua asoman tiburones”.
Con esa única indicación, el generador mueve sus engranajes y arroja el resultado en pocos segundos.
Las características de OpenAI Sora, emblema entre los generadores de video con IA
Anunciado en febrero de este año, Sora aún no se lanzó. Desde entonces, está en manos de un grupo selecto de probadores. Más adelante, en este repaso revisaremos los motivos por los que este y otros generadores aún no están disponibles a nivel general.
Leé también: Las razones por las que la inteligencia artificial tiene problemas para generar manos humanas
Un detalle importante: Sora es un desarrollo de OpenAI, la organización detrás de ChatGPT y DALL-E. Por eso, hereda algunas de las características del chatbot y del generador de imágenes aunque, según un video que divulgó la organización estadounidense, ha mejorado el problema de las extrañísimas manos sintéticas.
Algunos detalles sobre el funcionamiento de Sora, mientras esperamos su lanzamiento, este mismo año:
- La versión anunciada genera videos de hasta 60 segundos de duración.
- Si bien las muestras inicialmente divulgadas son mudas, los clips creados con Sora también tendrán audio.
- Según explicaron desde OpenAI, Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo.
- Puede generar animaciones y también videos hiperrealistas, aunque en esos casos ciertos movimientos delatan su carácter sintético.
- OpenAI reconoció: “Puede tener dificultades para simular con precisión la física de una escena compleja y es posible que no comprenda casos específicos de causa y efecto. Por ejemplo, una persona puede darle un mordisco a una galleta, y es posible que después no tenga la marca del mordisco”.
Veo: así es el generador de videos de Google
Presentado en las conferencias Google I/O 2024, este sistema es un representante clave en el boom de la IA generativa. La compañía estadounidense dijo que su modelo “genera videos de alta calidad, con resolución de 1080p, que pueden durar más de un minuto”. Es un tiro por elevación a Sora que, como señalamos, trabaja con clips de hasta 60 segundos.
Google comentó que Veo cuenta con una amplia gama de estilos visuales y cinematográficos, y que comprende jergas como “tomas aéreas” o “timelapse”. Además, indicaon que posee una “comprensión avanzada del lenguaje natural y de la semántica visual”, y que “capta con precisión los matices y el tono de una frase, presentando detalles intrincados dentro de escenas complejas”.
Un detalle: Veo también puede generar videos con una imagen como entrada, agregado una instrucción por escrito.
Igual que otros de su especie, Google Veo comenzó su recorrido entre un grupo selecto de creadores.
Meta también tiene su generador de videos, Movie Gen
Es el más nuevito de todos: fue anunciado por Meta —el conglomerado detrás de Facebook, Instagram y WhatsApp— a comienzos del mes en curso. Igual que sus “rivales”, el funcionamiento de Movie Gen se resume en la siguiente lógica: la conversión de texto en video. En el siguiente clip aparecen varios ejemplos. Por caso, el primero se creó con el prompt “un esponjoso koala surfeando sobre una tabla amarilla”.
Algunos detalles sobre Movie Gen para tener en cuenta:
- Crea videos de hasta 16 segundos de duración, con 16 fotogramas por segundo. Como vemos, está muy por debajo de los 60 o más segundos prometidos para Sora y Veo.
- Tiene la capacidad de incluir audio sincronizado con aquello que muestra el clip.
- También puede generar videos partiendo de una única fotografía.
- Es interesante detenerse en este punto: se espera que estos avances hagan pie en las redes sociales de Meta. En este sentido, Movie Gen parece tener un “destino” más concreto que Sora y Veo.
“Tanto si se trata de un aspirante a cineasta que espera triunfar en Hollywood como de un creador que disfruta haciendo vídeos para su público, creemos que todo el mundo debería tener acceso a herramientas que ayuden a mejorar su creatividad”, dijeron desde la firma californiana. Y se atajaron: “Si bien existen muchos casos de uso interesantes para estos modelos básicos, es importante señalar que la IA generativa no reemplaza el trabajo de los artistas y animadores”.
Leé también: Paso a paso: así podés hacer gratis los videos virales del momento con inteligencia artificial
Igual que OpenAI con Sora y Google con Veo, desde Meta han dicho que todavía prueban las funciones y alcances de Movie Gen antes de un lanzamiento público. ¿Cuándo iniciará su despliegue? Mark Zuckerberg, CEO del conglomerado, dijo que “llegará a Instagram el año que viene”.
Sora, Veo y Movie Gen: ¿por qué se anunciaron y aún no se lanzan?
Como hemos visto, estos generadores permitirán crear mundos y materializar extravagancias de la imaginación sin más esfuerzo que algunas instrucciones bien redactadas. Ahora bien, los encantos traen consigo algunos riesgos que deben ser considerados.
Así lo resumimos cuando conocimos a Sora. “Los videos sumarán más problemas a los que ya provocan las imágenes, textos y voces que se generan con IA. ¿Cómo distinguirlos de los creados por humanos y/o los “reales”? Esto no es trivial. Si bien es fácil saber que hubo edición, por ejemplo, si vemos un video en el que un gato gigantesco está sentado en un trono de rey; serán más problemáticos otros casos. Por ejemplo, deepfakes que desnudan a celebridades y otras falsificaciones que podrían hacernos creer escenas que jamás ocurrieron en el mundo tangible”.
En resumen, los contenidos sintéticos tienen potencial para desinformar, difamar y confundir. Y los videos profundizan un problema que ya conocemos en imágenes creadas con IA. En este punto, las tres compañías aquí mencionadas tienen algunas soluciones bajo la manga. La principal: colocar marcas de agua y etiquetas que delaten cuando un contenido fue creado con IA.
También hay que considerar el eventual desplazamiento de profesionales, en este caso del sector audiovisual. No está de más considerar qué sentirán los cineastas, los editores de video y los creadores en general. Mientras Google, Meta y OpenAI aseguran que los generadores serán asistentes y no reemplazos, ¿todos ellos estarán felices con la aparición de sistemas automatizados que trabajan como lo hacen ellos, a una mayor velocidad?
Todos estos riesgos explican por qué los generadores de video fueron presentados con bombos y platillos, pero aún no se lanzaron al ruedo. Tal como ocurre en los diversos programas, se aplica aquí la metodología de las versiones beta: son versiones anticipadas, que llegan a manos de pocos probadores, que comparten sus comentarios con el desarrollador. Así, es posible realizar los ajustes necesarios antes del despliegue a nivel general.
Leé también: La IA nos “robará” apenas el 5% de los trabajos en la próxima década, calcula un economista del MIT
Como fuere, la ansiedad se calmará este mismo año. Es esperable que ni bien se anuncie el lanzamiento de alguno de estos generadores, la competencia se apure a hacer lo propio.