TN

Temas de hoy:

  • Legislativas porteñas
  • Papa León XIV
  • Javier Milei
  • Franco Colapinto
  • Dólar hoy
  • Inundaciones en PBA
  • TN Cultura
  • Tecno
  • EN VIVO
    tnTecnoNovedades

    CausVid, el generador de videos creado en el MIT destapa la olla de la automatización

    Desarrollado en colaboración con Adobe, el sistema permite echar una mirada al detrás de escena de herramientas como Sora de OpenAI y Veo 2 de Google.

    Uriel Bederman
    Por 

    Uriel Bederman

    18 de mayo 2025, 05:43hs
    La herramienta permite crear clips en un abrir y cerrar de ojos: el proceso “clásico” requeriría unos 50 pasos. (Foto: Creada con ChatGPT)
    La herramienta permite crear clips en un abrir y cerrar de ojos: el proceso “clásico” requeriría unos 50 pasos. (Foto: Creada con ChatGPT)

    Una de las manifestaciones más emocionantes en el presente boom de la Inteligencia Artificial es protagonizado por los generadores de video, capaces de crear clips audiovisuales a partir de instrucciones por escrito. Los emblemas en ese mundillo salen de las entrañas de dos gigantes estadounidenses: Sora, de Open AI, y Veo 2, de Google.

    Leé también: “Se hacen solos”: estos son los tres generadores más famosos para convertir texto en videos

    Adentrándonos en ese mundillo, científicos del Instituto Tecnológico de Massachusetts, el célebre MIT, crearon junto al especialista Adobe un generador híbrido denominado “CausVid”. Más allá de sus funciones específicas y de su capacidad para, también, entregar videos basándose en textos; este desarrollo destapa la olla de los sistemas arriba mencionados. Además, ¿por qué su naturaleza mixta le aporta una fortaleza especial?

    El primer paso: ¿cómo funcionan los generadores de video con Inteligencia Artificial?

    Sora y Veo, hemos dicho, son los paradigmas de la generación de videos con IA. La magia de esos sistemas comienza con un prompt, que en la jerga son las instrucciones que escribe el usuario. Por ejemplo, para el siguiente video creado con el modelo de Google la indicación ha sido algo así como “en un bosque nevado, una ardilla vestida con ropa navideña anda en una patineta”. Es posible pedir casi cualquier cosa.

    Video Placeholder
    Estos sistemas operan en base a prompts por escrito. (Video: Google Veo 2)

    Las herramientas ya conocidas (algunas de ellas ya disponibles para los usuarios) generan clips con diversos estilos, desde escenas realistas o dibujos, hasta animaciones similares a las del cine.

    Según explican desde el MIT, podríamos pesar que el proceso en estos generadores es similar a la animación stop-motion, que crean y unen muchas imágenes. Pero no es así. “En lugar de producir fotograma a fotograma, estos sistemas procesan toda la secuencia a la vez. El trabajo es lento y no permite cambios sobre la marcha”, explican.

    ¿Cómo funciona CausVid?

    Creado por científicos del CSAIL, el laboratorio del MIT abocado a la IA, en colaboración con especialistas de Adobe Research, el área de investigación de la empresa conocida por el Photoshop; CausVid se destaca por ser un generador de enfoque híbrido.

    Video Placeholder
    El modelo se destaca por su carácter híbrido. (Video: MIT CSAIL)

    “CausVid combina un modelo preentrenado basado en difusión, con una arquitectura autorregresiva que se encuentra habitualmente en los modelos de generación de texto”, explica Tianwei Yin, uno de los autores principal del artículo en el que se detallan las características de la herramienta. “Este modelo docente impulsado por IA puede prever los pasos futuros para entrenar un sistema fotograma a fotograma y evitar errores de renderizado".

    Leé también: El impacto de la IA en YouTube: doblajes automáticos, nuevos formatos y más contenido de creadores

    ¿Cómo trabaja, en la práctica? Desde la institución estadounidense señalan que lo hace de forma similar a cómo un estudiante atento aprende de un profesor experto. En sus entrañas opera un modelo de difusión que, por su parte, entrena a un sistema que predice velozmente cuál será el siguiente fotograma en el video. Igual que las herramientas mencionadas (Sora y Veo) genera clips audiovisuales a partir de simples instrucciones de texto.

    Un clip generado con CausVid. (Imagen: MIT CSAIL)
    Un clip generado con CausVid. (Imagen: MIT CSAIL)

    CausVid no se limita a las creaciones desde cero y, en ese sentido, puede servir como un editor de video. También puede dotar de movimiento a una fotografía, extender piezas ya existentes o realizar cambios en los resultados que generó, con nuevas entradas a mitad del proceso. Por ejemplo, los usuarios pueden escribir una instrucción inicial (“genera un hombre que cruza una calle”) y después agregar nuevas indicaciones, para completar la escena en forma gradual. A esa consecución de prompts la llaman “entradas de seguimiento”.

    Según observan desde el MIT, esta herramienta es capaz de concretar en pocas acciones un proceso que, de otro modo, requeriría unos 50 pasos.

    Las falencias de los generadores de video, al descubierto

    Este desarrollo que emerge del MIT, hemos dicho, deja al descubierto algunas de las fallas de los modelos de IA ahora conocidos para la generación de videos. Muchos de ellos pueden crear piezas con movimientos fluidos, cuya calidad va degradándose con el correr de los segundos. Esto ocurre porque ocurren inconsistencias fotograma a fotograma, errores que se deben a una acumulación.

    Somos testigos directos del boom de la IA Generativa. (Foto: Creada con ChatGPT)
    Somos testigos directos del boom de la IA Generativa. (Foto: Creada con ChatGPT)

    “La generación de video propensa a errores era común en los enfoques que aprendieron a predecir fotogramas uno a uno (en los modelos de difusión). En cambio, CausVid utiliza un modelo de difusión de alta potencia para enseñar a un sistema más sencillo su experiencia general, lo que le permite crear imágenes fluidas, pero mucho más rápido”, señalan los creadores de este modelo y aseguran que superó a otros de referencia, como Sora de OpenAI. Presumen que los resultados son más estables, de más calidad y que se generan hasta 100 veces más rápido.

    Los alcances de este desarrollo no se agotan en la simple generación de clips. Yin afirma que el modelo podría ser entenado para tareas más específicas, como la creación de videojuegos o el entrenamiento de robots. Por otra parte, los investigadores destacan que este enfoque, al ser más veloz en sus procedimientos, genere una menor huella de carbono, una variable que gana cada vez más atención en el marco del despliegue de la IA.

    Leé también: La Inteligencia Artificial mejora si es charlatana: las alucinaciones aumentan en las respuestas breves

    Se espera que los detalles sobre CausVid sean profundizados en la Conference on Computer Vision and Pattern Recognition que se celebrará en junio, en Nashville, Estados Unidos.

    Las más leídas de Tecno

    1

    Los maestros están usando ChatGPT, y algunos alumnos no están contentos

    Por 

    The New York Times

    2

    CausVid, el generador de videos creado en el MIT destapa la olla de la automatización

    Por 

    Uriel Bederman

    3

    A una joven le gustó un chico en un bar y su amiga pensó un insólito plan para que la mire: “Funcionó”

    4

    Mientras cuidaba a su hija imaginó un videojuego de fútbol para los que no son gamers: así nació Pasala!

    Por 

    Rodrigo Álvarez

    5

    Una joven pidió empanadas por WhatsApp y recibió una respuesta que la sorprendió: “Se ponía todo muy íntimo”

    Suscribite a los newsletters de TN

    Recibí las últimas noticias de TN en tu correo.

    Temas de la nota

    Inteligencia artificialMITInnovaciónVideos

    Más sobre Tecno

    Manus es un agente autónomo de inteligencia artificial presentado este año por la startup china Monica (Imagen: Pixabay)

    Argentina y el futuro de la IA autónoma: ¿estamos listos para la próxima generación?

    Por 

    Mayra Morales

    La radio logró evoluiocnar junto con las nuevas tecnologías, adaptarse y mantenerse vigente (Foto: Freepik)

    El apagón de España, El Eternauta y la radio: lo viejo funciona

    Pasala, el videojuego argentino de fútbol que es furor en Android. (Foto: CocoDeLaCueva)

    Mientras cuidaba a su hija imaginó un videojuego de fútbol para los que no son gamers: así nació Pasala!

    Por 

    Rodrigo Álvarez

    Los comentarios publicados en TN.com.ar podrán ser reproducidos parcial o totalmente en la pantalla de Todo Noticias, como así también las imágenes de los autores.

    © 1996 - 2025, Artear

    Seguinos en las redes

    Descargate la app de TN

    google-playapp-store

    Últimas noticias

    • Horario de votación para las elecciones de CABA 2025: ¿A qué hora empieza y hasta cuándo se puede votar?
    • Dónde ver el GP de Imola de Fórmula 1: a qué hora es la carrera y en qué puesto larga Franco Colapinto
    • A qué hora se conocerán los resultados de las elecciones legislativas 2025 en CABA este domingo
    • Anticipan que el Peugeot 208 argentino tendrá una versión base con motor turbo

    Secciones

    • Últimas noticias
    • Elecciones 2025
    • Deportivo
    • Show
    • Economía
    • Internacional
    • Opinión
    • Policiales
    • Política
    • Sociedad

    Sitios amigos

    • Grupo Clarín
    • Artear
    • eltrece
    • Ciudad Magazine
    • El Doce
    • Cucinare
    • Canal (á)
    • Clarín
    • Olé
    • Mitre
    • La 100
    • Cienradios
    • TyC Sports
    • La Voz
    • Vía País

    Descargate la app de TN

    google-playapp-store

    Seguinos en las redes

    © 1996 - 2025, Artear

    Mapa del sitio
    Términos y Condiciones
    Políticas de privacidad
    Media Kit