Новая ИИ-модель мгновенно генерирует качественное видео

09.05.2025

Ученые из Массачусетского технологического института (MIT CSAIL) и Adobe Research разработали гибридную модель искусственного интеллекта CausVid, способную создавать высококачественные видеоролики всего за несколько секунд на основе текстового описания.

В отличие от традиционных диффузионных моделей, работающих медленно, CausVid сочетает их точность с быстротой авторегрессивных систем. «Учитель» на базе диффузии обучает «ученика» — модель, генерирующую видео покадрово, без потери качества и с возможностью изменения сцены в процессе.

Система способна превращать изображение в анимацию, продолжать видео или добавлять действия по ходу сюжета. Среди примеров: мамонты в тундре, бумажный самолет, превращающийся в лебедя, или человек, переходящий улицу и записывающий что-то в блокнот.

При тестировании CausVid превзошла конкурентов вроде OpenSORA и MovieGen — до 100 раз быстрее, с лучшими показателями реалистичности и стабильности. Пользователи предпочли ее результаты даже более мощной обучающей модели.

Разработка можно применять в видеомонтаже, играх, робототехнике и переводе трансляций. Презентация состоится на конференции CVPR в июне.