Новая нейросеть превращает фото в «трехмерные» видео

нейросеть, видео, фото, трехмерность, глубина

Китайская компания Tencent выпустила нейросеть HunyuanWorld-Voyager. Она по одной фотографии создает видео, в котором можно «летать» по виртуальной сцене.

Пользователь задает траекторию движения камеры, а ИИ генерирует ролик с правильной перспективой и глубиной. При этом кадры сохраняют пространственную согласованность — объекты остаются на своих местах при перемещении камеры.

Модель создает около 49 кадров за раз — это примерно 2 секунды видео. Короткие фрагменты можно объединять в более длинные сцены. Изображение и глубина синхронизированы, что позволяет превращать видео в облака точек и строить 3D-модели.

Разработчики обучили систему на 100 тысячах видеоклипов, включая сцены из Unreal Engine. Модель требует от 60 до 80 ГБ видеопамяти.