Китайская компания Tencent выпустила нейросеть HunyuanWorld-Voyager. Она по одной фотографии создает видео, в котором можно «летать» по виртуальной сцене.
Пользователь задает траекторию движения камеры, а ИИ генерирует ролик с правильной перспективой и глубиной. При этом кадры сохраняют пространственную согласованность — объекты остаются на своих местах при перемещении камеры.
Модель создает около 49 кадров за раз — это примерно 2 секунды видео. Короткие фрагменты можно объединять в более длинные сцены. Изображение и глубина синхронизированы, что позволяет превращать видео в облака точек и строить 3D-модели.
Разработчики обучили систему на 100 тысячах видеоклипов, включая сцены из Unreal Engine. Модель требует от 60 до 80 ГБ видеопамяти.