⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-09-12 更新
Reangle-A-Video: 4D Video Generation as Video-to-Video Translation
Authors:Hyeonho Jeong, Suhyeon Lee, Jong Chul Ye
We introduce Reangle-A-Video, a unified framework for generating synchronized multi-view videos from a single input video. Unlike mainstream approaches that train multi-view video diffusion models on large-scale 4D datasets, our method reframes the multi-view video generation task as video-to-videos translation, leveraging publicly available image and video diffusion priors. In essence, Reangle-A-Video operates in two stages. (1) Multi-View Motion Learning: An image-to-video diffusion transformer is synchronously fine-tuned in a self-supervised manner to distill view-invariant motion from a set of warped videos. (2) Multi-View Consistent Image-to-Images Translation: The first frame of the input video is warped and inpainted into various camera perspectives under an inference-time cross-view consistency guidance using DUSt3R, generating multi-view consistent starting images. Extensive experiments on static view transport and dynamic camera control show that Reangle-A-Video surpasses existing methods, establishing a new solution for multi-view video generation. We will publicly release our code and data. Project page: https://hyeonho99.github.io/reangle-a-video/
我们介绍了Reangle-A-Video,这是一个从单个输入视频生成同步多视角视频的统一框架。不同于主流方法在大型4D数据集上训练多视角视频扩散模型,我们的方法将多视角视频生成任务重新定位为视频到视频的翻译,并利用可公开获取的图像和视频扩散先验。本质上,Reangle-A-Video分为两个阶段。(1)多视角运动学习:以自监督的方式同步微调图像到视频扩散转换器,从一组变形视频中提取视角不变运动。(2)多视角一致图像到图像翻译:输入视频的第一帧在推理时间跨视角一致性指导下被变形和填充到各种相机视角,使用DUSt3R生成多视角一致起始图像。在静态视角传输和动态相机控制方面的广泛实验表明,Reangle-A-Video超越了现有方法,为多视角视频生成建立了新的解决方案。我们将公开发布我们的代码和数据。项目页面:https://hyeonho99.github.io/reangle-a-video/
论文及项目相关链接
PDF ICCV 2025, Project page: https://hyeonho99.github.io/reangle-a-video/
Summary
基于单输入视频生成同步多视角视频的Reangle-A-Video统一框架介绍。不同于主流在大型4D数据集上训练多视角视频扩散模型的方法,该方法将多视角视频生成任务重新定位为视频到视频的翻译,并利用可公开获取的图像和视频扩散先验。Reangle-A-Video分为两个阶段:首先是多视角运动学习,以自监督方式同步微调图像到视频扩散转换器,从一组变形的视频中提炼出视角不变的运动;其次是多视角一致图像到图像的翻译,将输入视频的第一帧在推断时的跨视角一致性指导下变换并填充到不同的相机视角,生成多视角一致的开始图像。实验表明,Reangle-A-Video在静态视角转换和动态相机控制上超越了现有方法,为多视角视频生成提供了新的解决方案。
Key Takeaways
- Reangle-A-Video是一个统一框架,可以从单个输入视频生成同步多视角视频。
- 该方法通过重新定位多视角视频生成任务为视频到视频的翻译,利用图像和视频扩散先验。
- Reangle-A-Video分为两个阶段:多视角运动学习和多视角一致图像到图像的翻译。
- 多视角运动学习通过自监督方式同步微调图像到视频扩散转换器,提炼视角不变的运动。
- 在多视角一致图像到图像的翻译阶段,输入视频的第一帧被变换并填充到不同的相机视角,生成多视角一致的开始图像。
- 实验表明,Reangle-A-Video在静态视角转换和动态相机控制方面超越了现有方法。
点此查看论文截图




