⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-11-27 更新
Diverse Video Generation with Determinantal Point Process-Guided Policy Optimization
Authors:Tahira Kazimi, Connor Dunlop, Pinar Yanardag
While recent text-to-video (T2V) diffusion models have achieved impressive quality and prompt alignment, they often produce low-diversity outputs when sampling multiple videos from a single text prompt. We tackle this challenge by formulating it as a set-level policy optimization problem, with the goal of training a policy that can cover the diverse range of plausible outcomes for a given prompt. To address this, we introduce DPP-GRPO, a novel framework for diverse video generation that combines Determinantal Point Processes (DPPs) and Group Relative Policy Optimization (GRPO) theories to enforce explicit reward on diverse generations. Our objective turns diversity into an explicit signal by imposing diminishing returns on redundant samples (via DPP) while supplies groupwise feedback over candidate sets (via GRPO). Our framework is plug-and-play and model-agnostic, and encourages diverse generations across visual appearance, camera motions, and scene structure without sacrificing prompt fidelity or perceptual quality. We implement our method on WAN and CogVideoX, and show that our method consistently improves video diversity on state-of-the-art benchmarks such as VBench, VideoScore, and human preference studies. Moreover, we release our code and a new benchmark dataset of 30,000 diverse prompts to support future research.
尽管最近的文本到视频(T2V)扩散模型在质量和即时对齐方面取得了令人印象深刻的成就,但它们在从单个文本提示中采样多个视频时,往往产生低多样性的输出。我们通过将其制定为集合级别的策略优化问题来解决这一挑战,目标是训练一种能够覆盖给定提示的多种可能结果的政策。为解决此问题,我们引入了DPP-GRPO,这是一种用于视频生成的新型框架,结合了行列式点过程(DPPs)和组相对策略优化(GRPO)理论,对多样化的生成施加明确的奖励。我们的目标是通过在冗余样本上产生递减收益(通过DPP)而对多样性进行明确的信号转换,同时为候选集提供组反馈(通过GRPO)。我们的框架即插即用,与模型无关,并鼓励在视觉外观、相机运动和场景结构方面进行多样化的生成,而不会牺牲提示的保真度或感知质量。我们在WAN和CogVideoX上实施了我们的方法,并表明我们的方法在VBench、VideoScore和人类偏好研究等最新标准基准测试上,始终提高了视频多样性。此外,我们发布了我们的代码和包含3万个多样提示的新基准数据集,以支持未来的研究。
论文及项目相关链接
PDF Project webpage: https://diverse-video.github.io/
Summary
本文解决文本到视频扩散模型在生成视频时存在的多样性不足问题。通过结合行列式点过程和群体相对策略优化理论,提出一个新的框架DPP-GRPO,该框架能够鼓励视频在视觉外观、摄像机运动和场景结构方面的多样性生成,同时不牺牲提示的保真度或感知质量。该方法在WAN和CogVideoX上实施,并在VBench、VideoScore和人类偏好研究等标准测试中表现出色。此外,作者还公开了代码和包含3万个不同提示的新基准数据集以支持未来研究。
Key Takeaways
- 文本到视频扩散模型在生成视频时存在多样性不足的问题。
- 提出新的框架DPP-GRPO来解决这个问题,结合行列式点过程和群体相对策略优化理论。
- DPP-GRPO框架鼓励视频在视觉外观、摄像机运动和场景结构方面的多样性生成。
- 该方法在保持提示的保真度和感知质量的同时提高视频的多样性。
- 在标准测试(如VBench、VideoScore和人类偏好研究)上表现优越。
- 作者公开了代码和包含大量不同提示的新基准数据集以支持未来研究。
点此查看论文截图
MotionV2V: Editing Motion in a Video
Authors:Ryan Burgert, Charles Herrmann, Forrester Cole, Michael S Ryoo, Neal Wadhwa, Andrey Voynov, Nataniel Ruiz
While generative video models have achieved remarkable fidelity and consistency, applying these capabilities to video editing remains a complex challenge. Recent research has explored motion controllability as a means to enhance text-to-video generation or image animation; however, we identify precise motion control as a promising yet under-explored paradigm for editing existing videos. In this work, we propose modifying video motion by directly editing sparse trajectories extracted from the input. We term the deviation between input and output trajectories a “motion edit” and demonstrate that this representation, when coupled with a generative backbone, enables powerful video editing capabilities. To achieve this, we introduce a pipeline for generating “motion counterfactuals”, video pairs that share identical content but distinct motion, and we fine-tune a motion-conditioned video diffusion architecture on this dataset. Our approach allows for edits that start at any timestamp and propagate naturally. In a four-way head-to-head user study, our model achieves over 65 percent preference against prior work. Please see our project page: https://ryanndagreat.github.io/MotionV2V
尽管生成式视频模型已经实现了显著的保真度和一致性,但将这些能力应用于视频编辑仍然是一个复杂的挑战。最近的研究探索了运动控制性作为增强文本到视频生成或图像动画的手段,但我们确定了精确运动控制是一个前景广阔但尚未充分探索的视频编辑范式。在这项工作中,我们提出了通过直接编辑从输入中提取的稀疏轨迹来修改视频运动。我们将输入和输出轨迹之间的偏差称为“运动编辑”,并证明这种表示形式与生成式骨干相结合时,可实现强大的视频编辑功能。为了实现这一点,我们引入了生成“运动反事实”的管道,即视频对具有相同内容但不同运动,我们在该数据集上微调了基于运动的视频扩散架构。我们的方法允许在任何时间戳开始编辑并自然传播。在四项用户研究中,我们的模型相较于先前工作获得了超过65%的偏好。请访问我们的项目页面:https://ryanndagreat.github.io/MotionV2V
论文及项目相关链接
摘要
该文本探讨了将文本转视频技术应用于视频编辑领域的挑战与进展。研究指出精确运动控制是编辑现有视频的一种前景广阔的但尚未得到充分研究的方法。本研究提出通过直接编辑从输入中提取的稀疏轨迹来改变视频运动,称之为“运动编辑”。当与生成主干相结合时,此表示可实现强大的视频编辑功能。为生成具有相同内容但运动不同的视频对,研究引入了生成“运动反事实”的管道,并微调了基于运动条件的视频扩散架构。该方法允许在任何时间戳开始编辑并自然传播。在四项用户研究中,该研究模型相较于先前工作获得了超过65%的偏好。更多详情可访问:链接地址。
关键见解
- 生成视频模型已经实现了显著的保真度和一致性,但将这一能力应用于视频编辑仍然是一个复杂的挑战。
- 运动控制被探索作为增强文本转视频生成或图像动画的手段,而精确运动控制对于编辑现有视频是一个有前途但尚未充分研究的领域。
- 提出通过直接编辑输入的稀疏轨迹来改变视频运动的方法,称之为“运动编辑”。
- 当与生成主干结合时,“运动编辑”表示可实现强大的视频编辑功能。
- 研究引入了生成“运动反事实”的管道,能够生成具有相同内容但运动不同的视频对。
- 采用微调基于运动条件的视频扩散架构来实现上述目标。
点此查看论文截图
MapReduce LoRA: Advancing the Pareto Front in Multi-Preference Optimization for Generative Models
Authors:Chieh-Yun Chen, Zhonghao Wang, Qi Chen, Zhifan Ye, Min Shi, Yue Zhao, Yinan Zhao, Hui Qu, Wei-An Lin, Yiru Shen, Ajinkya Kale, Irfan Essa, Humphrey Shi
Reinforcement learning from human feedback (RLHF) with reward models has advanced alignment of generative models to human aesthetic and perceptual preferences. However, jointly optimizing multiple rewards often incurs an alignment tax, improving one dimension while degrading others. To address this, we introduce two complementary methods: MapReduce LoRA and Reward-aware Token Embedding (RaTE). MapReduce LoRA trains preference-specific LoRA experts in parallel and iteratively merges them to refine a shared base model; RaTE learns reward-specific token embeddings that compose at inference for flexible preference control. Experiments on Text-to-Image generation (Stable Diffusion 3.5 Medium and FLUX.1-dev) show improvements of 36.1%, 4.6%, and 55.7%, and 32.7%, 4.3%, and 67.1% on GenEval, PickScore, and OCR, respectively. On Text-to-Video generation (HunyuanVideo), visual and motion quality improve by 48.1% and 90.0%, respectively. On the language task, Helpful Assistant, with Llama-2 7B, helpful and harmless improve by 43.4% and 136.7%, respectively. Our framework sets a new state-of-the-art multi-preference alignment recipe across modalities.
利用奖励模型的人反馈强化学习(RLHF)使生成模型与人类审美和感知偏好更加对齐。然而,联合优化多个奖励通常会产生对齐税,即在改进一个维度时降低其他维度。为了解决这一问题,我们引入了两种互补方法:MapReduce LoRA和奖励感知令牌嵌入(RaTE)。MapReduce LoRA并行训练偏好特定的LoRA专家,并迭代地合并它们以精炼共享基础模型;RaTE学习奖励特定的令牌嵌入,这些嵌入在推理时进行组合以实现灵活的偏好控制。在文本到图像生成(Stable Diffusion 3.5 Medium和FLUX.1-dev)方面的实验显示,在GenEval、PickScore和OCR上分别提高了36.1%、4.6%和55.7%,以及在Text-to-Video生成(HunyuanVideo)方面,视觉和运动质量分别提高了48.1%和90.0%。在语言任务Helpful Assistant与Llama-2 7B结合方面,有用性和无害性分别提高了43.4%和136.7%。我们的框架为跨模态的多偏好对齐设定了新的最先进的配方。
论文及项目相关链接
Summary
强化学习结合人类反馈(RLHF)与奖励模型,使得生成模型能够更好地与人类审美和感知偏好对齐。然而,优化多个奖励时会出现对齐税,即在一个维度上改进时其他维度可能会退化。为解决此问题,我们提出两种互补方法:MapReduce LoRA和Reward-aware Token Embedding(RaTE)。前者通过并行训练偏好特定的LoRA专家并迭代合并它们来优化共享基础模型;后者学习奖励特定的令牌嵌入,在推理时进行组合以实现灵活的偏好控制。实验表明,该方法在文本到图像生成和文本到视频生成任务上取得了显著改进,并树立了跨模态多偏好对齐的新标杆。
Key Takeaways
- 强化学习结合人类反馈(RLHF)提升了生成模型与人类审美和感知偏好的对齐程度。
- 优化多个奖励时会出现对齐税,需要在不同维度之间找到平衡。
- MapReduce LoRA通过训练偏好特定的专家并迭代合并,以优化共享基础模型。
- RaTE方法学习奖励特定的令牌嵌入,以实现灵活的偏好控制。
- 在文本到图像生成任务上,该方法显著提高了图像质量,并在多个评估指标上取得改进。
- 在文本到视频生成任务上,视觉和动作质量均有显著提高。
点此查看论文截图
BRIC: Bridging Kinematic Plans and Physical Control at Test Time
Authors:Dohun Lim, Minji Kim, Jaewoon Lim, Sungchan Kim
We propose BRIC, a novel test-time adaptation (TTA) framework that enables long-term human motion generation by resolving execution discrepancies between diffusion-based kinematic motion planners and reinforcement learning-based physics controllers. While diffusion models can generate diverse and expressive motions conditioned on text and scene context, they often produce physically implausible outputs, leading to execution drift during simulation. To address this, BRIC dynamically adapts the physics controller to noisy motion plans at test time, while preserving pre-trained skills via a loss function that mitigates catastrophic forgetting. In addition, BRIC introduces a lightweight test-time guidance mechanism that steers the diffusion model in the signal space without updating its parameters. By combining both adaptation strategies, BRIC ensures consistent and physically plausible long-term executions across diverse environments in an effective and efficient manner. We validate the effectiveness of BRIC on a variety of long-term tasks, including motion composition, obstacle avoidance, and human-scene interaction, achieving state-of-the-art performance across all tasks.
我们提出了BRIC,这是一种新型测试时适应(TTA)框架,它通过解决基于扩散的运动规划器和基于强化学习的物理控制器之间的执行差异,实现了长期人类运动生成。虽然扩散模型可以根据文本和场景上下文生成多样且富有表现力的运动,但它们通常会产生物理上不可行的输出,导致模拟过程中的执行漂移。为了解决这一问题,BRIC在测试时动态适应带有噪声的运动计划,同时通过减轻灾难性遗忘的损失函数来保留预训练技能。此外,BRIC引入了一种轻量级的测试时指导机制,可以在不更新其参数的情况下在信号空间中引导扩散模型。通过结合这两种适应策略,BRIC以有效且高效的方式确保了跨不同环境的连贯且物理上可行的长期执行。我们在各种长期任务上验证了BRIC的有效性,包括运动组合、避障和人与场景交互,在所有任务上均达到了最先进的性能。
论文及项目相关链接
Summary
文本提出了一种名为BRIC的新型测试时间适应框架,旨在解决扩散运动规划器和强化学习物理控制器之间的执行差异问题,从而实现长期人类运动生成。BRIC解决了扩散模型产生的物理不可行输出问题,通过动态适应物理控制器并引入测试时间指导机制,确保长期执行的一致性和物理可行性。它在多个任务上表现出卓越的性能。
Key Takeaways
- BRIC是一种新型的测试时间适应框架,解决了扩散模型生成的长期人类运动在仿真时出现的执行漂移问题。
- 通过动态适应物理控制器,BRIC可以处理扩散模型产生的物理不可行输出。
- BRIC引入了一种轻量级的测试时间指导机制,可以在不更新参数的情况下引导扩散模型在信号空间中的方向。
- BRIC结合了两种适应策略,确保在各种环境中长期执行的连贯性和物理可行性。
- BRIC通过减轻灾难性遗忘来保留预训练技能。
- 在多个长期任务上,包括运动组合、避障和人与场景交互等任务上,BRIC实现了卓越的性能。
点此查看论文截图
Unifying Perception and Action: A Hybrid-Modality Pipeline with Implicit Visual Chain-of-Thought for Robotic Action Generation
Authors:Xiangkai Ma, Lekai Xing, Han Zhang, Wenzhong Li, Sanglu Lu
Vision-Language-Action (VLA) models built upon Chain-of-Thought (CoT) have achieved remarkable success in advancing general-purpose robotic agents, owing to its significant perceptual comprehension. Recently, since text-only CoT struggles to adequately capture scene details in complex spatial environments, a highly promising strategy involves leveraging visual priors to guide robotic action generation. Nevertheless, these strategies face two inherent challenges: (i) a modality gap between visual observations and low-level actions, and (ii) unstable training due to competing objectives between visual prediction and action generation. To address these challenges, we propose a Vision-Integrated Trajectory Alignment (VITA) framework that learns a shared discrete latent space for vision and action, enabling joint modeling of perception and motor control. VITA introduces a implicit visual CoT: autoregressively generated tokens is simultaneously decoded into future frames predictions and robot actions, thereby internalizing visual dynamics as an inductive bias for motion planning. Extensive experiments on simulated and real-world environments demonstrate state-of-the-art performance. VITA improves 14.5%, 9.6% and 12.1% over existing baselines on CALVIN, LIBERO and SimplerEnv. Furthermore, VITA attains an average success rate of 80.5% across six real-world tasks, demonstrating its potential as a generalist robotic manipulation model.
基于思维链(Chain-of-Thought,CoT)的视语言动作(Vision-Language-Action,VLA)模型在推进通用机器人代理方面取得了显著的成功,这得益于其卓越的理解和感知能力。然而,由于纯文本CoT难以充分捕捉复杂空间环境中的场景细节,因此利用视觉先验来指导机器人动作生成的策略具有巨大潜力。然而,这些策略面临两个固有挑战:(i)视觉观察和低层次动作之间的模态差距;(ii)由于视觉预测和动作生成之间竞争目标导致的训练不稳定。为了解决这些挑战,我们提出了一个名为Vision-Integrated Trajectory Alignment(VITA)的框架,该框架学习用于视觉和动作的共享离散潜在空间,实现对感知和电机控制的联合建模。VITA引入了一种隐式视觉CoT:自回归生成的令牌同时解码为未来的帧预测和机器人动作,从而将视觉动力学内化为运动规划的归纳偏置。在模拟和真实环境中的大量实验证明了其卓越性能。在CALVIN、LIBERO和SimplerEnv上,VITA相较于现有基准测试分别提高了14.5%、9.6%和12.1%。此外,VITA在六个真实任务中的平均成功率达到80.5%,这表明其作为通用机器人操作模型的潜力。
论文及项目相关链接
摘要
基于Chain-of-Thought(CoT)的Vision-Language-Action(VLA)模型在推进通用机器人代理方面取得了显著的成功,因为它具有显著的理解感知能力。近期研究发现,仅使用文本CoT难以捕捉复杂空间环境中的场景细节,因此利用视觉先验来指导机器人动作生成成为一种有前途的策略。然而,该策略面临两个固有挑战:一是视觉观察与低级动作之间的模态差距,二是由于视觉预测和动作生成之间的目标竞争而导致的训练不稳定。为应对这些挑战,我们提出了Vision-Integrated Trajectory Alignment(VITA)框架,该框架为视觉和动作学习一个共享离散潜在空间,实现感知和电机控制的联合建模。VITA引入了一种隐式视觉CoT:自回归生成的令牌被同时解码为未来的帧预测和机器人动作,从而将视觉动力学内化为运动规划的归纳偏置。在模拟和真实环境下的广泛实验表明,VITA在CALVIN、LIBERO和SimplerEnv上的性能均达到最新水平,分别提高了14.5%、9.6%和12.1%。此外,VITA在六个真实任务中的平均成功率达到80.5%,展现出作为通用机器人操作模型的潜力。
关键见解
- Vision-Language-Action (VLA) 模型借助Chain-of-Thought (CoT) 在通用机器人代理领域取得显著进展。
- 文本仅CoT在复杂空间环境中难以捕捉场景细节,因此结合视觉先验以提升机器人动作生成的质量成为研究焦点。
- 视觉与动作结合的策略面临模态差距和培训不稳定两大挑战。
- 提出的Vision-Integrated Trajectory Alignment (VITA) 框架通过共享离散潜在空间实现视觉和动作的联合建模。
- VITA利用隐式视觉CoT,将视觉动力学内化为运动规划的归纳偏置。
- 在模拟和真实环境下的实验表明,VITA性能优越,较现有基线有显著提高。
点此查看论文截图
HunyuanVideo 1.5 Technical Report
Authors:Bing Wu, Chang Zou, Changlin Li, Duojun Huang, Fang Yang, Hao Tan, Jack Peng, Jianbing Wu, Jiangfeng Xiong, Jie Jiang, Linus, Patrol, Peizhen Zhang, Peng Chen, Penghao Zhao, Qi Tian, Songtao Liu, Weijie Kong, Weiyan Wang, Xiao He, Xin Li, Xinchi Deng, Xuefei Zhe, Yang Li, Yanxin Long, Yuanbo Peng, Yue Wu, Yuhong Liu, Zhenyu Wang, Zuozhuo Dai, Bo Peng, Coopers Li, Gu Gong, Guojian Xiao, Jiahe Tian, Jiaxin Lin, Jie Liu, Jihong Zhang, Jiesong Lian, Kaihang Pan, Lei Wang, Lin Niu, Mingtao Chen, Mingyang Chen, Mingzhe Zheng, Miles Yang, Qiangqiang Hu, Qi Yang, Qiuyong Xiao, Runzhou Wu, Ryan Xu, Rui Yuan, Shanshan Sang, Shisheng Huang, Siruis Gong, Shuo Huang, Weiting Guo, Xiang Yuan, Xiaojia Chen, Xiawei Hu, Wenzhi Sun, Xiele Wu, Xianshun Ren, Xiaoyan Yuan, Xiaoyue Mi, Yepeng Zhang, Yifu Sun, Yiting Lu, Yitong Li, You Huang, Yu Tang, Yixuan Li, Yuhang Deng, Yuan Zhou, Zhichao Hu, Zhiguang Liu, Zhihe Yang, Zilin Yang, Zhenzhi Lu, Zixiang Zhou, Zhao Zhong
We present HunyuanVideo 1.5, a lightweight yet powerful open-source video generation model that achieves state-of-the-art visual quality and motion coherence with only 8.3 billion parameters, enabling efficient inference on consumer-grade GPUs. This achievement is built upon several key components, including meticulous data curation, an advanced DiT architecture featuring selective and sliding tile attention (SSTA), enhanced bilingual understanding through glyph-aware text encoding, progressive pre-training and post-training, and an efficient video super-resolution network. Leveraging these designs, we developed a unified framework capable of high-quality text-to-video and image-to-video generation across multiple durations and resolutions. Extensive experiments demonstrate that this compact and proficient model establishes a new state-of-the-art among open-source video generation models. By releasing the code and model weights, we provide the community with a high-performance foundation that lowers the barrier to video creation and research, making advanced video generation accessible to a broader audience. All open-source assets are publicly available at https://github.com/Tencent-Hunyuan/HunyuanVideo-1.5.
我们推出HunyuanVideo 1.5,这是一款轻便而强大的开源视频生成模型。它仅使用8.3亿参数便达到了业界领先的视觉质量和运动连贯性,能够在消费级GPU上进行高效推理。这一成就建立在几个关键组件之上,包括精心策划的数据集、带有选择性滑动块注意力(SSTA)的高级DiT架构、通过字形感知文本编码增强双语理解、渐进的预训练和微调以及高效的视频超分辨率网络。凭借这些设计,我们开发了一个统一框架,能够在多种持续时间和分辨率下实现高质量文本到视频和图像到视频的生成。大量实验表明,这个紧凑而专业的模型在开源视频生成模型中建立了新的业界标杆。我们通过公开代码和模型权重,为社区提供了一个高性能的基础,降低了视频创作和研究的门槛,使更广泛的人群能够访问先进的视频生成技术。所有开源资产均可在https://github.com/Tencent-Hunyuan/HunyuanVideo-1.5上公开获取。
论文及项目相关链接
Summary
这篇文本介绍了HunyuanVideo 1.5模型,这是一个轻量级但强大的开源视频生成模型。它实现了卓越的可视化质量和运动连贯性,仅有8.3亿参数,可在消费级GPU上进行高效推理。该模型建立在几个关键组件之上,包括精心策划的数据收集、先进的DiT架构、增强双语理解的字形感知文本编码、渐进的预训练和微调以及高效的视频超分辨率网络。利用这些设计,开发了一个统一的框架,可实现高质量文本到视频和图像到视频的生成,适用于多种时长和分辨率。实验证明,该紧凑高效的模型在开源视频生成模型中建立了新的世界纪录。通过公开代码和模型权重,该模型为社区提供了高性能基础,降低了视频创作和研究的门槛,使先进的视频生成更加普及。
Key Takeaways
- HunyuanVideo 1.5是一个轻量级但强大的开源视频生成模型,实现了卓越的可视化质量和运动连贯性。
- 模型只有8.3亿参数,可在消费级GPU上进行高效推理。
- 模型建立在几个关键组件之上,包括数据收集、DiT架构、双语理解技术、渐进的预训练和微调以及视频超分辨率网络。
- 模型可实现文本到视频和图像到视频的生成,适用于多种时长和分辨率。
- 该模型打破了开源视频生成模型的记录,表现出色。
- 模型公开了代码和权重,为社区提供了高性能基础,降低了视频创作和研究的门槛。
点此查看论文截图
RoPECraft: Training-Free Motion Transfer with Trajectory-Guided RoPE Optimization on Diffusion Transformers
Authors:Ahmet Berke Gokmen, Yigit Ekin, Bahri Batuhan Bilecen, Aysegul Dundar
We propose RoPECraft, a training-free video motion transfer method for diffusion transformers that operates solely by modifying their rotary positional embeddings (RoPE). We first extract dense optical flow from a reference video, and utilize the resulting motion offsets to warp the complex-exponential tensors of RoPE, effectively encoding motion into the generation process. These embeddings are then further optimized during denoising time steps via trajectory alignment between the predicted and target velocities using a flow-matching objective. To keep the output faithful to the text prompt and prevent duplicate generations, we incorporate a regularization term based on the phase components of the reference video’s Fourier transform, projecting the phase angles onto a smooth manifold to suppress high-frequency artifacts. Experiments on benchmarks reveal that RoPECraft outperforms all recently published methods, both qualitatively and quantitatively.
我们提出了RoPECraft,这是一种无需训练的扩散式Transformer视频运动迁移方法,它通过修改旋转位置嵌入(RoPE)来运行。我们首先从参考视频中提取密集光流,并利用得到的运动偏移量来扭曲RoPE的复数指数张量,从而将运动有效地编码到生成过程中。然后,通过在去噪时间步长期间进一步优化这些嵌入,通过预测速度和目标速度之间的轨迹对齐,使用流量匹配目标来实现。为了保持输出忠于文本提示并防止重复生成,我们基于参考视频的傅里叶变换的相位分量引入了正则化项,将相位角投影到平滑流形上以抑制高频伪影。在基准测试上的实验表明,无论是在定性还是定量上,RoPECraft都优于所有最近发布的方法。
论文及项目相关链接
PDF https://berkegokmen1.github.io/RoPECraft/
Summary
本文提出了RoPECraft方法,这是一种无需训练的扩散式视频动作转移方法。它通过修改旋转位置嵌入(RoPE)来实现动作转移,从参考视频中提取密集光流信息,并利用运动偏移量对RoPE的复数指数张量进行变形处理,将动作编码到生成过程中。此外,在降噪时间步长中进一步优化这些嵌入,通过预测和目标速度之间的轨迹对齐实现流匹配目标。为确保输出忠于文本提示并避免重复生成,本文还引入了一项基于参考视频傅里叶变换相位分量的正则化项,将相位角投影到平滑流形上,以抑制高频伪影。实验表明,RoPECraft在质量和数量上均优于最近发表的所有方法。
Key Takeaways
- RoPECraft是一种无需训练的扩散式视频动作转移方法。
- 通过修改旋转位置嵌入(RoPE)实现动作转移。
- 从参考视频中提取密集光流信息并用于变形处理。
- 在生成过程中编码动作信息。
- 在降噪时间步长中进一步优化嵌入,通过轨迹对齐实现流匹配目标。
- 引入基于参考视频傅里叶变换相位分量的正则化项,确保输出忠于文本提示并避免重复生成。
- 实验表明,RoPECraft在性能和效果上优于其他现有方法。
点此查看论文截图