嘘~ 正在从服务器偷取页面 . . .

Face Swapping


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-09-24 更新

ContextFlow: Training-Free Video Object Editing via Adaptive Context Enrichment

Authors:Yiyang Chen, Xuanhua He, Xiujun Ma, Yue Ma

Training-free video object editing aims to achieve precise object-level manipulation, including object insertion, swapping, and deletion. However, it faces significant challenges in maintaining fidelity and temporal consistency. Existing methods, often designed for U-Net architectures, suffer from two primary limitations: inaccurate inversion due to first-order solvers, and contextual conflicts caused by crude “hard” feature replacement. These issues are more challenging in Diffusion Transformers (DiTs), where the unsuitability of prior layer-selection heuristics makes effective guidance challenging. To address these limitations, we introduce ContextFlow, a novel training-free framework for DiT-based video object editing. In detail, we first employ a high-order Rectified Flow solver to establish a robust editing foundation. The core of our framework is Adaptive Context Enrichment (for specifying what to edit), a mechanism that addresses contextual conflicts. Instead of replacing features, it enriches the self-attention context by concatenating Key-Value pairs from parallel reconstruction and editing paths, empowering the model to dynamically fuse information. Additionally, to determine where to apply this enrichment (for specifying where to edit), we propose a systematic, data-driven analysis to identify task-specific vital layers. Based on a novel Guidance Responsiveness Metric, our method pinpoints the most influential DiT blocks for different tasks (e.g., insertion, swapping), enabling targeted and highly effective guidance. Extensive experiments show that ContextFlow significantly outperforms existing training-free methods and even surpasses several state-of-the-art training-based approaches, delivering temporally coherent, high-fidelity results.

无训练视频对象编辑旨在实现精确的对象级别操作,包括对象插入、替换和删除。然而,它在保持保真度和时间一致性方面面临重大挑战。现有方法通常针对U-Net架构进行设计,存在两个主要局限性:由于一阶求解器导致的不准确反转,以及由粗糙的“硬”特征替换引起的上下文冲突。在扩散变压器(DiTs)中,这些问题更具挑战性,不适当的先验层选择启发式方法使得有效指导具有挑战性。为了解决这些局限性,我们引入了ContextFlow,这是一种用于DiT基于视频对象编辑的无训练框架。具体来说,我们首先采用高阶Rectified Flow求解器建立稳健的编辑基础。我们框架的核心是自适应上下文丰富(用于指定要编辑的内容),这是一种解决上下文冲突的机制。它并不替换特征,而是丰富了自注意力上下文,通过并行重建和编辑路径中的键值对进行拼接,使模型能够动态融合信息。此外,为了确定应用这种丰富的地方(用于指定编辑位置),我们提出了一种系统、数据驱动的分析方法,以识别特定任务的关键层。基于一种新的指导响应度量标准,我们的方法准确地找出了不同任务(如插入、替换)中最有影响力的DiT块,实现了有针对性的、高度有效的指导。大量实验表明,ContextFlow在无训练方法中表现优异,甚至超越了几种基于训练的最先进方法,提供时间连贯、高保真度的结果。

论文及项目相关链接

PDF The project page is at https://yychen233.github.io/ContextFlow-page

摘要

训练无关的视频对象编辑旨在实现精确的对象级操作,包括对象插入、替换和删除。然而,它面临着保持保真度和时间一致性的重大挑战。现有方法通常针对U-Net架构进行设计,存在两个主要局限性:由于一阶求解器导致的不准确反转和因粗放的“硬”特征替换引起的上下文冲突。在扩散转换器(DiT)中,这些挑战更加突出,因为现有层选择启发式策略的不适用性使得有效指导变得困难。为解决这些局限性,我们引入了ContextFlow,这是一个基于DiT的新型训练无关视频对象编辑框架。具体来说,我们首先采用高阶Rectified Flow求解器建立稳健的编辑基础。我们的框架的核心是自适应上下文丰富机制(用于指定要编辑的内容),该机制通过拼接平行重建和编辑路径中的键值对来丰富自注意力上下文,使模型能够动态融合信息,从而解决上下文冲突。此外,为了确定应用这种丰富的地方(即指定在哪里编辑),我们提出了一种系统、数据驱动的分析方法,以识别特定任务的关键层。基于新型指导响应度量标准,我们的方法能够针对不同任务(如插入、替换等)精准定位最具影响力的DiT块,从而实现有针对性的、高度有效的指导。大量实验表明,ContextFlow显著优于现有训练无关方法,甚至超越了一些基于训练的最先进方法,能够产生时间连贯、高保真度的结果。

关键见解

  1. 训练无关的视频对象编辑旨在实现精确的对象级操作,如插入、替换和删除。
  2. 当前方法面临保真度与时间一致性的挑战。
  3. 现有基于U-Net的方法存在因一阶求解器导致的不准确反转和上下文冲突问题。
  4. ContextFlow框架采用高阶Rectified Flow求解器建立稳健的编辑基础。
  5. 自适应上下文丰富机制解决了上下文冲突问题,通过拼接键值对丰富自注意力上下文。
  6. 通过系统、数据驱动的分析方法确定应用上下文丰富的层。

Cool Papers

点此查看论文截图

FakeChain: Exposing Shallow Cues in Multi-Step Deepfake Detection

Authors:Minji Heo, Simon S. Woo

Multi-step or hybrid deepfakes, created by sequentially applying different deepfake creation methods such as Face-Swapping, GAN-based generation, and Diffusion methods, can pose an emerging and unforseen technical challenge for detection models trained on single-step forgeries. While prior studies have mainly focused on detecting isolated single manipulation, little is known about the detection model behavior under such compositional, hybrid, and complex manipulation pipelines. In this work, we introduce \textbf{FakeChain}, a large-scale benchmark comprising 1-, 2-, and 3-Step forgeries synthesized using five state-of-the-art representative generators. Using this approach, we analyze detection performance and spectral properties across hybrid manipulation at different step, along with varying generator combinations and quality settings. Surprisingly, our findings reveal that detection performance highly depends on the final manipulation type, with F1-score dropping by up to \textbf{58.83%} when it differs from training distribution. This clearly demonstrates that detectors rely on last-stage artifacts rather than cumulative manipulation traces, limiting generalization. Such findings highlight the need for detection models to explicitly consider manipulation history and sequences. Our results highlight the importance of benchmarks such as FakeChain, reflecting growing synthesis complexity and diversity in real-world scenarios. Our sample code is available here\footnote{https://github.com/minjihh/FakeChain}.

由多步或混合深度伪造技术所创建的作品,通过顺序应用不同的深度伪造创作方法,如面部替换、基于GAN的生成和扩散方法,可以为在单步伪造品上训练的检测模型带来新兴且未知的技术挑战。虽然先前的研究主要集中在检测孤立的单一操作,但在这种组合、混合和复杂的操作管道下,检测模型的行为表现尚不清楚。在这项工作中,我们引入了FakeChain,这是一个大规模基准测试,包含使用五种最先进的代表性生成器合成的1步、2步和3步伪造品。通过这种方法,我们分析了在不同步骤的混合操作、各种生成器组合和质量设置下的检测性能和光谱特性。令人惊讶的是,我们的研究发现,检测性能高度依赖于最终的操纵类型,当其与训练分布不同时,F1分数下降了高达**58.83%**。这清楚地表明,检测器依赖于最后阶段的伪影,而不是累积的操纵痕迹,这限制了其泛化能力。这些发现强调检测模型需要明确考虑操纵历史和序列。我们的结果凸显了像FakeChain这样的基准测试的重要性,反映了合成复杂性和现实场景中的多样性不断增长。我们的示例代码可在此处找到

论文及项目相关链接

PDF

Summary
深度伪造技术日益复杂,新出现的多步骤或混合深度伪造技术给检测模型带来了新的挑战。此研究引入了一个新的大规模基准测试FakeChain,分析了不同步骤和质量的混合操作对检测性能的影响。研究发现,检测性能高度依赖于最终的操纵类型,与训练分布差异较大时,F1分数下降了高达58.83%,强调检测模型需要显式考虑操纵历史和序列。

Key Takeaways

  1. 多步骤或混合深度伪造技术构成新兴挑战:深度伪造技术不断进步,由多种单一伪造方法组合而成的多步骤或混合伪造技术对检测模型构成新的挑战。
  2. FakeChain基准测试用于分析检测性能:FakeChain基准测试包含了不同步骤合成的伪造作品,用于评估检测模型在混合操纵下的性能。
  3. 检测性能高度依赖于最终操纵类型:研究发现,检测模型的性能受最终操纵类型影响显著。
  4. 与训练分布差异大时,F1分数大幅下降:当伪造作品的操纵类型与训练时的分布差异较大时,检测模型的F1分数可能会大幅下降。
  5. 检测模型需考虑操纵历史和序列:研究表明,检测模型应不仅仅依赖于最后阶段的伪像,还应考虑累积的操纵痕迹和历史。
  6. 伪造技术合成复杂性和多样性增长:随着伪造技术的不断进步,合成作品的复杂性和多样性也在增长,这要求检测模型具备更高的适应性和泛化能力。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
GAN GAN
GAN 方向最新论文已更新,请持续关注 Update in 2025-09-24 HyPlaneHead Rethinking Tri-plane-like Representations in Full-Head Image Synthesis
2025-09-24
下一篇 
Speech Speech
Speech 方向最新论文已更新,请持续关注 Update in 2025-09-24 Audio Super-Resolution with Latent Bridge Models
2025-09-24
  目录