嘘~ 正在从服务器偷取页面 . . .

I2I Translation


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-09-30 更新

Training-Free Synthetic Data Generation with Dual IP-Adapter Guidance

Authors:Luc Boudier, Loris Manganelli, Eleftherios Tsonis, Nicolas Dufour, Vicky Kalogeiton

Few-shot image classification remains challenging due to the limited availability of labeled examples. Recent approaches have explored generating synthetic training data using text-to-image diffusion models, but often require extensive model fine-tuning or external information sources. We present a novel training-free approach, called DIPSY, that leverages IP-Adapter for image-to-image translation to generate highly discriminative synthetic images using only the available few-shot examples. DIPSY introduces three key innovations: (1) an extended classifier-free guidance scheme that enables independent control over positive and negative image conditioning; (2) a class similarity-based sampling strategy that identifies effective contrastive examples; and (3) a simple yet effective pipeline that requires no model fine-tuning or external captioning and filtering. Experiments across ten benchmark datasets demonstrate that our approach achieves state-of-the-art or comparable performance, while eliminating the need for generative model adaptation or reliance on external tools for caption generation and image filtering. Our results highlight the effectiveness of leveraging dual image prompting with positive-negative guidance for generating class-discriminative features, particularly for fine-grained classification tasks.

图像分类任务中由于可用标签样本数量有限,少量样本情况下的图像分类仍然面临挑战。尽管已有研究尝试通过文本到图像的扩散模型生成合成训练数据,但它们通常需要大量的模型微调或外部信息源。我们提出了一种无需训练的新方法,称为DIPSY,它通过IP-Adapter实现图像到图像的转换,仅使用可用的少量样本即可生成具有高度辨别力的合成图像。DIPSY引入了三个关键创新点:(1)扩展的无分类器引导方案,实现对正负面图像条件的独立控制;(2)基于类别相似性的采样策略,用于识别有效的对比样本;(3)无需模型微调或外部字幕标注和过滤的简单有效的流程。在十个基准数据集上的实验表明,我们的方法达到了最新或相当的性能水平,同时消除了对生成模型适应性的需求或对外部工具进行字幕生成和图像过滤的依赖。我们的结果突显了在生成具有类别区分性的特征时,特别是进行精细分类任务时,利用正负面引导的双图像提示的有效性。

论文及项目相关链接

PDF BMVC 2025. Project page: https://www.lix.polytechnique.fr/vista/projects/2025_bmvc_dipsy/

Summary

本文介绍了一种称为DIPSY的新型免训练图像分类方法,它利用IP-Adapter进行图像到图像的翻译,仅使用有限的样本生成具有高度区分性的合成图像。DIPSY引入了三项关键创新:扩展的无分类器引导方案、基于类别相似性的采样策略以及无需模型微调或外部描述的简单有效流程。实验证明,该方法在多个基准数据集上实现了最新或相当的性能。

Key Takeaways

  • DIPSY是一种新型免训练图像分类方法。
  • 利用IP-Adapter进行图像到图像的翻译,生成合成图像。
  • 引入扩展的无分类器引导方案,实现正负面图像条件的独立控制。
  • 采用基于类别相似性的采样策略,有效识别对比样本。
  • 无需模型微调或外部描述,流程简单有效。
  • 在多个基准数据集上实现最新或相当的性能。

Cool Papers

点此查看论文截图

Transport Based Mean Flows for Generative Modeling

Authors:Elaheh Akbari, Ping He, Ahmadreza Moradipari, Yikun Bai, Soheil Kolouri

Flow-matching generative models have emerged as a powerful paradigm for continuous data generation, achieving state-of-the-art results across domains such as images, 3D shapes, and point clouds. Despite their success, these models suffer from slow inference due to the requirement of numerous sequential sampling steps. Recent work has sought to accelerate inference by reducing the number of sampling steps. In particular, Mean Flows offer a one-step generation approach that delivers substantial speedups while retaining strong generative performance. Yet, in many continuous domains, Mean Flows fail to faithfully approximate the behavior of the original multi-step flow-matching process. In this work, we address this limitation by incorporating optimal transport-based sampling strategies into the Mean Flow framework, enabling one-step generators that better preserve the fidelity and diversity of the original multi-step flow process. Experiments on controlled low-dimensional settings and on high-dimensional tasks such as image generation, image-to-image translation, and point cloud generation demonstrate that our approach achieves superior inference accuracy in one-step generative modeling.

流匹配生成模型已经作为连续数据生成的强大范式出现,在图像、3D形状和点云等领域取得了最先进的成果。尽管这些模型取得了成功,但由于需要大量的连续采样步骤,它们面临着推理速度慢的问题。最近的工作试图通过减少采样步骤来加速推理。特别是,Mean Flow提供了一种一步生成方法,在保持强大的生成性能的同时,提供了实质性的加速。然而,在许多连续领域,Mean Flow无法忠实地逼近原始多步流匹配过程的行为。在这项工作中,我们通过将基于最优传输的采样策略融入Mean Flow框架来解决这一限制,使一步生成器能更好地保持原始多步流过程的保真度和多样性。在受控的低维设置和高维任务(如图像生成、图像到图像的翻译和点云生成)上的实验表明,我们的方法在一步生成模型中实现了更高的推理准确性。

论文及项目相关链接

PDF

Summary

流匹配生成模型已成为连续数据生成的强大范式,在图像、3D形状和点云等领域取得了最新成果。尽管这些模型取得了成功,但由于需要大量的顺序采样步骤,推理速度较慢。最近的工作试图通过减少采样步骤来加速推理。特别是,Mean Flows 提供了一种一步生成方法,在保持强大的生成性能的同时实现了实质性的加速。然而,在许多连续领域,Mean Flows 无法忠实模拟原始多步流匹配过程的行为。在本研究中,我们通过将基于最优传输的采样策略融入 Mean Flow 框架,解决这一问题,使一步生成器更好地保留原始多步流过程的保真度和多样性。实验表明,我们的方法在一步生成建模中实现了更高的推理准确性。

Key Takeaways

  1. 流匹配生成模型已成为连续数据生成的强大工具,在多域(如图像、3D形状和点云)表现出卓越性能。
  2. 这些模型通常由于需要多个顺序采样步骤而导致推理速度慢。
  3. Mean Flows 作为一种一步生成方法实现了推理的实质性加速,但仍无法完全模拟多步流匹配过程的行为。
  4. 将最优传输采样策略融入 Mean Flow 框架能解决此问题。
  5. 此新方法在一步生成建模中提高了推理准确性。
  6. 实验在受控的低维环境和复杂的高维任务(如图像生成、图像到图像转换和点云生成)中验证了方法的有效性。

Cool Papers

点此查看论文截图

Dynamic Novel View Synthesis in High Dynamic Range

Authors:Kaixuan Zhang, Zhipeng Xiong, Minxian Li, Mingwu Ren, Jiankang Deng, Xiatian Zhu

High Dynamic Range Novel View Synthesis (HDR NVS) seeks to learn an HDR 3D model from Low Dynamic Range (LDR) training images captured under conventional imaging conditions. Current methods primarily focus on static scenes, implicitly assuming all scene elements remain stationary and non-living. However, real-world scenarios frequently feature dynamic elements, such as moving objects, varying lighting conditions, and other temporal events, thereby presenting a significantly more challenging scenario. To address this gap, we propose a more realistic problem named HDR Dynamic Novel View Synthesis (HDR DNVS), where the additional dimension ``Dynamic’’ emphasizes the necessity of jointly modeling temporal radiance variations alongside sophisticated 3D translation between LDR and HDR. To tackle this complex, intertwined challenge, we introduce HDR-4DGS, a Gaussian Splatting-based architecture featured with an innovative dynamic tone-mapping module that explicitly connects HDR and LDR domains, maintaining temporal radiance coherence by dynamically adapting tone-mapping functions according to the evolving radiance distributions across the temporal dimension. As a result, HDR-4DGS achieves both temporal radiance consistency and spatially accurate color translation, enabling photorealistic HDR renderings from arbitrary viewpoints and time instances. Extensive experiments demonstrate that HDR-4DGS surpasses existing state-of-the-art methods in both quantitative performance and visual fidelity. Source code will be released.

高动态范围新颖视图合成(HDR NVS)旨在从在常规成像条件下捕获的低动态范围(LDR)训练图像中学习HDR 3D模型。当前的方法主要关注静态场景,隐含地假设所有场景元素都是静止的且非活着的。然而,现实世界中的场景通常包含动态元素,例如移动物体、变化的照明条件和其他临时事件,从而呈现出更具挑战性的场景。为了弥补这一差距,我们提出了一个更现实的问题,称为高动态范围动态新颖视图合成(HDR DNVS),其中“动态”这个额外的维度强调了同时建模时间辐射变化的必要性,以及与LDR和HDR之间复杂3D转换的精致性。为了应对这一复杂且交织的挑战,我们引入了HDR-4DGS,这是一种基于高斯喷绘的架构,具有创新性的动态色调映射模块,该模块显式连接HDR和LDR域,通过根据时间维度上不断发展的辐射分布动态地适应色调映射功能,从而保持时间辐射一致性。因此,HDR-4DGS实现了时间辐射一致性和空间精确的颜色翻译,可以实现从任意观点和时间实例进行逼真的HDR渲染。大量实验表明,HDR-4DGS在定量性能和视觉保真度方面都超越了现有的最新方法。源代码将发布。

论文及项目相关链接

PDF

Summary

本文介绍了HDR动态新视角合成技术(HDR DNVS),该技术解决了HDR新视角合成中遇到的动态场景问题。通过引入HDR-4DGS架构,实现了动态场景下的HDR渲染,同时保证了时间辐射一致性和空间色彩准确性。该技术在实验上超越了现有技术,提高了视觉效果和性能。

Key Takeaways

  1. HDR动态新视角合成技术(HDR DNVS)解决了现有HDR模型无法处理动态场景的问题。
  2. HDR-4DGS架构是基于高斯斑贴图的模型,包含动态调色映射模块,该模块实现了HDR和LDR域之间的明确连接。
  3. HDR-4DGS通过动态调整调色映射函数,根据时间维度上的辐射分布变化,保持了时间辐射的一致性。
  4. HDR-4DGS实现了空间精确的色彩翻译,使得从任意视角和时间点进行的光照真实感的HDR渲染成为可能。
  5. 大量实验证明,HDR-4DGS在定量性能和视觉保真度上均超越了现有技术。
  6. HDR-4DGS技术可以应用于需要处理动态场景的HDR渲染,如虚拟现实、电影后期制作等。

Cool Papers

点此查看论文截图

Causal Abstraction Inference under Lossy Representations

Authors:Kevin Xia, Elias Bareinboim

The study of causal abstractions bridges two integral components of human intelligence: the ability to determine cause and effect, and the ability to interpret complex patterns into abstract concepts. Formally, causal abstraction frameworks define connections between complicated low-level causal models and simple high-level ones. One major limitation of most existing definitions is that they are not well-defined when considering lossy abstraction functions in which multiple low-level interventions can have different effects while mapping to the same high-level intervention (an assumption called the abstract invariance condition). In this paper, we introduce a new type of abstractions called projected abstractions that generalize existing definitions to accommodate lossy representations. We show how to construct a projected abstraction from the low-level model and how it translates equivalent observational, interventional, and counterfactual causal queries from low to high-level. Given that the true model is rarely available in practice we prove a new graphical criteria for identifying and estimating high-level causal queries from limited low-level data. Finally, we experimentally show the effectiveness of projected abstraction models in high-dimensional image settings.

关于因果抽象的研究是人类智力的两个核心组成部分之间的桥梁:确定因果关系的能力和将复杂模式解释为抽象概念的能力。在形式上,因果抽象框架定义了复杂低层次因果模型与简单高层次模型之间的联系。现有定义的一个主要局限性在于,在考虑有损抽象函数时,它们定义得并不明确,在有损抽象函数中,多个低层次的干预措施可能会产生不同的效果,而同时映射到同一高层次干预措施上(这被称为抽象不变条件假设)。在本文中,我们引入了一种新的抽象类型,称为投影抽象,它将现有定义推广到容纳有损表示。我们展示了如何从低层次模型构建投影抽象,以及它如何将等效的观察、干预和假设因果查询从低层次翻译到高层次。鉴于在实践中真实模型很少可用,我们证明了一种新的图形标准,用于从有限的低层次数据中识别和估计高层次因果查询。最后,我们通过实验展示了投影抽象模型在高维图像设置中的有效性。

论文及项目相关链接

PDF 35 pages, 8 figures, published at ICML 2025

摘要

该研究探讨了因果抽象如何桥梁人类智力的两个核心组成部分:因果关系的判断能力与将复杂模式解读为抽象概念的能力。因果抽象框架正式定义了复杂低层次因果模型与简单高层次模型之间的联系。现有定义的一个主要局限是,在考虑有损抽象函数时,它们并不明确,其中多个低层次的干预可能会产生不同的效果,同时映射到同一高层次干预(称为抽象不变条件)。本文介绍了一种新的抽象类型——投影抽象,它将现有定义推广到适应有损表示。我们展示了如何从低层次模型构建投影抽象,以及它如何将等效的观察、干预和反事实因果查询从低层次转换为高层次。鉴于实践中真实模型很少可用,我们证明了一种新的图形标准,用于从有限的低层次数据中识别和估计高层次因果查询。最后,我们在高维图像环境中实验性地展示了投影抽象模型的有效性。

要点

  1. 因果抽象是人类智力的重要体现,连接因果关系判断与复杂模式向抽象概念的解读。
  2. 现有的因果抽象框架主要面临在处理有损抽象函数时的定义不明确问题。
  3. 论文提出了一种新的投影抽象类型,旨在解决现有定义的局限并适应有损表示。
  4. 论文介绍了如何构建投影抽象,并阐述了其在不同层次间的因果查询转换功能。
  5. 在真实模型难以获取的情况下,论文提出了识别与估计高层次因果查询的新图形标准。
  6. 论文强调投影抽象模型在有限低层次数据下的效能,并证明了其适用于高维图像环境的能力。

Cool Papers

点此查看论文截图

Vision Language Models Cannot Plan, but Can They Formalize?

Authors:Muyu He, Yuxi Zheng, Yuchen Liu, Zijian An, Bill Cai, Jiani Huang, Lifeng Zhou, Feng Liu, Ziyang Li, Li Zhang

The advancement of vision language models (VLMs) has empowered embodied agents to accomplish simple multimodal planning tasks, but not long-horizon ones requiring long sequences of actions. In text-only simulations, long-horizon planning has seen significant improvement brought by repositioning the role of LLMs. Instead of directly generating action sequences, LLMs translate the planning domain and problem into a formal planning language like the Planning Domain Definition Language (PDDL), which can call a formal solver to derive the plan in a verifiable manner. In multimodal environments, research on VLM-as-formalizer remains scarce, usually involving gross simplifications such as predefined object vocabulary or overly similar few-shot examples. In this work, we present a suite of five VLM-as-formalizer pipelines that tackle one-shot, open-vocabulary, and multimodal PDDL formalization. We evaluate those on an existing benchmark while presenting another two that for the first time account for planning with authentic, multi-view, and low-quality images. We conclude that VLM-as-formalizer greatly outperforms end-to-end plan generation. We reveal the bottleneck to be vision rather than language, as VLMs often fail to capture an exhaustive set of necessary object relations. While generating intermediate, textual representations such as captions or scene graphs partially compensate for the performance, their inconsistent gain leaves headroom for future research directions on multimodal planning formalization.

视觉语言模型(VLMs)的进步使得实体代理能够完成简单的多模态规划任务,但对于需要一长串动作的长远规划任务仍无法完成。在仅文本模拟中,通过改变大型语言模型(LLMs)的角色,长远规划已取得了重大改进。大型语言模型不直接生成动作序列,而是将规划领域和问题翻译成如规划领域定义语言(PDDL)之类的正式规划语言,这样可以调用形式化求解器以可验证的方式推导计划。在多模态环境中,关于VLM-as-formalizer的研究仍然很少,通常涉及过于简化的内容,例如预设的对象词汇或过于相似的少数案例。在这项工作中,我们提出了五个VLM-as-formalizer管道,解决了一次性、开放词汇和多模态的PDDL形式化问题。我们在现有的基准测试上对这些进行了评估,同时首次推出了另外两个基准测试,用于处理真实的、多视角和低质量的图像规划。我们得出结论,VLM-as-formalizer在端到端计划生成方面表现出巨大优势。我们发现的瓶颈在于视觉而非语言,因为视觉语言模型通常无法捕获必要对象关系的完整集合。虽然生成中间文本表示(如字幕或场景图)可以部分弥补性能损失,但其不一致的增益为未来多模态规划形式化的研究方向留下了空间。

论文及项目相关链接

PDF

Summary:
VLMS在简单多模态规划任务中表现良好,但在需要长序列动作的长远规划任务中表现不足。文本模拟中,LLMS通过翻译规划领域和问题到形式化规划语言(如PDDL),调用形式化求解器进行可验证的规划,推动了长远规划的发展。多模态环境中VLM作为格式化程序的研究仍缺乏实际数据支持,通常需要预先设定目标对象词汇表或者假设少例案例场景等简化条件。本研究推出五个VLM作为格式化程序流水线,应对单次操作、开放词汇和多模态PDDL格式化的任务,对现有评估标准进行了评估并新提出两个标准来体现面向真实环境的多视角低质量图像的多模态规划的现实问题情况。最终实验结果表明,通过LLMS方式结合的形式化设计性能更佳优于直接进行规划的流水线设计,同时发现瓶颈在于视觉能力而非语言能力,未来研究可通过增强视觉能力来提升多模态规划形式化的性能。

Key Takeaways:

  1. VLM在多模态规划中表现出较好成绩。但仍难以应对涉及复杂长期计划的多步骤行为场景任务的需求问题;相较基于语言处理领域的方案而研发规划的规划模式即依赖预置标签的方法仍然存在局限和不稳定的表现效果问题。本文基于现有的理论基础探索并解决了这一系列的问题,优化了解决方法的可行性;而此难题也被进一步归纳为现有模型中的一个重大短板或未来的工作重点之一。特别是对结构化信息和行动域关系的精准理解。模型未能捕捉到这些关系可能导致预测结果的偏差或误差的增大;文中给出了解决方案是通过中间层,使用语义表示方式间接解决问题同时减少短板,一定程度上起到性能补偿作用但收效不一、依旧存在一定的优化提升空间以及创新尝试机会和空间。后续工作可以从模型内部进行针对性优化或者改进,以提高模型捕捉结构化信息的能力,进一步提升预测性能等方面着手改进和展开相关工作;整体技术仍存在着潜在应用空间。也仍有很多有待探索和发掘技术途径尚未知晓其中具体原因值得进行深入探索和专门研究的实际问题发生技术链条和价值网定位分析与未来发展推广技术等领域可以继续提升对多层次数据进行有机融合的应用等复杂数据相关的实验设计与技术研究进一步提升科研应用能力也是一条十分有发展潜力和提升应用价值的新思路和前景可能和发展趋势值得期待。文中通过提出一系列新的方法和流程实现了一定程度的突破和进展为后续研究提供了参考和借鉴价值较高的思路和方向指引作用;在构建全新的大规模现实多场景智能化精准规划与决策领域开拓更多的技术应用潜力大有可为 。与此同时带来的安全和风险可控等保证作用有待进一步深入研究探索解决之道以保障人工智能技术的健康发展以及未来智能社会的和谐稳定与可持续发展趋势 。本文的工作旨在通过不断的研究与探索为解决上述挑战和问题贡献更多的创新思路和技术方案。为实现更智能、更高效、更安全的智能化决策系统提供强有力的技术支持和保障作用 。同时本文的研究成果也为相关领域的研究提供了宝贵的借鉴经验和思路指引 ,并为后续的进一步研究和拓展奠定了坚实的基础 。总结本文主要总结了提出一系列的算法架构并开展实验研究及实验结果展示给出解决此类问题可能的方法和研究方向分析进一步开拓技术应用领域并进行优化拓展和应用探索有着深远影响与贡献以及潜在的学术价值和广泛的实际应用价值方面可能继续带来更多的颠覆性技术和理念以及前景无限的可持续发展潜力和可能研究方向进行挖掘并进一步研究具有重要意义以及巨大的发展前景和商业潜力领域和应用价值体现有较高的重要性和价值。但其在结构、形式以及具体内容表达等方面仍然有一定的提升空间对这类问题需要未来继续探索提出更有效的研究方法和方案来提高对技术内容的解读能力以及推进科研领域不断进步和创新发展进程和提高实际运用的可靠性有效性实用性和经济价值等综合效能领域拓展的设想和实践设想和价值探索方面的无限潜力不断得到实现并最终展现出更高质量和影响力的科技成果与应用实践前景体现出广阔的前景空间和经济社会发展领域得到更广泛的应用和推广实践当中 。期望未来能够在该领域取得更大的突破和进展为相关领域的发展做出更大的贡献 。总的来说该论文研究内容丰富具有一定的创新性具有重要的理论和实践价值 。未来可以进一步深入研究探索新的方法和应用拓展该领域的研究边界 。

Cool Papers

点此查看论文截图

Draw-In-Mind: Rebalancing Designer-Painter Roles in Unified Multimodal Models Benefits Image Editing

Authors:Ziyun Zeng, Junhao Zhang, Wei Li, Mike Zheng Shou

In recent years, integrating multimodal understanding and generation into a single unified model has emerged as a promising paradigm. While this approach achieves strong results in text-to-image (T2I) generation, it still struggles with precise image editing. We attribute this limitation to an imbalanced division of responsibilities. The understanding module primarily functions as a translator that encodes user instructions into semantic conditions, while the generation module must simultaneously act as designer and painter, inferring the original layout, identifying the target editing region, and rendering the new content. This imbalance is counterintuitive because the understanding module is typically trained with several times more data on complex reasoning tasks than the generation module. To address this issue, we introduce Draw-In-Mind (DIM), a dataset comprising two complementary subsets: (i) DIM-T2I, containing 14M long-context image-text pairs to enhance complex instruction comprehension; and (ii) DIM-Edit, consisting of 233K chain-of-thought imaginations generated by GPT-4o, serving as explicit design blueprints for image edits. We connect a frozen Qwen2.5-VL-3B with a trainable SANA1.5-1.6B via a lightweight two-layer MLP, and train it on the proposed DIM dataset, resulting in DIM-4.6B-T2I/Edit. Despite its modest parameter scale, DIM-4.6B-Edit achieves SOTA or competitive performance on the ImgEdit and GEdit-Bench benchmarks, outperforming much larger models such as UniWorld-V1 and Step1X-Edit. These findings demonstrate that explicitly assigning the design responsibility to the understanding module provides significant benefits for image editing. Our dataset and models are available at https://github.com/showlab/DIM.

近年来,将多模态理解和生成集成到一个单一统一模型中已成为一种有前途的范式。虽然这一方法在文本到图像(T2I)生成方面取得了很好的效果,但在精确图像编辑方面仍面临挑战。我们将这一局限性归因于责任划分的不平衡。理解模块主要充当将用户指令编码为语义条件的翻译器,而生成模块必须同时充当设计师和画家,推断原始布局,识别目标编辑区域,并呈现新内容。这种不平衡有些反直觉,因为理解模块通常使用更多关于复杂推理任务的数据进行训练,相比之下生成模块则较少。为了解决这个问题,我们引入了Draw-In-Mind(DIM)数据集,它包含两个互补的子集:(i)DIM-T2I,包含14M长上下文图像文本对,用于增强复杂指令理解;(ii)DIM-Edit,由GPT-4o生成的包含233K思维链的想象图像,作为图像编辑的明确设计蓝图。我们通过轻量级的两层MLP将冷冻的Qwen2.5-VL-3B与可训练的SANA1.5-1.6B连接起来,并在提出的DIM数据集上进行训练,得到DIM-4.6B-T2I/Edit模型。尽管其参数规模适中,但DIM-4.6B-Edit在ImgEdit和GEdit-Bench基准测试中实现了SOTA或具有竞争力的性能表现,超越了诸如UniWorld-V1和Step1X-Edit等大型模型。这些发现表明,明确地将设计责任分配给理解模块对于图像编辑具有显著益处。我们的数据集和模型可以在https://github.com/showlab/DIM处获得。

论文及项目相关链接

PDF Tech Report

Summary
近年,构建多模态理解与生成统一模型成为热门方向,在文本到图像生成方面表现优异,但在图像编辑上仍有局限。为解决理解模块与生成模块职责不平衡的问题,我们引入Draw-In-Mind数据集,分为DIM-T2I和DIM-Edit两个子集,前者强化复杂指令理解,后者提供图像编辑的明确设计蓝图。通过连接两个模型并训练在DIM数据集上,我们的模型在ImgEdit和GEdit-Bench基准测试中达到或保持领先水平,证明明确分配设计责任给理解模块对图像编辑有显著益处。

Key Takeaways

  1. 多模态理解与生成统一模型在文本到图像生成领域表现优秀,但在图像编辑方面存在挑战。
  2. 理解模块和生成模块职责不平衡是限制模型在图像编辑任务上表现的主要原因之一。
  3. Draw-In-Mind数据集的引入是为了解决职责不平衡问题,分为用于增强复杂指令理解的DIM-T2I和提供图像编辑设计蓝图的DIM-Edit两个子集。
  4. 通过连接两个模型并训练在DIM数据集上,得到的DIM-4.6B-T2I/Edit模型在基准测试中表现优秀。
  5. 该研究证明了明确分配设计责任给理解模块对图像编辑的重要性。
  6. 所提出的方法和数据集在ImgEdit和GEdit-Bench基准测试中达到了先进水平。

Cool Papers

点此查看论文截图

TAMMs: Temporal-Aware Multimodal Model for Satellite Image Change Understanding and Forecasting

Authors:Zhongbin Guo, Yuhao Wang, Ping Jian, Chengzhi Li, Xinyue Chen, Zhen Yang, Ertai E

Temporal Change Description (TCD) and Future Satellite Image Forecasting (FSIF) are critical, yet historically disjointed tasks in Satellite Image Time Series (SITS) analysis. Both are fundamentally limited by the common challenge of modeling long-range temporal dynamics. To explore how to improve the performance of methods on both tasks simultaneously by enhancing long-range temporal understanding capabilities, we introduce TAMMs, the first unified framework designed to jointly perform TCD and FSIF within a single MLLM-diffusion architecture. TAMMs introduces two key innovations: Temporal Adaptation Modules (TAM) enhance frozen MLLM’s ability to comprehend long-range dynamics, and Semantic-Fused Control Injection (SFCI) mechanism translates this change understanding into fine-grained generative control. This synergistic design makes the understanding from the TCD task to directly inform and improve the consistency of the FSIF task. Extensive experiments demonstrate TAMMs significantly outperforms state-of-the-art specialist baselines on both tasks.

时间变化描述(TCD)和未来卫星图像预测(FSIF)是卫星图像时间序列(SITS)分析中的关键任务,但它们在历史上是相互分离的任务。两者的根本局限性在于模拟长期时间动态的共同挑战。为了探索如何通过提高长期时间理解的能力,同时提高这两种任务方法的性能,我们引入了TAMMs,这是一个统一框架,旨在在一个MLLM扩散架构内同时执行TCD和FSIF。TAMMs引入了两个关键创新点:时间适应模块(TAM)增强了冻结的MLLM对长期动态的理解能力,语义融合控制注入(SFCI)机制将这种变化理解转化为精细的生成控制。这种协同设计使得从TCD任务的理解能够直接为FSIF任务提供信息并提高其一致性。大量实验表明,在两项任务上,TAMMs都显著优于最新的专业基线模型。

论文及项目相关链接

PDF Submitted to The Fourteenth International Conference on Learning Representations (ICLR 2026). Our dataset can be found at https://huggingface.co/datasets/IceInPot/TAMMs

Summary

卫星图像时间序列(SITS)分析中的时间变化描述(TCD)和未来卫星图像预测(FSIF)是两个关键但历史分离的任务。两者都受到模拟长期动态变化挑战的限制。为探索如何通过增强长期时间理解同时提高两个任务的方法性能,我们引入了TAMMs,这是首个联合执行这两个任务的统一框架,使用单一MLLM扩散架构。TAMMs包括两大创新点:时序适配模块(TAM)增强了冻结的MLLM对长期动态的理解能力;语义融合控制注入(SFCI)机制将这种变化理解转化为精细的生成控制。这种协同设计使得从TCD任务的理解直接促进FSIF任务的连贯性。大量实验证明,在两项任务上,TAMMs显著优于最新专业基线。

Key Takeaways

  • Temporal Change Description (TCD) 和 Future Satellite Image Forecasting (FSIF) 是卫星图像时间序列分析中的两个关键任务。
  • 两个任务都面临模拟长期动态变化的挑战。
    *TAMMs是首个统一框架,能在单一MLLM扩散架构中联合执行这两个任务。
    *TAMMs包括两大创新点:时序适配模块(TAM)增强长期动态理解;语义融合控制注入(SFCI)机制将变化理解转化为生成控制。
    *协同设计使得从TCD任务的理解提高FSIF任务的连贯性。
    *大量实验证明,在两项任务上,TAMMs显著优于最新专业基线。

Cool Papers

点此查看论文截图

Forward-only Diffusion Probabilistic Models

Authors:Ziwei Luo, Fredrik K. Gustafsson, Jens Sjölund, Thomas B. Schön

This work presents a forward-only diffusion (FoD) approach for generative modelling. In contrast to traditional diffusion models that rely on a coupled forward-backward diffusion scheme, FoD directly learns data generation through a single forward diffusion process, yielding a simple yet efficient generative framework. The core of FoD is a state-dependent stochastic differential equation that involves a mean-reverting term in both the drift and diffusion functions. This mean-reversion property guarantees the convergence to clean data, naturally simulating a stochastic interpolation between source and target distributions. More importantly, FoD is analytically tractable and is trained using a simple stochastic flow matching objective, enabling a few-step non-Markov chain sampling during inference. The proposed FoD model, despite its simplicity, achieves state-of-the-art performance on various image restoration tasks. Its general applicability on image-conditioned generation is also demonstrated via qualitative results on image-to-image translation. Our code is available at https://github.com/Algolzw/FoD.

本文提出了一种只前向扩散(FoD)的生成建模方法。与传统的依赖于耦合的前向和后向扩散方案的扩散模型相比,FoD通过单一的前向扩散过程直接学习数据生成,从而构建了一个简单而高效的生成框架。FoD的核心是一个与状态相关的随机微分方程,该方程在漂移和扩散函数中均涉及均值回复项。这种均值回复属性保证了向清洁数据的收敛,自然地模拟了源分布和目标分布之间的随机插值。更重要的是,FoD具有分析可行性,并使用简单的随机流匹配目标进行训练,从而在推理过程中实现了几步非马尔可夫链采样。尽管FoD模型简单,但在各种图像恢复任务上却取得了最先进的性能。通过对图像到图像翻译的定性结果,也证明了其在图像条件生成上的普遍适用性。我们的代码可在https://github.com/Algolzw/FoD上找到。

论文及项目相关链接

PDF Project page: https://algolzw.github.io/fod

Summary
此工作提出了一种仅前向扩散(FoD)的生成建模方法。与传统的采用耦合的前向-后向扩散方案的扩散模型不同,FoD通过单一的前向扩散过程直接学习数据生成,提供了一个简洁而高效的生成框架。FoD的核心是一个涉及均值回归项的态依赖随机微分方程,该方程在漂移和扩散函数中均有体现。均值回归属性保证了向清洁数据的收敛,自然地模拟了源分布和目标分布之间的随机插值。更重要的是,FoD具有分析上的可行性,并使用简单的随机流匹配目标进行训练,使得在推理过程中实现了几步非马尔可夫链采样。尽管其简洁性,FoD在各种图像恢复任务上达到了最先进的性能,并且在图像到图像的转换上通过定性结果证明了其普遍适用性。

Key Takeaways

  1. 此工作提出了一个名为FoD的仅前向扩散方法,用于生成建模。
  2. 传统扩散模型通常使用前向和后向扩散的耦合方案,而FoD通过单一的前向扩散过程进行数据处理生成。
  3. FoD的核心是一个态依赖随机微分方程,包含均值回归项,保证数据收敛的清洁性。
  4. 均值回归属性自然地模拟了源分布和目标分布之间的随机插值过程。
  5. FoD具有分析上的可行性,并使用简单的随机流匹配目标进行训练。
  6. 在推理过程中,FoD实现了非马尔可夫链的简短采样步骤。

Cool Papers

点此查看论文截图

DanceText: A Training-Free Layered Framework for Controllable Multilingual Text Transformation in Images

Authors:Zhenyu Yu, Mohd Yamani Idna Idris, Hua Wang, Pei Wang, Rizwan Qureshi, Shaina Raza, Aman Chadha, Yong Xiang, Zhixiang Chen

We present DanceText, a training-free framework for multilingual text editing in images, designed to support complex geometric transformations and achieve seamless foreground-background integration. While diffusion-based generative models have shown promise in text-guided image synthesis, they often lack controllability and fail to preserve layout consistency under non-trivial manipulations such as rotation, translation, scaling, and warping. To address these limitations, DanceText introduces a layered editing strategy that separates text from the background, allowing geometric transformations to be performed in a modular and controllable manner. A depth-aware module is further proposed to align appearance and perspective between the transformed text and the reconstructed background, enhancing photorealism and spatial consistency. Importantly, DanceText adopts a fully training-free design by integrating pretrained modules, allowing flexible deployment without task-specific fine-tuning. Extensive experiments on the AnyWord-3M benchmark demonstrate that our method achieves superior performance in visual quality, especially under large-scale and complex transformation scenarios. Code is avaible at https://github.com/YuZhenyuLindy/DanceText.git.

我们推出了DanceText,这是一个用于图像中多语言文本编辑的无训练框架,旨在支持复杂的几何变换,并实现无缝的前景-背景集成。虽然基于扩散的生成模型在文本引导的图像合成中显示出潜力,但它们往往缺乏可控性,在非平凡操作(例如旋转,平移,缩放和弯曲)下无法保持布局一致性。为了解决这些局限性,DanceText引入了一种分层编辑策略,将文本与背景分开,以模块化和可控的方式执行几何变换。还提出了深度感知模块,以在变换的文本和重建的背景之间对齐外观和透视,增强逼真度和空间一致性。重要的是,DanceText通过集成预训练模块采用了完全无训练的设计,无需特定任务的微调即可灵活部署。在AnyWord-3M基准测试的大量实验表明,我们的方法在视觉质量方面实现了卓越的性能,尤其是在大规模和复杂变换场景下。代码可在https://github.com/YuZhenyuLindy/DanceText.git上找到。

论文及项目相关链接

PDF

Summary

DanceText是一个无需训练的多语种图像文本编辑框架,支持复杂几何变换,实现无缝前景背景融合。它采用分层编辑策略和深度感知模块,提高几何变换的模块性和可控性,增强文本与背景融合的光照真实感和空间一致性。DanceText通过集成预训练模块实现完全无训练设计,无需针对特定任务进行微调,即可灵活部署。在AnyWord-3M基准测试上表现优异。

Key Takeaways

  1. DanceText是一个多语种图像文本编辑框架,无需训练。
  2. 支持复杂几何变换,如旋转、平移、缩放和扭曲。
  3. 框架采用分层编辑策略,将文本与背景分离,实现模块化可控的几何变换。
  4. 引入深度感知模块,提高变换文本与重建背景之间的外观和视角对齐。
  5. 增强了光照真实感和空间一致性。
  6. 通过集成预训练模块,实现完全无训练设计,灵活部署。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
视频理解 视频理解
视频理解 方向最新论文已更新,请持续关注 Update in 2025-09-30 VideoJudge Bootstrapping Enables Scalable Supervision of MLLM-as-a-Judge for Video Understanding
2025-09-30
下一篇 
Few-Shot Few-Shot
Few-Shot 方向最新论文已更新,请持续关注 Update in 2025-09-30 Death of the Novel(ty) Beyond n-Gram Novelty as a Metric for Textual Creativity
2025-09-30
  目录