⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-07-09 更新
Beyond Simple Edits: X-Planner for Complex Instruction-Based Image Editing
Authors:Chun-Hsiao Yeh, Yilin Wang, Nanxuan Zhao, Richard Zhang, Yuheng Li, Yi Ma, Krishna Kumar Singh
Recent diffusion-based image editing methods have significantly advanced text-guided tasks but often struggle to interpret complex, indirect instructions. Moreover, current models frequently suffer from poor identity preservation, unintended edits, or rely heavily on manual masks. To address these challenges, we introduce X-Planner, a Multimodal Large Language Model (MLLM)-based planning system that effectively bridges user intent with editing model capabilities. X-Planner employs chain-of-thought reasoning to systematically decompose complex instructions into simpler, clear sub-instructions. For each sub-instruction, X-Planner automatically generates precise edit types and segmentation masks, eliminating manual intervention and ensuring localized, identity-preserving edits. Additionally, we propose a novel automated pipeline for generating large-scale data to train X-Planner which achieves state-of-the-art results on both existing benchmarks and our newly introduced complex editing benchmark.
最近基于扩散的图像编辑方法在很大程度上推动了文本引导的任务,但在解释复杂、间接指令时经常遇到困难。此外,当前模型在身份保留方面表现不佳,会出现非预期编辑,或过于依赖手动遮罩。为了解决这些挑战,我们引入了X-Planner,这是一个基于多模态大型语言模型(MLLM)的规划系统,它能够有效地将用户意图与编辑模型功能联系起来。X-Planner采用链式思维推理,系统地分解复杂指令为更简单、清晰的子指令。对于每个子指令,X-Planner会自动生成精确的编辑类型和分割遮罩,消除了人工干预,确保了局部化和身份保留的编辑。此外,我们还提出了一种新的自动化流程来生成大规模数据以训练X-Planner,该流程在现有基准测试和我们新引入的复杂编辑基准测试中均达到了最新水平的结果。
论文及项目相关链接
PDF Project page: https://danielchyeh.github.io/x-planner/
Summary
近期扩散式图像编辑方法虽在文本引导的任务上有显著进步,但在处理复杂、间接指令时存在挑战。为解决此问题,我们推出X-Planner,一个基于多模态大型语言模型(MLLM)的规划系统,有效桥接用户意图与编辑模型能力。X-Planner采用链式思维推理,将复杂指令分解为简单清晰的子指令。针对每个子指令,X-Planner自动生成精确的编辑类型和分割掩码,消除了手动干预,确保了局部、身份保留的编辑。此外,我们还提出了一种新的自动化管道用于生成大规模数据以训练X-Planner,其在现有基准测试和我们新引入的复杂编辑基准测试中均达到了最佳效果。
Key Takeaways
- 扩散式图像编辑方法在文本引导任务上的进步显著。
- 当前图像编辑方法在处理复杂、间接指令时存在挑战。
- X-Planner是一个基于多模态大型语言模型的规划系统,能有效桥接用户意图与编辑模型能力。
- X-Planner通过链式思维推理分解复杂指令为简单清晰的子指令。
- X-Planner自动生成精确的编辑类型和分割掩码,消除了手动干预。
- X-Planner确保了局部、身份保留的编辑。
点此查看论文截图





Spatio-Temporal LLM: Reasoning about Environments and Actions
Authors:Haozhen Zheng, Beitong Tian, Mingyuan Wu, Zhenggang Tang, Klara Nahrstedt, Alex Schwing
Despite the significant recent progress of Multimodal Large Language Models (MLLMs), MLLMs still struggle to correctly answer prompts that require a holistic spatio-temporal understanding. Specifically, it is challenging to address prompts that refer to 1) the entirety of an environment that an agent equipped with an MLLM can operate in; and simultaneously also refer to 2) recent actions that just happened and are encoded in a video clip. However, such a holistic spatio-temporal understanding is important for agents operating in the real world. To address this issue, we first develop a framework to collect a large-scale dataset. Using the collected “Reasoning about Environments and Actions” (REA) dataset, we show that recent methods indeed struggle to correctly answer the prompts. To improve, we develop a “spatio-temporal LLM” (ST-LLM), a model equipped with projectors to improve both spatial understanding of an environment and temporal understanding of recent observations. On the collected REA data, we show that the proposed method significantly improves results compared to prior work. Code and data are available at https://zoezheng126.github.io/STLLM-website/.
尽管最近多模态大型语言模型(MLLMs)取得了重大进展,但在需要全面时空理解提示的情境中,MLLMs仍然难以正确回答问题。具体来说,解决涉及以下两个方面的提示具有挑战性:1)一个配备MLLM的代理可以操作的整体环境;同时涉及2)刚刚发生的动作,这些动作被编码在视频剪辑中。然而,对于在现实世界中操作的代理来说,这种全面的时空理解非常重要。为了解决这个问题,我们首先开发了一个框架来收集大规模数据集。“关于环境和行动推理”(REA)数据集显示,最近的方法确实难以正确回答提示。为了改进这一点,我们开发了一种“时空LLM”(ST-LLM),这是一种配备投影仪的模型,旨在提高对环境空间和对最近观察的时间理解。在收集的REA数据上,我们证明了所提出的方法与先前的工作相比,结果得到了显著改善。相关代码和数据可以在https://zoezheng126.github.io/STLLM-website/找到。
论文及项目相关链接
PDF Code and data are available at https://zoezheng126.github.io/STLLM-website/
Summary
本文介绍了尽管多模态大型语言模型(MLLMs)近期取得了显著进展,但在应对需要整体时空理解能力的提示时仍面临挑战。为应对此问题,研究团队首先构建了一个大型数据集“关于环境与行为推理”(REA),并发现现有方法难以正确回答这些提示。为提高模型性能,研究团队提出了配备投影器的时空LLM(ST-LLM),以提高对环境和最近观察结果的时空理解能力。在REA数据集上进行的实验表明,相较于之前的方法,所提出的ST-LLM能显著改善结果。代码和数据集可访问于https://zoezheng126.github.io/STLLM-website/。
Key Takeaways
- MLLMs在面对需要整体时空理解的提示时仍有困难,尤其是在理解和处理环境和最新行动信息方面。
- 研究人员创建了一个名为REA的大型数据集,用于评估模型在应对涉及环境和行为理解的提示方面的性能。
- 现有方法在应对这些提示时表现不佳。
- 为了改善模型的性能,提出了配备投影器的ST-LLM模型,该模型旨在提高对环境空间的理解和最近的观察结果的时空理解。
- 在REA数据集上的实验表明,ST-LLM模型相较于之前的方法有显著改善。
- ST-LLM模型的代码和数据集已公开发布,便于公众访问和使用。
- 这种模型对于开发能在现实世界中运作的智能代理具有重要意义。
点此查看论文截图





Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for Visual Reasoning
Authors:Yana Wei, Liang Zhao, Jianjian Sun, Kangheng Lin, Jisheng Yin, Jingcheng Hu, Yinmin Zhang, En Yu, Haoran Lv, Zejia Weng, Jia Wang, Chunrui Han, Yuang Peng, Qi Han, Zheng Ge, Xiangyu Zhang, Daxin Jiang, Vishal M. Patel
The remarkable reasoning capability of large language models (LLMs) stems from cognitive behaviors that emerge through reinforcement with verifiable rewards. This work investigates how to transfer this principle to Multimodal LLMs (MLLMs) to unlock advanced visual reasoning. We introduce a two-stage paradigm built on Qwen2.5-VL-7B: a massive linguistic cold-start fine-tuning, followed by multimodal reinforcement learning (RL) spanning nearly 1,000 steps, surpassing all previous open-source efforts in scale. This pioneering work reveals three fundamental insights: 1) Behavior transfer emerges surprisingly early in cold start due to linguistic mental imagery. 2) Cold start broadly memorizes visual behaviors, while RL critically discerns and scales up effective patterns. 3) Transfer strategically favors high-utility behaviors such as visual reflection. Our resulting model, Open-Vision-Reasoner (OVR), achieves state-of-the-art performance on a suite of reasoning benchmarks, including 95.3% on MATH500, 51.8% on MathVision and 54.6% on MathVerse. We release our model, data, and training dynamics to catalyze the development of more capable, behavior-aligned multimodal reasoners.
大型语言模型(LLM)的出色推理能力来源于通过可验证奖励进行强化后出现的认知行为。这项工作研究了如何将这一原理应用于多模态LLM(MLLM),以解锁高级视觉推理。我们基于Qwen2.5-VL-7B引入了一个两阶段范式:大规模语言冷启动微调,接着是近1000步的多模态强化学习(RL)。这项工作在规模上超越了之前所有的开源工作。这项开创性的工作揭示了三个基本见解:1)由于语言心理意象,行为转移在冷启动阶段出乎意料地早期出现。2)冷启动广泛记忆视觉行为,而强化学习可以精准地区分并扩大有效模式。3)转移策略有利于高实用性的行为,如视觉反射。我们得到的模型Open-Vision-Reasoner(OVR)在一系列推理基准测试上达到了最先进的性能,包括MATH500上的95.3%,MathVision上的51.8%和MathVerse上的54.6%。我们发布我们的模型、数据和训练动态,以推动开发更强大、行为一致的多模态推理器。
论文及项目相关链接
Summary
大型语言模型的出色推理能力源于通过可验证的奖励进行强化后出现的认知行为。本研究探索了如何将这一原则应用于多模态大型语言模型,以解锁高级视觉推理。研究提出了一种基于Qwen2.5-VL-7B的两阶段范式,先进行大规模语言冷启动微调,然后进行近1000步的多模态强化学习。本研究揭示了行为转移在冷启动早期就会出现,多模态强化学习能够有效提升模型的性能。
Key Takeaways
- 大型语言模型的推理能力源于强化学习和可验证的奖励。
- 多模态大型语言模型具有解锁高级视觉推理的潜力。
- 两阶段范式结合了冷启动微调与多模态强化学习,规模超越之前所有开源努力。
- 行为转移在冷启动早期阶段就会出现,源于语言心理图像。
- 冷启动广泛记忆视觉行为,而强化学习则关键地区分和扩大有效模式。
- 转移策略有利于高实用性的行为,如视觉反射。
- 研究的模型Open-Vision-Reasoner在多个推理基准测试上达到最新水平,包括MATH500的95.3%、MathVision的51.8%和MathVerse的54.6%。
点此查看论文截图




Response Attack: Exploiting Contextual Priming to Jailbreak Large Language Models
Authors:Ziqi Miao, Lijun Li, Yuan Xiong, Zhenhua Liu, Pengyu Zhu, Jing Shao
Contextual priming, where earlier stimuli covertly bias later judgments, offers an unexplored attack surface for large language models (LLMs). We uncover a contextual priming vulnerability in which the previous response in the dialogue can steer its subsequent behavior toward policy-violating content. Building on this insight, we propose Response Attack, which uses an auxiliary LLM to generate a mildly harmful response to a paraphrased version of the original malicious query. They are then formatted into the dialogue and followed by a succinct trigger prompt, thereby priming the target model to generate harmful content. Across eight open-source and proprietary LLMs, RA consistently outperforms seven state-of-the-art jailbreak techniques, achieving higher attack success rates. To mitigate this threat, we construct and release a context-aware safety fine-tuning dataset, which significantly reduces the attack success rate while preserving model capabilities. The code and data are available at https://github.com/Dtc7w3PQ/Response-Attack.
语境提示法,即早期刺激无形中影响后续判断,为大型语言模型(LLM)提供了一个尚未探索的攻击面。我们发现了一种语境提示的漏洞,即对话中的前一个回答可以引导其后续行为走向违反政策的内容。基于这一发现,我们提出了响应攻击法,该方法使用辅助LLM对原始恶意查询的另一种表述生成轻度有害的响应。然后它们被整理成对话形式,紧接着是简短的触发提示,从而引导目标模型生成有害内容。在八个开源和专有LLM中,RA始终优于七种最先进的越狱技术,并实现了更高的攻击成功率。为了缓解这一威胁,我们构建并发布了一个上下文感知的安全微调数据集,它在降低攻击成功率的同时保留了模型的能力。代码和数据可在https://github.com/Dtc7w3PQ/Response-Attack获取。
论文及项目相关链接
PDF 21 pages, 9 figures. Code and data available at https://github.com/Dtc7w3PQ/Response-Attack
Summary:
语境提示对大型语言模型(LLM)构成未探索的攻击面,先前的对话响应可能影响后续行为,导致违反策略内容。基于此,提出Response Attack方法,使用辅助LLM生成轻微有害响应并针对原始恶意查询进行改编,随后通过简洁触发提示,使目标模型生成有害内容。该方法在多个开源和专有LLM上表现优异,成功率高且超越七种先进的越狱技术。为应对这一威胁,构建了上下文感知的安全微调数据集,既能显著降低攻击成功率,同时保留模型能力。相关代码和数据集已在GitHub上公开。
Key Takeaways:
- 语境提示成为大型语言模型(LLM)的新攻击面。
- 对话中的先前响应能够影响后续模型行为,可能导致策略违规内容生成。
- 提出Response Attack方法,利用辅助LLM生成针对目标模型的恶意响应。
- Response Attack方法在不同LLM上表现稳定,成功率高且优于其他越狱技术。
- 为应对该威胁,开发上下文感知的安全微调数据集。
- 安全微调数据集能显著降低攻击成功率,同时保持模型性能。
点此查看论文截图




StreamVLN: Streaming Vision-and-Language Navigation via SlowFast Context Modeling
Authors:Meng Wei, Chenyang Wan, Xiqian Yu, Tai Wang, Yuqiang Yang, Xiaohan Mao, Chenming Zhu, Wenzhe Cai, Hanqing Wang, Yilun Chen, Xihui Liu, Jiangmiao Pang
Vision-and-Language Navigation (VLN) in real-world settings requires agents to process continuous visual streams and generate actions with low latency grounded in language instructions. While Video-based Large Language Models (Video-LLMs) have driven recent progress, current VLN methods based on Video-LLM often face trade-offs among fine-grained visual understanding, long-term context modeling and computational efficiency. We introduce StreamVLN, a streaming VLN framework that employs a hybrid slow-fast context modeling strategy to support multi-modal reasoning over interleaved vision, language and action inputs. The fast-streaming dialogue context facilitates responsive action generation through a sliding-window of active dialogues, while the slow-updating memory context compresses historical visual states using a 3D-aware token pruning strategy. With this slow-fast design, StreamVLN achieves coherent multi-turn dialogue through efficient KV cache reuse, supporting long video streams with bounded context size and inference cost. Experiments on VLN-CE benchmarks demonstrate state-of-the-art performance with stable low latency, ensuring robustness and efficiency in real-world deployment. The project page is: \href{https://streamvln.github.io/}{https://streamvln.github.io/}.
在真实世界环境中,视觉与语言导航(VLN)要求智能体处理连续视觉流,并基于语言指令生成低延迟的动作。尽管基于视频的的大型语言模型(Video-LLM)已经推动了近期的进展,但当前基于Video-LLM的VLN方法通常在精细的视觉理解、长期上下文建模和计算效率之间面临权衡。我们引入了StreamVLN,这是一个流式VLN框架,采用混合的慢快上下文建模策略,支持对交织的视觉、语言和动作输入的跨模态推理。快速流式对话上下文通过活动对话的滑动窗口促进响应性动作生成,而缓慢更新的内存上下文使用三维感知令牌修剪策略压缩历史视觉状态。通过这种慢快设计,StreamVLN通过高效的关键值缓存重用实现了连贯的多轮对话,支持具有有限上下文大小和推理成本的长视频流。在VLN-CE基准测试上的实验展示了最先进的性能以及稳定的低延迟,确保了在实际部署中的稳健性和效率。项目页面为:https://streamvln.github.io/。
论文及项目相关链接
Summary
基于视频的大型语言模型(Video-LLM)推动了视觉与语言导航(VLN)领域的进展,但现有方法面临精细视觉理解、长期上下文建模和计算效率之间的权衡问题。本文提出了StreamVLN框架,采用快慢上下文混合建模策略,支持对交织的视觉、语言和动作输入的跨模态推理。快速流对话上下文通过活动对话的滑动窗口促进响应动作生成,而慢速更新记忆上下文则使用3D感知令牌修剪策略压缩历史视觉状态。通过快慢设计,StreamVLN实现了高效KV缓存的连贯多轮对话,支持具有有界上下文大小和推理成本的长视频流。在VLN-CE基准测试上的实验表明,其性能达到最新水平,具有稳定的低延迟,确保了在实际部署中的稳健性和效率。
Key Takeaways
- 视频大型语言模型(Video-LLM)推动了视觉与语言导航(VLN)的进步。
- 当前VLN方法面临精细视觉理解、长期上下文建模和计算效率的权衡问题。
- StreamVLN框架采用快慢上下文混合建模策略支持跨模态推理。
- 快速流对话上下文促进响应动作生成。
- 慢速更新记忆上下文压缩历史视觉状态。
- StreamVLN实现了连贯的多轮对话,支持长视频流处理。
点此查看论文截图






Cascade: Token-Sharded Private LLM Inference
Authors:Rahul Thomas, Louai Zahran, Erica Choi, Akilesh Potti, Micah Goldblum, Arka Pal
As LLMs continue to increase in parameter size, the computational resources required to run them are available to fewer parties. Therefore, third-party inference services – where LLMs are hosted by third parties with significant computational resources – are becoming increasingly popular. However, third party inference raises critical concerns about user data privacy. To mitigate these risks, privacy researchers have developed provably secure schemes for third-party inference, such as Secure Multi-Party Computation (SMPC). However, SMPC protocols have significant computational and communication overhead, and do not scale to large models. In this work, we propose a new multi-party inference protocol, Cascade, that avoids these punitive costs by leveraging sharding in the sequence dimension to maintain privacy, trading off cryptographic privacy guarantees for increased performance and scalability. We demonstrate that Cascade is resistant to a generalization of a recent attack that is highly effective against other statistical privacy schemes, and that it is further resistant to learning-based attacks. As Cascade is orders of magnitude faster than existing schemes, our findings offer practical solutions for secure deployment of modern state-of-the-art LLMs.
随着LLM的参数规模继续增加,运行它们所需的计算资源可用的方越来越少。因此,第三方推理服务——LLM由具有大量计算资源的第三方托管——越来越受欢迎。然而,第三方推理引发了关于用户数据隐私的关键担忧。为了减轻这些风险,隐私研究人员已经为第三方推理开发了可证明的安全方案,如安全多方计算(SMPC)。然而,SMPC协议具有重大的计算和通信开销,并不能扩展到大型模型。在这项工作中,我们提出了一种新的多方推理协议Cascade,它通过利用序列维度上的分片来保持隐私,避免了这些惩罚性成本,以牺牲部分加密隐私保证来换取更高的性能和可扩展性。我们证明Cascade能够抵抗一种针对其他统计隐私方案的最新攻击的一般化形式,并且进一步抵抗基于学习的攻击。由于Cascade比现有方案快几个数量级,我们的发现为现代最新LLM的安全部署提供了实用解决方案。
论文及项目相关链接
PDF To be published in ICML 2025 Main Proceedings as “Hidden No More: Attacking and Defending Private Third-Party LLM Inference”, together with arXiv:2505.18332
Summary
大型语言模型(LLM)参数规模的不断增长对计算资源的需求越来越高,使得第三方推理服务愈发流行。然而,这引发了用户数据隐私的重大担忧。为缓解这些风险,隐私研究人员已开发出一些如安全多方计算(SMPC)的安全方案。但SMPC协议存在计算与通信开销大、无法扩展到大型模型的问题。本研究提出了一种新的多方推理协议Cascade,通过利用序列维度的分片来保持隐私,以牺牲部分加密隐私保证来换取更高的性能和可扩展性。Cascade对一种针对其他统计隐私方案的最新攻击具有抵抗力,并且能抵抗基于学习的攻击。由于Cascade比现有方案速度快几个数量级,因此为现代前沿的大型语言模型的安全部署提供了实际解决方案。
Key Takeaways
- LLMs参数规模增长导致计算资源需求增加,第三方推理服务因此变得流行。
- 第三方推理服务引发用户数据隐私的重大担忧。
- 隐私研究人员已经开发了一些安全方案如SMPC来解决这个问题,但存在计算开销大、无法扩展到大型模型的缺点。
- 本研究提出了一种新的多方推理协议Cascade,通过利用序列维度的分片来保持隐私,牺牲部分加密隐私保证以换取更高性能和可扩展性。
- Cascade能有效抵抗针对其他统计隐私方案的最新攻击,也能抵抗基于学习的攻击。
- Cascade相比现有方案速度更快,为现代前沿的大型语言模型的安全部署提供了实际解决方案。
点此查看论文截图





All in One: Visual-Description-Guided Unified Point Cloud Segmentation
Authors:Zongyan Han, Mohamed El Amine Boudjoghra, Jiahua Dong, Jinhong Wang, Rao Muhammad Anwer
Unified segmentation of 3D point clouds is crucial for scene understanding, but is hindered by its sparse structure, limited annotations, and the challenge of distinguishing fine-grained object classes in complex environments. Existing methods often struggle to capture rich semantic and contextual information due to limited supervision and a lack of diverse multimodal cues, leading to suboptimal differentiation of classes and instances. To address these challenges, we propose VDG-Uni3DSeg, a novel framework that integrates pre-trained vision-language models (e.g., CLIP) and large language models (LLMs) to enhance 3D segmentation. By leveraging LLM-generated textual descriptions and reference images from the internet, our method incorporates rich multimodal cues, facilitating fine-grained class and instance separation. We further design a Semantic-Visual Contrastive Loss to align point features with multimodal queries and a Spatial Enhanced Module to model scene-wide relationships efficiently. Operating within a closed-set paradigm that utilizes multimodal knowledge generated offline, VDG-Uni3DSeg achieves state-of-the-art results in semantic, instance, and panoptic segmentation, offering a scalable and practical solution for 3D understanding. Our code is available at https://github.com/Hanzy1996/VDG-Uni3DSeg.
三维点云的统一分割对于场景理解至关重要,但其稀疏结构、有限的标注以及复杂环境中精细对象类别的区分挑战阻碍了其发展。现有方法由于监督有限和缺乏多样的多模式线索,往往难以捕捉丰富的语义和上下文信息,导致类别和实例的区分不佳。为了解决这些挑战,我们提出了VDG-Uni3DSeg,一个结合预训练的语言视觉模型(例如CLIP)和大型语言模型(LLM)来增强三维分割的新型框架。通过利用LLM生成的文本描述和互联网上的参考图像,我们的方法融入了丰富的多模式线索,促进了精细的类别和实例分离。我们进一步设计了一种语义视觉对比损失,将点特征与多模式查询对齐,并设计了一个空间增强模块,以有效地建模场景范围内的关系。VDG-Uni3DSeg在语义、实例和全景分割方面采用了利用离线生成的多模式知识的封闭集范式,实现了最先进的成果,为三维理解提供了可扩展和实用的解决方案。我们的代码可在<https://github.com/Hanzy199 6/VDG-Uni3DSeg>获得。
论文及项目相关链接
PDF Accepted by ICCV2025
Summary
本文提出一种名为VDG-Uni3DSeg的新型框架,用于解决三维点云统一分割中的挑战。该框架结合了预训练的视觉语言模型和大型语言模型(LLM),通过利用LLM生成的文本描述和互联网上的参考图像,融入丰富的多模态线索,提升对精细类别和实例的辨识能力。设计语义视觉对比损失和空间增强模块,分别用于对齐点特征和多模态查询以及有效建模场景内关系。在采用离线生成的多模态知识闭集模式下,VDG-Uni3DSeg在语义、实例和全景分割上取得领先结果,为三维理解提供可扩展且实用的解决方案。
Key Takeaways
- 三维点云统一分割对于场景理解至关重要,面临稀疏结构、有限标注和复杂环境中精细类别区分等挑战。
- 现有方法因缺乏丰富语义和上下文信息以及多样的多模态线索,导致类别和实例区分不足。
- VDG-Uni3DSeg框架结合了预训练的视觉语言模型和大型语言模型(LLM),融入多模态线索,提升精细类别和实例辨识能力。
- 通过利用LLM生成的文本描述和互联网上的参考图像,丰富了点云数据的特征和上下文信息。
- 设计的语义视觉对比损失有助于对齐点特征和多模态查询。
- 空间增强模块能够高效建模场景内关系。
点此查看论文截图



CREW-WILDFIRE: Benchmarking Agentic Multi-Agent Collaborations at Scale
Authors:Jonathan Hyun, Nicholas R Waytowich, Boyuan Chen
Despite rapid progress in large language model (LLM)-based multi-agent systems, current benchmarks fall short in evaluating their scalability, robustness, and coordination capabilities in complex, dynamic, real-world tasks. Existing environments typically focus on small-scale, fully observable, or low-complexity domains, limiting their utility for developing and assessing next-generation multi-agent Agentic AI frameworks. We introduce CREW-Wildfire, an open-source benchmark designed to close this gap. Built atop the human-AI teaming CREW simulation platform, CREW-Wildfire offers procedurally generated wildfire response scenarios featuring large maps, heterogeneous agents, partial observability, stochastic dynamics, and long-horizon planning objectives. The environment supports both low-level control and high-level natural language interactions through modular Perception and Execution modules. We implement and evaluate several state-of-the-art LLM-based multi-agent Agentic AI frameworks, uncovering significant performance gaps that highlight the unsolved challenges in large-scale coordination, communication, spatial reasoning, and long-horizon planning under uncertainty. By providing more realistic complexity, scalable architecture, and behavioral evaluation metrics, CREW-Wildfire establishes a critical foundation for advancing research in scalable multi-agent Agentic intelligence. All code, environments, data, and baselines will be released to support future research in this emerging domain.
尽管基于大型语言模型(LLM)的多智能体系统取得了快速进展,但当前的基准测试在评估其在复杂、动态、现实任务的可扩展性、稳健性和协调能力方面还存在不足。现有环境通常专注于小规模、完全可观察或低复杂度的领域,这限制了它们在开发下一代多智能体Agentic人工智能框架中的实用性。我们推出了CREW-Wildfire,这是一个旨在弥补这一差距的开源基准测试。它建立在人类人工智能团队CREW仿真平台之上,提供了程序化生成的野火应对场景,包括大型地图、异构智能体、部分可观察性、随机动态以及长期规划目标。该环境通过模块化感知和执行模块支持低级控制和高级自然语言交互。我们实现并评估了多种基于最新大型语言模型的多智能体Agentic人工智能框架,发现了显著的性能差距,凸显出在解决大规模协调、通信、空间推理和长期不确定性规划方面的挑战。通过提供更现实的复杂性、可扩展的架构和行为评估指标,CREW-Wildfire为推进可扩展多智能体Agentic智能的研究奠定了关键基础。所有代码、环境、数据和基准测试都将发布,以支持这一新兴领域的未来研究。
论文及项目相关链接
PDF Our project website is at: http://generalroboticslab.com/CREW-Wildfire
Summary:
虽然大型语言模型(LLM)在多智能体系统中的应用取得了快速进展,但现有评估基准测试在评估其在复杂动态现实世界任务中的可扩展性、稳健性和协调能力方面存在不足。为解决这一问题,本文引入了CREW-Wildfire这一开放源码基准测试,其基于人类-人工智能团队合作的CREW模拟平台,具有程序生成的大型地图、异种智能体、部分可观察性、随机动态性和长期规划目标等特性。本文实现了多个先进的LLM多智能体Agentic人工智能框架并对其进行了评估,揭示了大规模协调、沟通、空间推理和长期不确定性规划等方面的显著性能差距。通过提供更现实的复杂性、可扩展的架构和行为评估指标,CREW-Wildfire为推进多智能体Agentic智能的研究奠定了重要基础。
Key Takeaways:
- 当前LLM多智能体系统的评估基准测试在评估其在实际复杂环境中的性能时存在局限性。
- CREW-Wildfire是一个新的开放源码基准测试,用于评估LLM多智能体系统在模拟现实世界场景中的性能。
- CREW-Wildfire提供了程序生成的大型地图、不同种类的智能体、部分可观察性、随机动态性和长期规划目标等特性。
- 通过在CREW-Wildfire环境中实施和评估多个先进的LLM多智能体Agentic人工智能框架,发现了在协调、沟通、空间推理和长期规划方面的挑战。
- CREW-Wildfire填补了现有评估基准测试的不足,为多智能体Agentic智能的研究提供了更真实、可扩展的评估环境。
- CREW-Wildfire的发布包括代码、环境、数据和基准线,以支持未来在该领域的研究。
点此查看论文截图




OpenS2S: Advancing Open-Source End-to-End Empathetic Large Speech Language Model
Authors:Chen Wang, Tianyu Peng, Wen Yang, Yinan Bai, Guangfu Wang, Jun Lin, Lanpeng Jia, Lingxiang Wu, Jinqiao Wang, Chengqing Zong, Jiajun Zhang
Empathetic interaction is a cornerstone of human-machine communication, due to the need for understanding speech enriched with paralinguistic cues and generating emotional and expressive responses. However, the most powerful empathetic LSLMs are increasingly closed off, leaving the crucial details about the architecture, data and development opaque to researchers. Given the critical need for transparent research into the LSLMs and empathetic behavior, we present OpenS2S, a fully open-source, transparent and end-to-end LSLM designed to enable empathetic speech interactions. Based on our empathetic speech-to-text model BLSP-Emo, OpenS2S further employs a streaming interleaved decoding architecture to achieve low-latency speech generation. To facilitate end-to-end training, OpenS2S incorporates an automated data construction pipeline that synthesizes diverse, high-quality empathetic speech dialogues at low cost. By leveraging large language models to generate empathetic content and controllable text-to-speech systems to introduce speaker and emotional variation, we construct a scalable training corpus with rich paralinguistic diversity and minimal human supervision. We release the fully open-source OpenS2S model, including the dataset, model weights, pre-training and fine-tuning codes, to empower the broader research community and accelerate innovation in empathetic speech systems. The project webpage can be accessed at https://casia-lm.github.io/OpenS2S
共情交互是人类与机器通信的基石,这是因为需要理解融入副语言线索的语音并生成情感和表达性响应。然而,最强大的共情LSLM越来越封闭,使得关于架构、数据以及开发的关键细节对研究者来说模糊不清。鉴于对LSLM和共情行为透明研究的迫切需求,我们推出了OpenS2S,这是一个完全开源、透明和端到端的LSLM,旨在实现共情语音交互。基于我们的共情语音到文本模型BLSP-Emo,OpenS2S进一步采用流式交织解码架构实现低延迟语音生成。为了促进端到端训练,OpenS2S采用自动化数据构建管道,以低成本合成多样、高质量的共情语音对话。通过利用大型语言模型生成共情内容以及可控的文本到语音系统引入发言者和情感变化,我们构建了一个可扩展的训练语料库,具有丰富的副语言多样性和最小的人工监督。我们公开发布了完全开源的OpenS2S模型,包括数据集、模型权重、预训练和微调代码,以支持更广泛的研究群体并加速共情语音系统的创新。项目网页可通过https://casia-lm.github.io/OpenS2S访问。
论文及项目相关链接
PDF Technical Report
Summary
本文强调了在人机通信中,理解带有副语言线索的语音和生成情感丰富、有表现力的回应是关键所在。为应对强大的类情绪交流学习模型的不透明性挑战,研究人员推出了一个完全开源的类情绪语言模型——OpenS2S,以实现有同理心的语音交互。该模型具有低延迟的语音识别特点,利用数据流交错解码架构,并且设有自动数据构建管道以实现端到端的训练。OpenS2S旨在通过大规模语言模型生成有同理心的内容,并利用可控的文本到语音系统引入说话者和情感变化,构建具有丰富副语言多样性和最小人工监督的可扩展训练语料库。该项目已完全开源,包括数据集、模型权重、预训练和微调代码等,旨在助力更广泛的研究群体并加速同理心语音系统的创新。
Key Takeaways
- 人机交互需要理解带有副语言线索的语音和生成情感丰富的回应。
- OpenS2S是一个旨在实现有同理心的语音交互的完全开源的类情绪语言模型。
- OpenS2S模型具有低延迟的语音识别特点。
- 数据流交错解码架构在OpenS2S模型中得以应用。
- OpenS2S项目包括自动数据构建管道,可实现端到端的训练。
- OpenS2S通过使用大规模语言模型生成有同理心的内容并引入可控的文本到语音系统来构建训练语料库。
点此查看论文截图




LERa: Replanning with Visual Feedback in Instruction Following
Authors:Svyatoslav Pchelintsev, Maxim Patratskiy, Anatoly Onishchenko, Alexandr Korchemnyi, Aleksandr Medvedev, Uliana Vinogradova, Ilya Galuzinsky, Aleksey Postnikov, Alexey K. Kovalev, Aleksandr I. Panov
Large Language Models are increasingly used in robotics for task planning, but their reliance on textual inputs limits their adaptability to real-world changes and failures. To address these challenges, we propose LERa - Look, Explain, Replan - a Visual Language Model-based replanning approach that utilizes visual feedback. Unlike existing methods, LERa requires only a raw RGB image, a natural language instruction, an initial task plan, and failure detection - without additional information such as object detection or predefined conditions that may be unavailable in a given scenario. The replanning process consists of three steps: (i) Look, where LERa generates a scene description and identifies errors; (ii) Explain, where it provides corrective guidance; and (iii) Replan, where it modifies the plan accordingly. LERa is adaptable to various agent architectures and can handle errors from both dynamic scene changes and task execution failures. We evaluate LERa on the newly introduced ALFRED-ChaOS and VirtualHome-ChaOS datasets, achieving a 40% improvement over baselines in dynamic environments. In tabletop manipulation tasks with a predefined probability of task failure within the PyBullet simulator, LERa improves success rates by up to 67%. Further experiments, including real-world trials with a tabletop manipulator robot, confirm LERa’s effectiveness in replanning. We demonstrate that LERa is a robust and adaptable solution for error-aware task execution in robotics. The code is available at https://lera-robo.github.io.
大型语言模型在机器人任务规划中的应用越来越广泛,但它们对文本输入的依赖限制了其在现实世界变化和故障中的适应性。为了解决这些挑战,我们提出了LERa——一种基于视觉语言模型的重新规划方法,它利用视觉反馈,包括“观察”、“解释”、“重新规划”三个步骤。不同于现有方法,LERa仅需要原始RGB图像、自然语言指令、初始任务计划和故障检测,而无需额外的信息,如对象检测或可能在特定场景中不可用的预定义条件。在LERa的重新规划过程中:(i)“观察”阶段,LERa生成场景描述并识别错误;(ii)“解释”阶段,它提供纠正指导;(iii)“重新规划”阶段,它相应地修改计划。LERa可以适应各种代理架构,并可以处理来自动态场景变化和任务执行失败的错误。我们在新引入的ALFRED-ChaOS和VirtualHome-ChaOS数据集上评估了LERa的性能,在动态环境中实现了比基线方法高40%的改进。在PyBullet模拟器中,对于具有预定任务失败概率的桌面操作任务,LERa将成功率提高了高达67%。进一步的实验,包括与桌面操作机器人进行的真实世界试验,证实了LERa在重新规划中的有效性。我们证明LERa是机器人错误感知任务执行中稳健且适应性强的解决方案。相关代码可访问https://lera-robo.github.io。
论文及项目相关链接
PDF IROS 2025
Summary
大型语言模型在机器人任务规划中的应用日益广泛,但其对文本输入的依赖限制了其在现实世界变化和故障中的适应性。为解决此问题,提出一种基于视觉语言模型的再规划方法LERa(Look, Explain, Replan),该方法利用视觉反馈。LERa仅需原始RGB图像、自然语言指令、初始任务计划和故障检测,无需在给定场景中可能无法获得的对象检测或预设条件。再规划过程包括三个步骤:观察、解释和再规划。LERa可适应各种代理架构,可处理动态场景变化和任务执行故障。在全新引入的ALFRED-ChaOS和VirtualHome-ChaOS数据集上评估LERa,其在动态环境中比基线提高了40%。在PyBullet模拟器中,对于具有预设任务失败概率的桌面操作任务,LERa将成功率提高了67%。进一步的实验,包括与桌面操作机器人进行的真实世界试验,证实了LERa在重新规划中的有效性。表明LERa是机器人任务执行中错误感知的稳健且可适应的解决方案。
Key Takeaways
- LERa是一种基于视觉语言模型的再规划方法,用于机器人任务规划,解决了大型语言模型对文本输入的依赖问题。
- LERa通过利用视觉反馈,能够适应现实世界的变化和故障。
- LERa仅需要RGB图像、自然语言指令、初始任务计划和故障检测,无需其他可能在特定场景中无法获得的信息。
- LERa的再规划过程包括观察、解释和再规划三个步骤。
- LERa可适应各种代理架构,并能处理动态场景变化和任务执行故障。
- 在多个数据集上的实验表明,LERa在动态环境中比基线有显著改善。
点此查看论文截图




VerifyLLM: LLM-Based Pre-Execution Task Plan Verification for Robots
Authors:Danil S. Grigorev, Alexey K. Kovalev, Aleksandr I. Panov
In the field of robotics, researchers face a critical challenge in ensuring reliable and efficient task planning. Verifying high-level task plans before execution significantly reduces errors and enhance the overall performance of these systems. In this paper, we propose an architecture for automatically verifying high-level task plans before their execution in simulator or real-world environments. Leveraging Large Language Models (LLMs), our approach consists of two key steps: first, the conversion of natural language instructions into Linear Temporal Logic (LTL), followed by a comprehensive analysis of action sequences. The module uses the reasoning capabilities of the LLM to evaluate logical coherence and identify potential gaps in the plan. Rigorous testing on datasets of varying complexity demonstrates the broad applicability of the module to household tasks. We contribute to improving the reliability and efficiency of task planning and addresses the critical need for robust pre-execution verification in autonomous systems. The code is available at https://verifyllm.github.io.
在机器人领域,研究者面临一个确保可靠高效的任务规划的重大挑战。在执行任务之前对高级任务计划进行验证,可以大大减少错误并增强系统的整体性能。在本文中,我们提出了一种在模拟器或真实环境中执行高级任务计划之前自动验证这些计划的架构。通过利用大型语言模型(LLM),我们的方法分为两个关键步骤:首先,将自然语言指令转换为线性时序逻辑(LTL),然后对动作序列进行全面分析。该模块使用LLM的推理能力来评估逻辑连贯性并识别计划中可能存在的差距。在多种复杂数据集上的严格测试证明了该模块在家庭任务中的广泛应用性。我们为提高任务规划和执行的可靠性和效率做出了贡献,并解决了自主系统中对鲁棒的预执行验证的迫切需求。代码可在https://verifyllm.github.io获取。
论文及项目相关链接
PDF IROS 2025
Summary
在机器人领域,对任务规划进行可靠且高效的验证是保证系统性能的关键。本文提出了一种在模拟器或真实环境中自动验证高级任务计划的架构。该架构利用大型语言模型(LLM)进行自然语言指令的转换,并通过线性时序逻辑(LTL)对动作序列进行全面分析。利用LLM的推理能力评估逻辑连贯性并识别计划中的潜在漏洞。测试证明该模块具有广泛的适用性,为提高任务规划的可靠性和效率做出贡献,满足自主系统的关键预执行验证需求。相关代码可在“链接”获取。
Key Takeaways
- 研究领域聚焦于机器人技术中的任务规划验证。
- 提出一种基于大型语言模型的自动验证架构。
- 架构包含两个关键步骤:自然语言指令转换为线性时序逻辑和动作序列的全面分析。
- 利用LLM的推理能力评估逻辑连贯性。
- 架构能够在模拟器或真实环境中进行预执行验证。
- 测试证明了该模块在多种复杂任务中的适用性。
- 该研究有助于提高任务规划的可靠性和效率。
点此查看论文截图







What Shapes User Trust in ChatGPT? A Mixed-Methods Study of User Attributes, Trust Dimensions, Task Context, and Societal Perceptions among University Students
Authors:Kadija Bouyzourn, Alexandra Birch
This mixed-methods inquiry examined four domains that shape university students’ trust in ChatGPT: user attributes, seven delineated trust dimensions, task context, and perceived societal impact. Data were collected through a survey of 115 UK undergraduate and postgraduate students and four complementary semi-structured interviews. Behavioural engagement outweighed demographics: frequent use increased trust, whereas self-reported understanding of large-language-model mechanics reduced it. Among the dimensions, perceived expertise and ethical risk were the strongest predictors of overall trust; ease of use and transparency had secondary effects, while human-likeness and reputation were non-significant. Trust was highly task-contingent; highest for coding and summarising, lowest for entertainment and citation generation, yet confidence in ChatGPT’s referencing ability, despite known inaccuracies, was the single strongest correlate of global trust, indicating automation bias. Computer-science students surpassed peers only in trusting the system for proofreading and writing, suggesting technical expertise refines rather than inflates reliance. Finally, students who viewed AI’s societal impact positively reported the greatest trust, whereas mixed or negative outlooks dampened confidence. These findings show that trust in ChatGPT hinges on task verifiability, perceived competence, ethical alignment and direct experience, and they underscore the need for transparency, accuracy cues and user education when deploying LLMs in academic settings.
这项混合方法研究调查了影响大学生对ChatGPT信任程度的四个领域:用户属性、七个划分的信任维度、任务上下文和感知的社会影响。数据是通过一项针对英国115名本科和研究生学生的调查以及四次补充的半结构化访谈收集的。行为参与度超过了人口统计学特征:频繁使用增加了信任度,而自我报告的对大型语言模型机制的理解则降低了信任度。在维度中,感知的专业知识和道德风险是整体信任的最强预测因素;易用性和透明度有次要影响,而人类亲和力和声誉则不具显著性。信任高度依赖于任务;对编码和总结的信任度最高,对娱乐和引用生成的信任度最低。尽管存在已知的不准确之处,但对ChatGPT引用能力的信任仍是全球信任中最强烈的单一相关因素,这显示了自动化偏见。计算机科学专业的学生仅在检查写作方面超越同龄人,这表明技术专业知识会细化而非夸大依赖。最后,那些对人工智能的社会影响持积极看法的学生报告的信任度最高,而混合或消极前景则会削弱信心。这些发现表明,对ChatGPT的信任取决于任务的可验证性、感知的能力、道德观念和直接经验,并强调在学术环境中部署大型语言模型时,需要透明度、准确性提示和用户教育。
论文及项目相关链接
PDF 25 pages, 11 tables, 6 figures
Summary:本研究通过混合方法研究,探讨了影响大学生对ChatGPT信任度的四个领域,包括用户属性、七个划分的信任维度、任务上下文和感知的社会影响。通过调查115名英国本科生和研究生以及四次补充的半结构化访谈收集数据。行为参与度比人口统计学更重要:频繁使用增加了信任度,而对自己对大型语言模型机制的理解减少了信任度。在维度中,感知的专业知识和道德风险是整体信任的最强预测因素;易用性和透明度有次要影响,而人性化和声誉则不具显著性。信任与任务密切相关;编码和总结方面最高,娱乐和引用生成方面最低。尽管存在已知的不准确之处,但对ChatGPT引用能力的信任仍是全球信任的最强烈相关因素,这表明存在自动化偏见。计算机科学专业的学生只在校对和写作方面超过同龄人,这表明技术专业知识会加强而不是夸大依赖。最后,认为人工智能社会影响积极的学生报告了最高的信任度,而混合或负面的看法削弱了信心。这些发现表明,对ChatGPT的信任取决于任务的可验证性、感知的能力、道德和直接经验。强调了在使用语言模型时需要透明度、准确性提示和用户教育的重要性。
Key Takeaways:
- 学生用户属性和行为参与度对ChatGPT的信任度有重要影响。频繁使用会增加信任度,对大型语言模型机制的理解则减少信任度。
- 在七个划分的信任维度中,感知的专业知识和道德风险是整体信任的最强预测因素。
- 任务上下文对ChatGPT的信任度有很大影响,编码和总结任务的信任度最高,娱乐和引用生成任务的信任度最低。
- 尽管存在准确性问题,但对ChatGPT引用能力的信任是全球信任的最强烈相关因素,这表明存在自动化偏见。
- 计算机科学专业的学生在证明阅读和写作方面对ChatGPT的信任度较高,表明技术专业知识有助于加强依赖。
- 学生对AI的社会影响的看法影响他们对ChatGPT的信任度。积极的社会影响观点会导致更高的信任度。
点此查看论文截图


MoLink: Distributed and Efficient Serving Framework for Large Models
Authors:Lewei Jin, Yongqi Chen, Kui Zhang, Yifan Zhuo, Yi Gao, Bowei Yang, Zhengong Cai, Wei Dong
Large language models represent a groundbreaking shift in generative AI. Yet, these advances come with a significant challenge: the high cost of model serving. To mitigate these costs, consumer-grade GPUs emerge as a more affordable alternative. This presents an opportunity for more cost-efficient LLM serving by leveraging these GPUs. However, it is non-trivial to achieve high-efficiency LLM serving on consumer-grade GPUs, mainly due to two challenges: 1) these GPUs are often deployed in limited network conditions; 2) these GPUs often exhibit heterogeneity in host systems. To address these challenges, we present MoLink, a distributed LLM serving system for large models. It incorporates several key techniques, enabling efficient LLM serving on heterogeneous and weakly connected consumer-grade GPUs. Our experiments demonstrate that it achieves throughput improvements of up to 458% and cost-profit margin improvements of up to 151%, compared to state-of-the-art systems. MoLink allows users on Windows, Linux, and containerized VMs to seamlessly integrate GPUs with just a few lines of code over Ethernet or public networks. Currently, it supports 18 mainstream architectures of open-source large language models.
大型语言模型代表了生成式人工智能的突破性进展。然而,这些进展伴随着一个巨大的挑战:模型服务的成本高昂。为了缓解这些成本,消费级GPU作为一种更经济的替代方案而出现。这为利用这些GPU实现更具成本效益的大型语言模型服务提供了机会。然而,在消费级GPU上实现高效的大型语言模型服务并非易事,主要面临两个挑战:1)这些GPU通常在网络条件有限的情况下部署;2)这些GPU在主机系统中经常表现出异质性。为了解决这些挑战,我们推出了MoLink,这是一个用于大型模型的分布式大型语言模型服务系统。它采用了几种关键技术,能够在异构和连接弱的消费级GPU上实现高效的大型语言模型服务。我们的实验表明,与最先进的系统相比,它实现了高达458%的吞吐量改进和高达151%的成本利润率改进。MoLink允许Windows、Linux和容器化VM的用户通过以太网或公共网络只需几行代码即可无缝集成GPU。目前,它支持18种主流开源大型语言模型架构。
论文及项目相关链接
Summary
大型语言模型(LLM)的突破带来了生成式AI的重大变革,但同时也面临着模型服务的高成本挑战。消费者级GPU作为更经济的选择,为降低LLM服务成本提供了机会。然而,在消费者级GPU上实现高效的LLM服务并非易事,主要面临网络条件有限和设备系统异质性的两大挑战。为解决这些问题,我们提出了MoLink分布式LLM服务系统,通过几项关键技术实现了在异构和弱连接的消费者级GPU上的高效LLM服务。实验表明,与现有系统相比,MoLink的吞吐量提升可达458%,成本利润率提升可达151%。它支持Windows、Linux和容器化VM,只需几行代码即可通过以太网或公共网络无缝集成GPU,并且兼容18种主流的开源大型语言模型架构。
Key Takeaways
- 大型语言模型(LLM)推动了生成式AI的进步,但模型服务成本高。
- 消费者级GPU为降低LLM服务成本提供了机会。
- 在消费者级GPU上实现高效LLM服务面临网络条件有限和设备系统异质性两大挑战。
- MoLink系统通过几项关键技术解决了这些挑战,实现了高效LLM服务。
- MoLink系统吞吐量提升显著,成本利润率也有明显提升。
- MoLink支持Windows、Linux和容器化VM,易于集成GPU。
点此查看论文截图







A Comparative Study of Specialized LLMs as Dense Retrievers
Authors:Hengran Zhang, Keping Bi, Jiafeng Guo
While large language models (LLMs) are increasingly deployed as dense retrievers, the impact of their domain-specific specialization on retrieval effectiveness remains underexplored. This investigation systematically examines how task-specific adaptations in LLMs influence their retrieval capabilities, an essential step toward developing unified retrievers capable of handling text, code, images, and multimodal content. We conduct extensive experiments with eight Qwen2.5 7B LLMs, including base, instruction-tuned, code/math-specialized, long reasoning, and vision-language models across zero-shot retrieval settings and the supervised setting. For the zero-shot retrieval settings, we consider text retrieval from the BEIR benchmark and code retrieval from the CoIR benchmark. Further, to evaluate supervised performance, all LLMs are fine-tuned on the MS MARCO dataset. We find that mathematical specialization and the long reasoning capability cause consistent degradation in three settings, indicating conflicts between mathematical reasoning and semantic matching. The vision-language model and code-specialized LLMs demonstrate superior zero-shot performance compared to other LLMs, even surpassing BM25 on the code retrieval task, and maintain comparable performance to base LLMs in supervised settings. These findings suggest promising directions for the unified retrieval task leveraging cross-domain and cross-modal fusion.
随着大型语言模型(LLM)越来越多地被部署为密集检索器,其针对特定领域的专业化对检索效果的影响尚未得到充分探索。这项研究系统地探讨了LLM中的任务特定适应如何影响其检索能力,这是朝着开发能够处理文本、代码、图像和多模态内容的统一检索器迈出的重要一步。我们在八个Qwen2.5 7B LLM上进行了广泛实验,包括基础模型、指令调优模型、针对代码/数学的专用模型、长期推理模型和视觉语言模型,涵盖了零射击检索设置和有监督设置。对于零射击检索设置,我们考虑从BEIR基准测试中进行文本检索,从CoIR基准测试中进行代码检索。此外,为了评估监督性能,所有LLM都在MS MARCO数据集上进行微调。我们发现数学专业化和长期推理能力会在三种设置下导致持续的退化,表明数学推理和语义匹配之间存在冲突。视觉语言模型和针对代码专用的LLM在零射击场景下的性能表现优于其他LLM,甚至在代码检索任务上超越了BM25,并且在有监督设置下保持与基础LLM相当的性能。这些发现表明,利用跨域和跨模态融合的统一检索任务具有广阔的发展前景。
论文及项目相关链接
PDF Accepted by CCIR25 and published by Springer LNCS or LNAI
Summary
大型语言模型(LLM)作为密集检索器的应用越来越广泛,但其领域特定专业化对检索效果的影响尚未得到充分研究。本研究系统地探讨了LLM的任务特定适应性对其检索能力的影响,这是开发能够处理文本、代码、图像和多模态内容的统一检索器的关键步骤。通过对八种不同专业领域的LLM进行广泛实验,包括基础模型、指令调优模型、代码/数学专业模型、逻辑推理模型和视觉语言模型,在零样本检索设置和监管设置下,发现数学专业化和逻辑推理能力在三中设置下表现出持续退步。相反,视觉语言模型和代码专业LLM在零样本表现优于其他LLM,在代码检索任务上甚至超过了BM25,并在监督设置下保持了与基础模型相当的性能。这些发现表明,利用跨域和跨模态融合的统一检索任务具有广阔的发展前景。
Key Takeaways
- 大型语言模型(LLM)作为密集检索器的应用越来越广泛,但其领域特定专业化对检索效果的影响尚未充分研究。
- LLM的任务特定适应性对其检索能力有重要影响。
- 数学专业化和逻辑推理能力在某些设置下可能导致LLM的检索性能下降。
- 视觉语言模型和代码专业LLM在零样本检索中表现优异,特别是在代码检索任务上。
- 视觉语言模型和代码专业LLM在监督设置下的性能与基础模型相当。
- 统一检索任务需要考虑到跨域和跨模态融合的重要性。
点此查看论文截图

Demystifying ChatGPT: How It Masters Genre Recognition
Authors:Subham Raj, Sriparna Saha, Brijraj Singh, Niranjan Pedanekar
The introduction of ChatGPT has garnered significant attention within the NLP community and beyond. Previous studies have demonstrated ChatGPT’s substantial advancements across various downstream NLP tasks, highlighting its adaptability and potential to revolutionize language-related applications. However, its capabilities and limitations in genre prediction remain unclear. This work analyzes three Large Language Models (LLMs) using the MovieLens-100K dataset to assess their genre prediction capabilities. Our findings show that ChatGPT, without fine-tuning, outperformed other LLMs, and fine-tuned ChatGPT performed best overall. We set up zero-shot and few-shot prompts using audio transcripts/subtitles from movie trailers in the MovieLens-100K dataset, covering 1682 movies of 18 genres, where each movie can have multiple genres. Additionally, we extended our study by extracting IMDb movie posters to utilize a Vision Language Model (VLM) with prompts for poster information. This fine-grained information was used to enhance existing LLM prompts. In conclusion, our study reveals ChatGPT’s remarkable genre prediction capabilities, surpassing other language models. The integration of VLM further enhances our findings, showcasing ChatGPT’s potential for content-related applications by incorporating visual information from movie posters.
ChatGPT的引入在NLP领域内外都引起了极大的关注。先前的研究已经证明了ChatGPT在各种下游NLP任务上的巨大进步,突出了其适应性和改变语言相关应用的可能性。然而,其在体裁预测方面的能力和局限性尚不清楚。本研究使用MovieLens-100K数据集分析了三款大型语言模型(LLM)的体裁预测能力。我们的研究发现,未经微调的ChatGPT在其他LLM中表现最佳,而经过微调的ChatGPT总体表现最佳。我们使用MovieLens-100K数据集中的电影预告片音频转录/字幕来设置零样本和少样本提示,涵盖了18个体裁的1682部电影,每部电影可能有多个体裁。此外,我们还通过提取IMDb电影海报来扩展我们的研究,使用视觉语言模型(VLM)的提示进行海报信息分析。这种精细的信息被用来增强现有的LLM提示。总之,我们的研究表明,ChatGPT在体裁预测方面表现出卓越的能力,超越了其他语言模型。VLM的集成进一步增强了我们的发现,展示了ChatGPT通过结合电影海报的视觉信息在内容相关应用中的潜力。
论文及项目相关链接
Summary
ChatGPT在NLP领域引起了广泛关注,并展现出强大的性能。本研究使用MovieLens-100K数据集分析了三种大型语言模型(LLM)的体裁预测能力。结果显示,未经微调ChatGPT表现优于其他LLM,而经过微调的ChatGPT表现最佳。此外,本研究还结合了视觉语言模型(VLM),通过电影海报的提示信息增强了LLM的提示,进一步突出了ChatGPT在内容相关应用中的潜力。
Key Takeaways
- ChatGPT在NLP领域受到广泛关注,其性能显著。
- 研究采用MovieLens-100K数据集分析了三种LLM的体裁预测能力。
- 未经调教的ChatGPT在体裁预测方面表现优于其他LLM。
- 经过调教的ChatGPT表现最佳,体现了其强大的潜力。
- 研究结合了VLM,通过电影海报的提示信息增强了LLM的提示。
- ChatGPT在内容相关应用中具有巨大潜力,能够结合视觉信息进行体裁预测。
点此查看论文截图






From Query to Explanation: Uni-RAG for Multi-Modal Retrieval-Augmented Learning in STEM
Authors:Xinyi Wu, Yanhao Jia, Luwei Xiao, Shuai Zhao, Fengkuang Chiang, Erik Cambria
In AI-facilitated teaching, leveraging various query styles to interpret abstract educational content is crucial for delivering effective and accessible learning experiences. However, existing retrieval systems predominantly focus on natural text-image matching and lack the capacity to address the diversity and ambiguity inherent in real-world educational scenarios. To address this limitation, we develop a lightweight and efficient multi-modal retrieval module, named Uni-Retrieval, which extracts query-style prototypes and dynamically matches them with tokens from a continually updated Prompt Bank. This Prompt Bank encodes and stores domain-specific knowledge by leveraging a Mixture-of-Expert Low-Rank Adaptation (MoE-LoRA) module and can be adapted to enhance Uni-Retrieval’s capability to accommodate unseen query types at test time. To enable natural language educational content generation, we integrate the original Uni-Retrieval with a compact instruction-tuned language model, forming a complete retrieval-augmented generation pipeline named Uni-RAG. Given a style-conditioned query, Uni-RAG first retrieves relevant educational materials and then generates human-readable explanations, feedback, or instructional content aligned with the learning objective. Experimental results on SER and other multi-modal benchmarks show that Uni-RAG outperforms baseline retrieval and RAG systems in both retrieval accuracy and generation quality, while maintaining low computational cost. Our framework provides a scalable, pedagogically grounded solution for intelligent educational systems, bridging retrieval and generation to support personalized, explainable, and efficient learning assistance across diverse STEM scenarios.
在人工智能辅助教学中,利用不同的查询风格来解释抽象的教育内容对于提供有效且可访问的学习体验至关重要。然而,现有的检索系统主要关注自然语言文本与图像的匹配,缺乏应对现实世界教育场景中固有的多样性和模糊性的能力。为了解决这一局限性,我们开发了一个轻便高效的多模态检索模块,名为Uni-Retrieval。该模块能够提取查询样式原型,并与来自持续更新的Prompt Bank中的标记动态匹配。Prompt Bank通过利用混合专家低秩适应(MoE-LoRA)模块来编码和存储领域特定知识,并且能够适应以增强Uni-Retrieval在测试时适应未见过的查询类型的能力。为了实现自然语言教育内容的生成,我们将原始的Uni-Retrieval与经过指令调整的小型语言模型集成,形成了一个完整的检索增强生成管道,称为Uni-RAG。给定风格控制的查询,Uni-RAG首先检索相关的教育材料,然后生成与学习目标对齐的可读解释、反馈或指令内容。在SER和其他多模态基准测试上的实验结果表明,Uni-RAG在检索准确性和生成质量方面都优于基线检索和RAG系统,同时保持较低的计算成本。我们的框架为智能教育系统提供了一个可扩展的、以教学法为基础解决方案,通过桥接检索和生成来支持个性化的、可解释的、高效的学习辅助,涵盖多样化的STEM场景。
论文及项目相关链接
总结
在AI辅助教学领域,采用不同查询风格来解读抽象的教育内容对于提供有效且可访问的学习体验至关重要。然而,现有的检索系统主要关注自然文本图像匹配,缺乏应对现实世界教育场景中多样性和模糊性的能力。为解决此局限,我们开发了一个轻便高效的多模式检索模块,名为Uni-Retrieval,该模块能够提取查询样式原型并与来自持续更新的Prompt Bank的标记进行动态匹配。Prompt Bank通过利用混合专家低阶适应(MoE-LoRA)模块来编码和存储特定领域的知识,并可在测试时适应以增强Uni-Retrieval适应未见查询类型的能力。为实现自然语言教育内容生成,我们将原始的Uni-Retrieval与紧凑的指令调整语言模型集成,形成一个完整的检索增强生成管道,称为Uni-RAG。给定风格条件下的查询,Uni-RAG首先检索相关的教育材料,然后生成与学习目标对齐的人类可读解释、反馈或教学内容。在SER和其他多模式基准测试上的实验结果表明,Uni-RAG在检索准确性和生成质量方面均优于基线检索和RAG系统,同时保持较低的计算成本。我们的框架为智能教育系统提供了可扩展的、以教学为基础解决方案,通过桥接检索和生成来支持个性化、可解释和高效的学习辅助,适用于各种STEM场景。
要点
- 在AI辅助教学中,利用不同查询风格解读抽象教育内容至关重要。
- 现有检索系统主要关注自然文本图像匹配,缺乏应对教育场景多样性和模糊性的能力。
- Uni-Retrieval是一种新的多模式检索模块,可以提取查询样式原型并与Prompt Bank中的标记动态匹配。
- Prompt Bank利用MoE-LoRA模块编码和存储特定领域知识,并适应增强Uni-Retrieval的能力。
- Uni-RAG集成了Uni-Retrieval和指令调整语言模型,形成完整的检索增强生成管道。
- Uni-RAG通过检索相关教育材料和生成人类可读内容来支持个性化、可解释和高效的学习。
点此查看论文截图




ChestGPT: Integrating Large Language Models and Vision Transformers for Disease Detection and Localization in Chest X-Rays
Authors:Shehroz S. Khan, Petar Przulj, Ahmed Ashraf, Ali Abedi
The global demand for radiologists is increasing rapidly due to a growing reliance on medical imaging services, while the supply of radiologists is not keeping pace. Advances in computer vision and image processing technologies present significant potential to address this gap by enhancing radiologists’ capabilities and improving diagnostic accuracy. Large language models (LLMs), particularly generative pre-trained transformers (GPTs), have become the primary approach for understanding and generating textual data. In parallel, vision transformers (ViTs) have proven effective at converting visual data into a format that LLMs can process efficiently. In this paper, we present ChestGPT, a deep-learning framework that integrates the EVA ViT with the Llama 2 LLM to classify diseases and localize regions of interest in chest X-ray images. The ViT converts X-ray images into tokens, which are then fed, together with engineered prompts, into the LLM, enabling joint classification and localization of diseases. This approach incorporates transfer learning techniques to enhance both explainability and performance. The proposed method achieved strong global disease classification performance on the VinDr-CXR dataset, with an F1 score of 0.76, and successfully localized pathologies by generating bounding boxes around the regions of interest. We also outline several task-specific prompts, in addition to general-purpose prompts, for scenarios radiologists might encounter. Overall, this framework offers an assistive tool that can lighten radiologists’ workload by providing preliminary findings and regions of interest to facilitate their diagnostic process.
随着对医学影像服务依赖程度的不断增加,全球对放射科医师的需求迅速增长,然而放射科医师的供给却跟不上这一需求。计算机视觉和图像处理技术的进步为解决这一差距提供了巨大潜力,通过增强放射科医师的能力和提高诊断准确性来实现。大型语言模型(LLM),特别是预训练生成式转换器(GPT),已成为理解和生成文本数据的主要方法。同时,视觉转换器(ViT)在将视觉数据转换为LLM可以高效处理的形式方面表现出色。在本文中,我们提出了ChestGPT,这是一个深度学习框架,它将EVA ViT与Llama 2 LLM相结合,用于对胸部X射线图像中的疾病进行分类并定位感兴趣区域。ViT将X射线图像转换为令牌,然后这些令牌与工程提示一起输入到LLM中,以实现疾病的联合分类和定位。这种方法结合了迁移学习技术,以提高可解释性和性能。所提出的方法在VinDr-CXR数据集上取得了强大的全球疾病分类性能,F1分数为0.76,并通过围绕感兴趣区域生成边界框成功地定位了病理。除了通用提示外,我们还概述了针对放射科医生可能遇到的各种情景的特定任务提示。总的来说,该框架提供了一个辅助工具,可以通过提供初步发现和感兴趣区域来减轻放射科医生的工作量,从而帮助他们进行诊断过程。
论文及项目相关链接
PDF 8 pages, 5 figures, 4 tables
Summary
随着对医学影像服务依赖度不断增加,全球对放射科医生的需求迅速增长,而放射科医生供给不足。计算机视觉和图像处理技术的进展为解决这一差距提供了巨大潜力,通过增强放射科医生的能力和提高诊断准确性。本文介绍了一个深度学习框架ChestGPT,它结合了EVA ViT和Llama 2 LLM,用于对胸部X射线图像的疾病进行分类并定位感兴趣区域。该框架使用ViT将X射线图像转换为令牌,然后与工程提示一起输入LLM,实现疾病的联合分类和定位。该方法采用迁移学习技术,提高了可解释性和性能。在VinDr-CXR数据集上,该方法实现了强大的全球疾病分类性能,F1分数为0.76,并成功定位了病理区域。总体而言,该框架为放射科医生提供了一种辅助工具,可通过提供初步检查结果和感兴趣区域,减轻他们的工作量并促进诊断过程。
Key Takeaways
- 全球对放射科医生的需求迅速增长,而供给不足,需要新技术协助解决这一差距。
- 计算机视觉和图像处理技术有助于提高放射科医生的诊断能力和准确性。
- LLMs(特别是GPTs)和ViTs在处理医学图像数据方面表现出巨大潜力。
- ChestGPT是一个结合EVA ViT和Llama 2 LLM的深度学习框架,用于对胸部X射线图像的疾病进行分类和定位。
- 该框架使用迁移学习技术来提高性能并增强解释性。
- 在VinDr-CXR数据集上,ChestGPT实现了F1分数为0.76的出色性能。
点此查看论文截图




Beyond SEO: A Transformer-Based Approach for Reinventing Web Content Optimisation
Authors:Florian Lüttgenau, Imar Colic, Gervasio Ramirez
The rise of generative AI search engines is disrupting traditional SEO, with Gartner predicting 25% reduction in conventional search usage by 2026. This necessitates new approaches for web content visibility in AI-driven search environments. We present a domain-specific fine-tuning approach for Generative Engine Optimization (GEO) that transforms web content to improve discoverability in large language model outputs. Our method fine-tunes a BART-base transformer on synthetically generated training data comprising 1,905 cleaned travel website content pairs. Each pair consists of raw website text and its GEO-optimized counterpart incorporating credible citations, statistical evidence, and improved linguistic fluency. We evaluate using intrinsic metrics (ROUGE-L, BLEU) and extrinsic visibility assessments through controlled experiments with Llama-3.3-70B. The fine-tuned model achieves significant improvements over baseline BART: ROUGE-L scores of 0.249 (vs. 0.226) and BLEU scores of 0.200 (vs. 0.173). Most importantly, optimized content demonstrates substantial visibility gains in generative search responses with 15.63% improvement in absolute word count and 30.96% improvement in position-adjusted word count metrics. This work provides the first empirical demonstration that targeted transformer fine-tuning can effectively enhance web content visibility in generative search engines with modest computational resources. Our results suggest GEO represents a tractable approach for content optimization in the AI-driven search landscape, offering concrete evidence that small-scale, domain-focused fine-tuning yields meaningful improvements in content discoverability.
生成式AI搜索引擎的崛起正在颠覆传统的SEO,据加特纳预测,到2026年,传统搜索使用率将减少25%。这要求在AI驱动的搜索环境中采用新的方法来提高网页内容的可见性。我们提出了一种针对生成引擎优化(GEO)的特定领域微调方法,该方法可以转换网页内容,以提高在大语言模型输出中的可发现性。我们的方法对基于BART的基础转换器进行微调,使用合成生成的训练数据,包含1905组经过清理的旅行网站内容。每对内容都包含原始网站文本和其经过GEO优化的对应文本,后者融入了可信的引用、统计证据和更流畅的语言表达。我们采用内在指标(ROUGE-L,BLEU)和通过Llama-3.3-70B进行的外在可见性评估实验来评估其效果。经过微调的模型在基线BART上实现了显著改进:ROUGE-L得分为0.249(对比基线模型的0.226),BLEU得分为0.200(对比基线模型的0.173)。最重要的是,优化后的内容在生成式搜索响应中显示出显著的可见性提升,绝对字数增加了15.63%,位置调整后的字数指标增加了30.96%。这项工作首次实证了有针对性的转换器微调可以有效地提高在生成式搜索引擎中的网页内容可见性,并且只需要适度的计算资源。我们的结果表明,GEO是AI驱动搜索环境中内容优化的可行方法,提供了具体证据表明小规模、针对特定领域的微调可以在内容可发现性方面实现有意义的改进。
论文及项目相关链接
PDF 9 pages, 3 figures
摘要
随着生成式AI搜索引擎的兴起,传统SEO面临颠覆。预计到2026年,传统搜索使用率将减少25%。为适应AI驱动搜索环境,提出领域特定的微调方法,用于生成式引擎优化(GEO)。通过对合成训练数据的1905组旅游网站内容的清洗和配对,对BART基础转换器进行微调。每对内容包含原始网站文本和经过GEO优化的对应文本,同时融入可信引用、统计证据和改进的语言流畅性。通过内在度量(ROUGE-L,BLEU)和外在可见性评估实验,对比Llama-3.3-70B模型,微调模型在基线BART上实现了显著改进:ROUGE-L得分0.249(对比0.226),BLEU得分0.200(对比0.173)。最重要的是,优化内容在生成式搜索响应中表现出更高的可见性,绝对词数增加15.63%,位置调整词数增加30.96%。本研究首次实证,有针对性的转换器微调能有效提高AI驱动搜索引擎中网页内容的可见性,利用有限的计算资源即可实现内容优化。
关键见解
- 生成式AI搜索引擎的崛起正在改变传统的SEO策略。
- 到2026年,预计传统搜索的使用率将减少25%。
- 提出了一种针对特定领域的微调方法——生成式引擎优化(GEO),以适应AI驱动的搜索环境。
- 通过合成训练数据对BART基础转换器进行微调,提高了网站内容在搜索引擎中的可见性。
- 优化后的内容在生成式搜索响应中表现出更高的可见性,绝对词数和位置调整词数均有显著提高。
- 研究显示,有针对性的转换器微调可以有效提高网页内容在AI驱动搜索引擎中的可见性。
点此查看论文截图



BERT4Traj: Transformer Based Trajectory Reconstruction for Sparse Mobility Data
Authors:Hao Yang, Angela Yao, Christopher Whalen, Gengchen Mai
Understanding human mobility is essential for applications in public health, transportation, and urban planning. However, mobility data often suffers from sparsity due to limitations in data collection methods, such as infrequent GPS sampling or call detail record (CDR) data that only capture locations during communication events. To address this challenge, we propose BERT4Traj, a transformer based model that reconstructs complete mobility trajectories by predicting hidden visits in sparse movement sequences. Inspired by BERT’s masked language modeling objective and self_attention mechanisms, BERT4Traj leverages spatial embeddings, temporal embeddings, and contextual background features such as demographics and anchor points. We evaluate BERT4Traj on real world CDR and GPS datasets collected in Kampala, Uganda, demonstrating that our approach significantly outperforms traditional models such as Markov Chains, KNN, RNNs, and LSTMs. Our results show that BERT4Traj effectively reconstructs detailed and continuous mobility trajectories, enhancing insights into human movement patterns.
理解人类移动性对于公共卫生、交通运输和城市规划等领域的应用至关重要。然而,由于数据收集方法的局限性,如GPS采样频率低或仅能在通信事件期间捕获位置的呼叫详细记录(CDR)数据,移动性数据常常存在稀疏性问题。为了应对这一挑战,我们提出了BERT4Traj,这是一个基于变压器的模型,通过预测稀疏移动序列中的隐藏访问点来重建完整的移动轨迹。BERT4Traj受到BERT的掩码语言建模目标和自我注意机制的启发,利用空间嵌入、时间嵌入以及如人口统计学和锚点等上下文背景特征。我们在乌干达坎帕拉收集的真实世界CDR和GPS数据集上评估了BERT4Traj,结果表明我们的方法显著优于传统模型,如马尔可夫链、KNN、RNNs和LSTM。我们的结果表明,BERT4Traj能够有效地重建详细且连续的移动轨迹,从而加深对人类移动模式的洞察。
论文及项目相关链接
PDF This paper was accepted at GIScience 2025
摘要
文本指出理解人类移动性对于公共卫生、交通运输和城市规划等应用至关重要。然而,由于数据收集方法的局限性,如GPS采样不频繁或仅能在通信事件期间捕获位置的呼叫详细记录(CDR)数据等,移动性数据常常存在稀疏性问题。为应对这一挑战,文本提出了BERT4Traj模型,它通过预测稀疏移动序列中的隐藏访问点来重建完整的移动轨迹。BERT4Traj借鉴了BERT的掩码语言建模目标和自我关注机制,并利用空间嵌入、时间嵌入以及背景特征如人口统计学和锚点等。文本通过乌干达坎帕拉市的现实CDR和GPS数据集对BERT4Traj进行评估,证明了其在传统的Markov链、KNN、RNN和LSTM模型中的优越性。结果显示,BERT4Traj能有效重建详细且连续的移动轨迹,有助于深入了解人类移动模式。
关键见解
- 理解人类移动性对于多个领域的应用至关重要,包括公共卫生、交通运输和城市规划。
- 移动性数据经常因数据收集方法的局限性而稀疏。
- BERT4Traj是一种基于变压器的模型,能够重建完整的移动轨迹,通过预测稀疏移动序列中的隐藏访问点。
- BERT4Traj借鉴了BERT的掩码语言建模目标和自我关注机制。
- BERT4Traj利用空间嵌入、时间嵌入以及背景特征如人口统计学和锚点。
- 在现实世界的CDR和GPS数据集上,BERT4Traj的表现显著优于传统模型。
- BERT4Traj能重建详细且连续的移动轨迹,有助于深入了解人类移动模式。
点此查看论文截图




AIGI-Holmes: Towards Explainable and Generalizable AI-Generated Image Detection via Multimodal Large Language Models
Authors:Ziyin Zhou, Yunpeng Luo, Yuanchen Wu, Ke Sun, Jiayi Ji, Ke Yan, Shouhong Ding, Xiaoshuai Sun, Yunsheng Wu, Rongrong Ji
The rapid development of AI-generated content (AIGC) technology has led to the misuse of highly realistic AI-generated images (AIGI) in spreading misinformation, posing a threat to public information security. Although existing AIGI detection techniques are generally effective, they face two issues: 1) a lack of human-verifiable explanations, and 2) a lack of generalization in the latest generation technology. To address these issues, we introduce a large-scale and comprehensive dataset, Holmes-Set, which includes the Holmes-SFTSet, an instruction-tuning dataset with explanations on whether images are AI-generated, and the Holmes-DPOSet, a human-aligned preference dataset. Our work introduces an efficient data annotation method called the Multi-Expert Jury, enhancing data generation through structured MLLM explanations and quality control via cross-model evaluation, expert defect filtering, and human preference modification. In addition, we propose Holmes Pipeline, a meticulously designed three-stage training framework comprising visual expert pre-training, supervised fine-tuning, and direct preference optimization. Holmes Pipeline adapts multimodal large language models (MLLMs) for AIGI detection while generating human-verifiable and human-aligned explanations, ultimately yielding our model AIGI-Holmes. During the inference stage, we introduce a collaborative decoding strategy that integrates the model perception of the visual expert with the semantic reasoning of MLLMs, further enhancing the generalization capabilities. Extensive experiments on three benchmarks validate the effectiveness of our AIGI-Holmes.
人工智能生成内容(AIGC)技术的快速发展导致高度逼真的AI生成图像(AIGI)被滥用,传播错误信息,对公众信息安全构成威胁。尽管现有的AIGI检测技术通常有效,但它们面临两个问题:1)缺乏可验证的人为解释;2)最新技术中缺乏通用性。为了解决这些问题,我们引入了一个大规模且综合的数据集Holmes-Set,其中包括Holmes-SFTSet,这是一个带有解释指令的数据集,解释图像是否是AI生成的,以及Holmes-DPOSet,这是一个与人为偏好对齐的数据集。我们的工作引入了一种高效的数据注释方法,称为多专家陪审团,通过结构化的MLLM解释和质量控制来提高数据生成效率,质量控制包括跨模型评估、专家缺陷过滤和人为偏好修改。此外,我们提出了精心设计的三阶段训练框架Holmes Pipeline,包括视觉专家预训练、监督微调以及直接偏好优化。Holmes Pipeline使多模态大型语言模型(MLLMs)适应于AIGI检测,同时生成可验证的、与人为偏好对齐的解释,最终生成我们的模型AIGI-Holmes。在推理阶段,我们引入了一种协同解码策略,将视觉专家的模型感知与MLLMs的语义推理相结合,进一步提高模型的通用性。在三个基准上的大量实验验证了我们的AIGI-Holmes的有效性。
论文及项目相关链接
PDF Accepted to ICCV 2025
Summary
人工智能生成内容(AIGC)技术的快速发展导致AI生成图像(AIGI)被滥用,传播错误信息,威胁公众信息安全。针对现有AIGI检测技术在可验证解释性和最新技术普及性方面的问题,我们引入了大规模综合数据集Holmes-Set,包括带解释的指令调整数据集Holmes-SFTSet和人类对齐偏好数据集Holmes-DPOSet。我们提出一种高效的数据标注方法——多元专家陪审团,通过结构化MLLM解释和质量控制增强数据生成,包括跨模型评估、专家缺陷过滤和人类偏好修正。我们还设计了精心设计的三阶段训练框架Holmes Pipeline,包括视觉专家预训练、监督微调以及直接偏好优化等。我们的模型AIGI-Holmes在三个基准测试上进行了广泛实验验证,实现了人类可验证和符合人类偏好的解释。在推理阶段,我们采用协同解码策略,将视觉专家的感知与MLLM的语义推理相结合,进一步提高模型的泛化能力。
Key Takeaways
- AI-generated content (AIGC)技术的快速发展引发公众信息安全威胁,主要因为AI-generated images (AIGI)被滥用以传播错误信息。
- 现有AIGI检测技术虽一般有效,但缺乏人类可验证的解释性和最新技术的普及性。
- 引入大规模综合数据集Holmes-Set,包括带解释的指令调整数据集和人类对齐偏好数据集,以改善上述问题。
- 提出高效数据标注方法——多元专家陪审团,通过结构化MLLM解释和质量控制增强数据生成。
- 设计三阶段训练框架Holmes Pipeline,包括视觉专家预训练、监督微调以及直接偏好优化等,以训练AI模型进行AIGI检测。
- 在推理阶段采用协同解码策略,结合视觉专家感知与MLLM语义推理,提高模型的泛化能力。
点此查看论文截图





