⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-11-18 更新
Human-AI collaborative autonomous synthesis with pulsed laser deposition for remote epitaxy
Authors:Asraful Haque, Daniel T. Yimam, Jawad Chowdhury, Ralph Bulanadi, Ivan Vlassiouk, John Lasseter, Sujoy Ghosh, Christopher M. Rouleau, Kai Xiao, Yongtao Liu, Eva Zarkadoula, Rama K. Vasudevan, Sumner B. Harris
Autonomous laboratories typically rely on data-driven decision-making, occasionally with human-in-the-loop oversight to inject domain expertise. Fully leveraging AI agents, however, requires tightly coupled, collaborative workflows spanning hypothesis generation, experimental planning, execution, and interpretation. To address this, we develop and deploy a human-AI collaborative (HAIC) workflow that integrates large language models for hypothesis generation and analysis, with collaborative policy updates driving autonomous pulsed laser deposition (PLD) experiments for remote epitaxy of BaTiO$_3$/graphene. HAIC accelerated the hypothesis formation and experimental design and efficiently mapped the growth space to graphene-damage. In situ Raman spectroscopy reveals that chemistry drives degradation while the highest energy plume components seed defects, identifying a low-O$_2$ pressure low-temperature synthesis window that preserves graphene but is incompatible with optimal BaTiO$_3$ growth. Thus, we show a two-step Ar/O$_2$ deposition is required to exfoliate ferroelectric BaTiO$_3$ while maintaining a monolayer graphene interlayer. HAIC stages human insight with AI reasoning between autonomous batches to drive rapid scientific progress, providing an evolution to many existing human-in-the-loop autonomous workflows.
自主实验室通常依赖于数据驱动的决策制定,偶尔会有人工参与监督以注入领域专业知识。然而,要充分利用AI代理,需要紧密耦合、协作的工作流程,涵盖假设生成、实验规划、执行和解释。为了解决这一问题,我们开发并部署了一种人机协同(HAIC)工作流程,该流程整合大型语言模型用于假设生成和分析,通过协同政策更新驱动自主脉冲激光沉积(PLD)实验,用于远程外延生长BaTiO3/石墨烯。HAIC加速了假设形成和实验设计,有效地映射了石墨烯损伤的生长空间。原位拉曼光谱表明,化学驱动降解,而最高能量的羽流成分产生缺陷,确定了一个低氧压低温合成窗口,该窗口可保留石墨烯但与最佳BaTiO3生长不兼容。因此,我们显示需要两步Ar/O2沉积来剥离铁电BaTiO3同时保持单层石墨烯插层。HAIC阶段将人类见解与AI推理相结合,用于驱动自主批次之间的快速科学进步,为许多现有的人工参与监督的自主工作流程提供了进化。
论文及项目相关链接
Summary
自主实验室通常依赖数据驱动决策,有时需要人为介入以注入领域专业知识。为了实现AI的最大化利用,我们需要在假设生成、实验规划、执行和解释之间构建紧密协作的工作流程。我们开发并部署了一种人机协同(HAIC)工作流程,整合大型语言模型进行假设生成和分析,协同政策更新驱动自主脉冲激光沉积(PLD)实验,用于远程外延生长BaTiO3/石墨烯。人机协同加快了假设形成和实验设计,有效映射了石墨烯损伤的生长空间。原位拉曼光谱表明化学驱动降解,而高能等离子体成分会引发缺陷,确定了在低氧压和低温下合成能够保持石墨烯的合成窗口,但不适用于BaTiO3的最佳生长条件。因此,展示了一种需要两步的Ar/O2沉积工艺来剥离铁电BaTiO3并保持单层石墨烯夹层。人机协同阶段将人类洞察力和AI推理融入自主批次实验中,推动了科学研究的快速发展,为许多现有的需要人为介入的自主工作流程提供了升级方案。
Key Takeaways
- 自主实验室通常使用数据驱动决策过程并借助领域专家的人工参与来提升AI效能。
- 人机协同(HAIC)工作流程被开发并应用于实验决策过程,特别是在脉冲激光沉积实验中。
- HAIC加速了假设形成和实验设计,通过映射生长空间优化实验过程。
- 原位拉曼光谱揭示了石墨烯损伤的关键因素包括化学退化和高能等离子体影响。
- 低氧压和低温下的合成窗口有利于保持石墨烯但不利于BaTiO3的最佳生长条件。
- 需要采用两步Ar/O2沉积工艺来剥离铁电BaTiO3并保持单层石墨烯夹层结构。
点此查看论文截图
Bridging Hidden States in Vision-Language Models
Authors:Benjamin Fein-Ashley, Jacob Fein-Ashley
Vision-Language Models (VLMs) are a new family of models that align image content with natural language. Existing approaches typically fuse either (a) early: by mixing tokens/features inside the encoders, or (b) late: by comparing pooled embeddings. Many methods also tie fusion to an autoregressive decoder. However, the hidden states of both modalities already carry rich, modality-specific structure (spatial layout in vision; syntax and semantics in text), so directly aligning these states is a natural way to match what the two modalities “think”. We propose a lightweight fusion module: a few cross-only, bidirectional attention layers placed near the top of both encoders. Each layer projects the vision and text encoder hidden-state sequences into a shared space, attends across modalities, and sends gated residual updates back, with simple stabilizers to improve alignment. The encoders remain non-causal and strong for understanding, while generation stays cleanly decoupled via an optional decoder. Across standard retrieval, VQA, and visual reasoning benchmarks, BRIDGE outperforms comparable VLMs while preserving the bi-encoder efficiency of contrastive models. We make our code publicly available at https://github.com/jfeinashley/BRIDGE.
视觉语言模型(VLMs)是一类新的模型,能够将图像内容与自然语言相结合。现有的方法通常融合(a)早期:通过在编码器内部混合令牌/特征,或(b)后期:通过比较池化嵌入。许多方法还将融合与自回归解码器相关联。然而,两种模式的隐藏状态已经携带了丰富且特定的模式结构(视觉中的空间布局;文本中的语法和语义),因此直接对齐这些状态是匹配两种模式“思考”内容的一种自然方式。我们提出了一种轻量级的融合模块:在两种编码器的顶部附近放置几个仅交叉的双向注意层。每层都将视觉和文本编码器隐藏状态序列投射到共享空间,跨模态注意,并通过简单的稳定器发送门控残差更新以改善对齐。编码器保持非因果性并增强理解能力,而生成则通过可选的解码器保持清晰解耦。在标准检索、视觉问答和视觉推理基准测试中,BRIDGE优于类似的VLMs,同时保留了对比模型的双向编码器效率。我们在https://github.com/jfeinashley/BRIDGE公开我们的代码。
论文及项目相关链接
Summary
视觉语言模型(VLMs)通过融合图像和自然语言内容形成新的模型家族。现有方法通常在编码器内部融合早期或晚期信息,并依赖于自回归解码器进行融合。然而,直接对齐两种模态的隐藏状态是一种自然匹配它们“思考”的方式。本文提出了一种轻量级融合模块,即在两种编码器的顶部放置少量仅跨双向注意力层。这些层将视觉和文本编码器的隐藏状态序列投影到共享空间,跨模态关注并发送门控残差更新。同时添加简单的稳定器以改善对齐效果。该模型在检索、视觉问答和视觉推理标准测试中表现优异,同时保持了对比模型的双向效率。我们的代码公开在:[公开链接](请替换为真实的链接地址)。
Key Takeaways
- VLMs是新的模型家族,通过融合图像和自然语言内容,实现了图像与文本的相互关联。
- 现有融合方法主要包括早期和晚期融合,并且依赖于自回归解码器。
- 直接对齐视觉和文本模态的隐藏状态是一种自然的方式来匹配两者的信息。
- 提出了一种轻量级融合模块,通过跨模态注意力层实现视觉和文本信息的融合。
- 该模型在多个标准测试中表现优异,包括检索、视觉问答和视觉推理等任务。
点此查看论文截图
CVChess: A Deep Learning Framework for Converting Chessboard Images to Forsyth-Edwards Notation
Authors:Luthira Abeykoon, Ved Patel, Gawthaman Senthilvelan, Darshan Kasundra
Chess has experienced a large increase in viewership since the pandemic, driven largely by the accessibility of online learning platforms. However, no equivalent assistance exists for physical chess games, creating a divide between analog and digital chess experiences. This paper presents CVChess, a deep learning framework for converting chessboard images to Forsyth-Edwards Notation (FEN), which is later input into online chess engines to provide you with the best next move. Our approach employs a convolutional neural network (CNN) with residual layers to perform piece recognition from smartphone camera images. The system processes RGB images of a physical chess board through a multistep process: image preprocessing using the Hough Line Transform for edge detection, projective transform to achieve a top-down board alignment, segmentation into 64 individual squares, and piece classification into 13 classes (6 unique white pieces, 6 unique black pieces and an empty square) using the residual CNN. Residual connections help retain low-level visual features while enabling deeper feature extraction, improving accuracy and stability during training. We train and evaluate our model using the Chess Recognition Dataset (ChessReD), containing 10,800 annotated smartphone images captured under diverse lighting conditions and angles. The resulting classifications are encoded as an FEN string, which can be fed into a chess engine to generate the most optimal move
象棋由于在线学习平台的易访问性而在疫情期间观众人数大幅增加。然而,目前尚未有针对实体象棋游戏的相应辅助工具,这造成了模拟与数字象棋体验之间的鸿沟。本文介绍了CVChess,一个深度学习框架,可将象棋棋盘图像转换为Forsyth-Edwards记号法(FEN),然后输入到在线象棋引擎中,为你提供最佳的下一步行动建议。我们的方法采用带有残差层的卷积神经网络(CNN)来执行从智能手机摄像头图像中识别棋子的任务。该系统通过多步骤处理RGB格式的实体象棋棋盘图像:使用霍夫线变换进行边缘检测的图像预处理,以实现从上到下的棋盘对齐的投影变换,将棋盘分割成64个单独的方格,并使用残差CNN将棋子分类为13类(6种独特的白棋子和黑棋子,以及一个空方格)。残差连接有助于保留低级别的视觉特征,同时实现更深的特征提取,从而在训练过程中提高准确性和稳定性。我们使用包含10800张在多种照明条件和角度下拍摄的标注智能手机图像的象棋识别数据集(ChessReD)来训练和评估我们的模型。所得的分类结果编码为FEN字符串,可以输入到象棋引擎中,生成最优质的行动建议。
论文及项目相关链接
Summary
疫情期间,国际象棋观看人数大增,但线上学习平台的便利仅适用于线上国际象棋体验,而现实中的国际象棋仍缺乏相应的辅助工具。本文介绍了CVChess系统,通过深度学习将棋盘图像转换为Forsyth-Edwards记号法(FEN),进而输入到在线国际象棋引擎获得最佳下一步棋着。该系统采用卷积神经网络(CNN)进行棋子识别,通过多个步骤处理手机拍摄的棋盘图像,包括图像预处理、投影变换、分割为64个独立方格以及将棋子分类为黑白棋子或空位等13类。利用残差连接提高低层次视觉特征的保留能力,同时实现深层次特征提取,提高训练和评估的准确性。实验采用Chess Recognition Dataset数据集进行训练和评估。
Key Takeaways
- 国际象棋因疫情观看人数大增,但现实中缺乏相应的辅助工具。
- CVChess系统通过深度学习将棋盘图像转换为FEN记号法。
- 系统采用CNN进行棋子识别,处理手机拍摄的棋盘图像。
- 系统包括图像预处理、投影变换、分割和棋子分类等步骤。
- 残差连接用于提高低层次视觉特征的保留和深层次特征提取的准确性。
- 系统采用Chess Recognition Dataset数据集进行训练和评估。
点此查看论文截图
W2S-AlignTree: Weak-to-Strong Inference-Time Alignment for Large Language Models via Monte Carlo Tree Search
Authors:Zhenyu Ding, Yuhao Wang, Tengyue Xiao, Haoying Wang, Guojun Ma, Mingyang Wan, Caigui Jiang, Ning Ding
Large Language Models (LLMs) demonstrate impressive capabilities, yet their outputs often suffer from misalignment with human preferences due to the inadequacy of weak supervision and a lack of fine-grained control. Training-time alignment methods like Reinforcement Learning from Human Feedback (RLHF) face prohibitive costs in expert supervision and inherent scalability limitations, offering limited dynamic control during inference. Consequently, there is an urgent need for scalable and adaptable alignment mechanisms. To address this, we propose W2S-AlignTree, a pioneering plug-and-play inference-time alignment framework that synergistically combines Monte Carlo Tree Search (MCTS) with the Weak-to-Strong Generalization paradigm for the first time. W2S-AlignTree formulates LLM alignment as an optimal heuristic search problem within a generative search tree. By leveraging weak model’s real-time, step-level signals as alignment proxies and introducing an Entropy-Aware exploration mechanism, W2S-AlignTree enables fine-grained guidance during strong model’s generation without modifying its parameters. The approach dynamically balances exploration and exploitation in high-dimensional generation search trees. Experiments across controlled sentiment generation, summarization, and instruction-following show that W2S-AlignTree consistently outperforms strong baselines. Notably, W2S-AlignTree raises the performance of Llama3-8B from 1.89 to 2.19, a relative improvement of 15.9 on the summarization task.
大型语言模型(LLMs)展示出了令人印象深刻的能力,然而,由于弱监督的不足和缺乏精细控制,它们的输出通常与人类偏好存在不匹配的情况。例如强化学习从人类反馈(RLHF)等训练时的对齐方法,面临着专家监督成本高昂和固有的可扩展性限制,在推理过程中提供有限的动态控制。因此,急需一种可扩展且可适应的对齐机制。为解决这一问题,我们提出了W2S-AlignTree,这是一种开创性的即插即用推理时间对齐框架,首次协同结合了蒙特卡洛树搜索(MCTS)和弱到强泛化范式。W2S-AlignTree将LLM对齐公式化为生成搜索树内的最优启发式搜索问题。通过利用弱模型的实时、步骤级信号作为对齐代理,并引入熵感知探索机制,W2S-AlignTree能够在不修改强模型参数的情况下,实现精细指导。该方法在高维生成搜索树中实现了探索与开发的动态平衡。在受控的情感生成、摘要生成和执行指令等方面的实验表明,W2S-AlignTree始终优于强大的基线模型。值得注意的是,W2S-AlignTree在摘要任务中将Llama3-8B的性能从1.89提高到2.19,相对提升了15.9%。
论文及项目相关链接
PDF AAAI 2026 Oral
Summary
大型语言模型(LLM)虽然展现出强大的能力,但其输出常因缺乏精细控制和弱监督不足而与人类偏好不符。现有训练时的对齐方法如强化学习人类反馈(RLHF)存在高昂的专家监督成本和固有的可扩展性限制,推理时的动态控制有限。因此,急需可伸缩且适应性强的对齐机制。为解决此问题,我们提出了W2S-AlignTree,这是一个开创性的即插即用推理时间对齐框架,首次结合蒙特卡洛树搜索(MCTS)与弱到强泛化范式。W2S-AlignTree将LLM对齐制定为生成搜索树内的最优启发式搜索问题。它通过利用弱模型的实时步骤级信号作为对齐代理,并引入熵感知探索机制,在强模型生成过程中实现了精细指导,无需修改其参数。该方法在高维生成搜索树中实现了探索与开发的动态平衡。在情感生成、摘要和指令遵循方面的实验表明,W2S-AlignTree持续优于强大的基线。特别地,W2S-AlignTree在摘要任务上将Llama3-8B的性能从1.89提升至2.19,相对改进了15.9%。
Key Takeaways
- 大型语言模型(LLM)的输出常因缺乏精细控制和弱监督不足而导致与人类偏好不符的问题。
- 当前训练时对齐方法如强化学习人类反馈(RLHF)面临高昂的专家监督成本和可扩展性挑战。
- 急需在推理时间实现精细控制的对齐机制。
- W2S-AlignTree是一个即插即用推理时间对齐框架,结合蒙特卡洛树搜索(MCTS)与弱到强泛化范式。
- W2S-AlignTree通过将LLM对齐制定为生成搜索树内的最优启发式搜索问题来改进模型性能。
- W2S-AlignTree利用弱模型的实时步骤级信号作为对齐代理,无需修改强模型的参数即可实现精细指导。
- W2S-AlignTree在高维生成搜索树中实现了探索与开发的动态平衡,且在情感生成、摘要和指令遵循方面的实验表现优异。
点此查看论文截图
FarSkip-Collective: Unhobbling Blocking Communication in Mixture of Experts Models
Authors:Yonatan Dukler, Guihong Li, Deval Shah, Vikram Appia, Emad Barsoum
Blocking communication presents a major hurdle in running MoEs efficiently in distributed settings. To address this, we present FarSkip-Collective which modifies the architecture of modern models to enable overlapping of their computation with communication. Our approach modifies the architecture to skip connections in the model and it is unclear a priori whether the modified model architecture can remain as capable, especially for large state-of-the-art models and while modifying all of the model layers. We answer this question in the affirmative and fully convert a series of state-of-the-art models varying from 16B to 109B parameters to enable overlapping of their communication while achieving accuracy on par with their original open-source releases. For example, we convert Llama 4 Scout (109B) via self-distillation and achieve average accuracy within 1% of its instruction tuned release averaged across a wide range of downstream evaluations. In addition to demonstrating retained accuracy of the large modified models, we realize the benefits of FarSkip-Collective through optimized implementations that explicitly overlap communication with computation, accelerating both training and inference in existing frameworks.
阻断通信是在分布式环境中高效运行MoEs的主要障碍之一。为了解决这一问题,我们提出了FarSkip-Collective,它通过修改现代模型的架构,使计算与通信能够重叠。我们的方法修改了模型的架构,跳过了模型中的一些连接,事先并不清楚修改后的模型架构是否还能保持其功能,尤其是对于大型最先进的模型和所有模型层的修改。我们肯定地回答了这个问题,并将一系列最先进的模型从16B到109B参数完全转换,使它们的通信能够重叠,同时保证准确率与原始开源发布版本相当。例如,我们通过自我蒸馏将Llama 4 Scout(109B)进行转换,在多种下游评估中的平均准确率在其指令调整发布的1%以内。除了证明大型修改模型的保留准确率外,我们还通过优化实现认识到FarSkip-Collective的好处,这些实现明确地使通信与计算重叠,加快现有框架中的训练和推理速度。
论文及项目相关链接
Summary
该文探讨了在现代模型运行中,沟通阻碍对模型效率的影响。为此,提出了FarSkip-Collective方法,通过修改模型架构实现计算与沟通的重叠。此方法修改了模型的连接结构,尚不明确修改后的模型架构是否仍然具有功能,特别是在大型先进模型的全部层都进行修改的情况下。研究结果表明,该方法在大型先进模型上实现了沟通的重叠,同时保持了与原始开源版本相当的精度。例如,通过自蒸馏方法转化了规模为109B参数的Llama 4 Scout模型,在多种下游评估中取得了与指令微调版本相差不到1%的平均精度。此外,研究还通过优化实现,明确了FarSkip-Collective的优势,实现了计算与沟通的明确重叠,提高了现有框架的训练和推理速度。
Key Takeaways
- FarSkip-Collective方法旨在解决在分布式环境中运行大型模型时的沟通障碍问题。
- 通过修改现代模型的架构,实现计算与沟通的重叠。
- 对于大型先进模型的全层修改后,仍能保持模型的性能。
- 成功转化了多种规模的先进模型,使其能够在沟通的同时实现计算重叠。
- 对规模为109B参数的Llama 4 Scout模型进行了自蒸馏转化,在多种下游评估中的精度损失小于1%。
- FarSkip-Collective的优化实现可以明确重叠沟通计算,提高现有框架的训练和推理速度。
点此查看论文截图
ImAgent: A Unified Multimodal Agent Framework for Test-Time Scalable Image Generation
Authors:Kaishen Wang, Ruibo Chen, Tong Zheng, Heng Huang
Recent text-to-image (T2I) models have made remarkable progress in generating visually realistic and semantically coherent images. However, they still suffer from randomness and inconsistency with the given prompts, particularly when textual descriptions are vague or underspecified. Existing approaches, such as prompt rewriting, best-of-N sampling, and self-refinement, can mitigate these issues but usually require additional modules and operate independently, hindering test-time scaling efficiency and increasing computational overhead. In this paper, we introduce ImAgent, a training-free unified multimodal agent that integrates reasoning, generation, and self-evaluation within a single framework for efficient test-time scaling. Guided by a policy controller, multiple generation actions dynamically interact and self-organize to enhance image fidelity and semantic alignment without relying on external models. Extensive experiments on image generation and editing tasks demonstrate that ImAgent consistently improves over the backbone and even surpasses other strong baselines where the backbone model fails, highlighting the potential of unified multimodal agents for adaptive and efficient image generation under test-time scaling.
最近的文本到图像(T2I)模型在生成视觉真实感和语义连贯性图像方面取得了显著进展。然而,它们仍然受到随机性和与给定提示不一致性的困扰,特别是在文本描述模糊或未指定时。现有方法,如提示重写、最佳N采样和自我完善,可以缓解这些问题,但它们通常需要额外的模块并且独立运行,阻碍了测试时的扩展效率并增加了计算开销。在本文中,我们介绍了ImAgent,这是一个无需训练的统一多模态代理,它在一个框架内集成了推理、生成和自我评估,以实现高效的测试时间扩展。在策略控制器的引导下,多个生成动作动态交互并自我组织,以提高图像的真实性和语义一致性,而无需依赖外部模型。在图像生成和编辑任务上的大量实验表明,ImAgent持续提高了基础模型的性能,甚至在基础模型失败的情况下超过了其他强大的基线模型,这凸显了统一多模态代理在测试时间扩展下的自适应和高效图像生成的潜力。
论文及项目相关链接
PDF 12 pages, 5 tables, 6 figures
Summary
文本描述了一种无需训练的统一多模态代理ImAgent,能够在单一框架内实现推理、生成和自我评估,从而提高测试时的效率。ImAgent通过策略控制器引导,多个生成动作能够动态交互和自我组织,增强图像的真实性和语义一致性,且不依赖外部模型。在图像生成和编辑任务上的实验表明,ImAgent能够持续提高背景模型的性能,甚至在背景模型失败的情况下超越其他强大的基线模型,展现出统一多模态代理在测试时自适应和高效图像生成的潜力。
Key Takeaways
- ImAgent是一个无需训练的多模态代理,能在单一框架内完成推理、生成和自我评估。
- ImAgent通过策略控制器引导多个生成动作,实现动态交互和自我组织。
- ImAgent能提高图像的真实性和语义一致性,且不依赖外部模型。
- 与背景模型和其他基线模型相比,ImAgent在图像生成和编辑任务上表现更优秀。
- ImAgent能在测试时实现自适应和高效的图像生成。
- 现有T2I模型存在的问题包括随机性和与提示的不一致性,特别是在文本描述模糊或未指定的情况下。
点此查看论文截图
Rethinking Progression of Memory State in Robotic Manipulation: An Object-Centric Perspective
Authors:Nhat Chung, Taisei Hanyu, Toan Nguyen, Huy Le, Frederick Bumgarner, Duy Minh Ho Nguyen, Khoa Vo, Kashu Yamazaki, Chase Rainwater, Tung Kieu, Anh Nguyen, Ngan Le
As embodied agents operate in increasingly complex environments, the ability to perceive, track, and reason about individual object instances over time becomes essential, especially in tasks requiring sequenced interactions with visually similar objects. In these non-Markovian settings, key decision cues are often hidden in object-specific histories rather than the current scene. Without persistent memory of prior interactions (what has been interacted with, where it has been, or how it has changed) visuomotor policies may fail, repeat past actions, or overlook completed ones. To surface this challenge, we introduce LIBERO-Mem, a non-Markovian task suite for stress-testing robotic manipulation under object-level partial observability. It combines short- and long-horizon object tracking with temporally sequenced subgoals, requiring reasoning beyond the current frame. However, vision-language-action (VLA) models often struggle in such settings, with token scaling quickly becoming intractable even for tasks spanning just a few hundred frames. We propose Embodied-SlotSSM, a slot-centric VLA framework built for temporal scalability. It maintains spatio-temporally consistent slot identities and leverages them through two mechanisms: (1) slot-state-space modeling for reconstructing short-term history, and (2) a relational encoder to align the input tokens with action decoding. Together, these components enable temporally grounded, context-aware action prediction. Experiments show Embodied-SlotSSM’s baseline performance on LIBERO-Mem and general tasks, offering a scalable solution for non-Markovian reasoning in object-centric robotic policies.
随着智能体在日益复杂的环境中运作,随时间感知、追踪和推理单个对象实例的能力变得至关重要,特别是在需要执行与视觉上相似对象的序列交互的任务中。在这些非马尔可夫环境中,关键的决策线索通常隐藏在特定对象的过去经历中,而非当前场景中。没有对过去交互的持续记忆(已交互的对象、对象所在位置或其变化方式),视觉运动策略可能会失效、重复过去的行动或忽略已完成的行动。为了应对这一挑战,我们推出了LIBERO-Mem,这是一个非马尔可夫任务套件,用于在对象级别的部分可观察性下对机器人操作进行压力测试。它将短视和长视对象追踪与按时间顺序排列的子目标相结合,需要进行超出当前框架的推理。然而,在这种环境中,视觉语言动作(VLA)模型往往表现困难,即使在仅涉及数百帧的任务中,符号扩展也迅速变得难以解决。我们提出了面向时空可扩展性的插槽中心VLA框架Embodied-SlotSSM。它保持时空一致的插槽身份,并通过两种机制加以利用:(1)插槽状态空间建模以重建短期历史,(2)关系编码器以对输入符号与行动解码进行对齐。这些组件共同作用,实现了基于时间、具有上下文意识的行动预测。实验表明,Embodied-SlotSSM在LIBERO-Mem和一般任务上的基准性能表现优异,为非马尔可夫推理在面向对象的机器人策略中提供了可扩展的解决方案。
论文及项目相关链接
PDF Accepted at AAAI 2026
Summary
本文介绍了在日益复杂的环境中,对于个体对象实例的感知、追踪和时间推理能力的重要性。特别是在需要序列化与视觉相似对象交互的任务中,关键决策线索通常隐藏在特定对象的历史中而非当前场景中。缺乏先前交互的持久记忆可能导致视觉运动策略失败、重复过去的行动或忽视已完成的行动。为应对这一挑战,本文引入了LIBERO-Mem,一个非马尔可夫任务套件,用于测试在对象层面部分可观察性下的机器人操作。它结合了短期和长期对象跟踪以及时间序列子目标,需要超越当前框架的推理。然而,在这种设置中,视觉语言动作(VLA)模型通常表现挣扎,即使在只涉及数百帧的任务中,符号扩展也变得迅速不可行。本文提出了Embodied-SlotSSM,一个针对时间可扩展性的槽位中心VLA框架。它保持时空一致的槽位身份,并通过两种机制利用它们:(1)槽位状态空间建模以重建短期历史,(2)关系编码器以与行动解码对齐输入符号。这些组件共同实现了时间上的、上下文感知的行动预测。
Key Takeaways
- 在复杂环境中,对个体对象实例的感知、追踪和时间推理能力变得至关重要。
- 在需要序列化的视觉相似对象交互的任务中,关键决策线索隐藏在对象特定的历史中。
- 缺乏对先前交互的持久记忆可能导致视觉运动策略失败。
- LIBERO-Mem是一个非马尔可夫任务套件,旨在应对在对象层面部分可观察性下的机器人操作挑战。
- 视觉语言动作(VLA)模型在非马尔可夫环境中通常表现不佳。
- Embodied-SlotSSM是一个针对时间可扩展性的槽位中心VLA框架,通过维持时空一致的槽位身份并利用槽位状态空间建模和关系编码器来实现上下文感知的行动预测。
点此查看论文截图
From Synthetic Scenes to Real Performance: Enhancing Spatial Reasoning in VLMs
Authors:Massimo Rizzoli, Simone Alghisi, Seyed Mahed Mousavi, Giuseppe Riccardi
Fine-tuning Vision-Language Models (VLMs) is a common strategy to improve performance following an ad-hoc data collection and annotation of real-world scenes. However, this process is often prone to biases, errors, and distribution imbalance, resulting in overfitting and imbalanced performance. Although a few studies have tried to address this problem by generating synthetic data, they lacked control over distribution bias and annotation quality. To address these challenges, we redesign the fine-tuning process in two ways. First, we control the generation of data and its annotations, ensuring it is free from bias, distribution imbalance, and annotation errors. We automatically construct the dataset by comprehensively sampling objects’ attributes, including color, shape, size, and position within the scene. Secondly, using this annotated dataset, we fine-tune state-of-the-art VLMs and assess performance transferability to real-world data on the absolute position task. We conduct exhaustive evaluations on both synthetic and real-world benchmarks. Our experiments reveal two key findings: 1) fine-tuning on balanced synthetic data yields uniform performance across the visual scene and mitigates common biases; and 2) fine-tuning on synthetic stimuli significantly improves performance on real-world data (COCO), outperforming models fine-tuned in the matched setting.
微调视觉语言模型(VLMs)是一种常见的策略,用于在收集特定数据并标注真实场景之后提高性能。然而,这个过程往往容易受到偏见、错误和分布不平衡的影响,导致过度拟合和性能不平衡。尽管有一些研究试图通过生成合成数据来解决这个问题,但它们对分布偏见和标注质量缺乏控制。为了解决这些挑战,我们以两种方式重新设计微调过程。首先,我们控制数据的生成及其注释,确保它不受偏见、分布不平衡和注释错误的影响。我们通过全面采样场景中物体的属性(包括颜色、形状、大小和位置)来自动构建数据集。其次,使用这个标注数据集,我们对最先进的VLMs进行微调,并评估在绝对位置任务上转移到真实世界数据的性能。我们在合成和真实世界的基准测试上都进行了详尽的评估。我们的实验揭示了两个关键发现:1)在平衡的合成数据上进行微调可以在视觉场景上产生统一的性能,并减轻常见的偏见;2)与在匹配环境中进行微调的模型相比,在合成刺激上进行微调显著提高了在真实世界数据(COCO)上的性能。
论文及项目相关链接
Summary
本文探讨了视觉语言模型(VLMs)的微调策略。传统的微调方法容易受到真实场景数据收集和标注中的偏见、错误和分布不平衡的影响。为了解决这些问题,研究提出了一种新的微调方法:首先,通过控制数据和标注的生成,确保数据无偏见、分布平衡且标注无误;然后,使用自动构建的数据集对先进的VLMs进行微调,并评估其在绝对位置任务上对真实世界数据的性能迁移能力。实验表明,在平衡合成数据上进行微调可以带来均匀的视觉场景性能,并缓解常见的偏见;此外,在合成刺激上进行微调可显著提高在真实世界数据(COCO)上的性能,优于匹配设置下的模型微调。
Key Takeaways
- 传统微调视觉语言模型(VLMs)的方法容易受到偏见、错误和分布不平衡的影响。
- 新的微调方法通过控制数据和标注的生成来解决这些问题。
- 自动构建的数据集用于对先进的VLMs进行微调,确保数据无偏见、分布平衡且标注无误。
- 在平衡合成数据上进行微调可以带来均匀的视觉场景性能,并缓解常见的偏见。
- 在合成刺激上进行微调可显著提高在真实世界数据(如COCO)上的性能。
- 相比匹配设置下的模型微调,使用合成数据进行微调表现更佳。
点此查看论文截图
VP-Bench: A Comprehensive Benchmark for Visual Prompting in Multimodal Large Language Models
Authors:Mingjie Xu, Jinpeng Chen, Yuzhi Zhao, Jason Chun Lok Li, Yue Qiu, Zekang Du, Mengyang Wu, Pingping Zhang, Kun Li, Hongzheng Yang, Wenao Ma, Jiaheng Wei, Qinbin Li, Kangcheng Liu, Wenqiang Lei
Multimodal large language models (MLLMs) have enabled a wide range of advanced vision-language applications, including fine-grained object recognition and contextual understanding. When querying specific regions or objects in an image, human users naturally use “visual prompts” (VPs), such as bounding boxes, to provide reference. However, no existing benchmark systematically evaluates the ability of MLLMs to interpret such VPs. This gap leaves it unclear whether current MLLMs can effectively recognize VPs, an intuitive prompting method for humans, and use them to solve problems. To address this limitation, we introduce VP-Bench, a benchmark for assessing MLLMs’ capability in VP perception and utilization. VP-Bench employs a two-stage evaluation framework: Stage 1 examines models’ ability to perceive VPs in natural scenes, using 30k visualized prompts spanning eight shapes and 355 attribute combinations. Stage 2 investigates the impact of VPs on downstream tasks, measuring their effectiveness in real-world problem-solving scenarios. Using VP-Bench, we evaluate 28 MLLMs, including proprietary systems (e.g., GPT-4o) and open-source models (e.g., InternVL3 and Qwen2.5-VL), and provide a comprehensive analysis of factors that affect VP understanding, such as variations in VP attributes, question arrangement, and model scale. VP-Bench establishes a new reference framework for studying how MLLMs comprehend and resolve grounded referring questions.
多模态大型语言模型(MLLMs)已经启用了广泛的先进视觉语言应用程序,包括精细目标识别和上下文理解。当在图像中查询特定区域或对象时,人类用户自然地使用“视觉提示”(VPs),如边界框,以提供参考。然而,现有的基准测试并未系统地评估MLLMs解释这种VPs的能力。这一差距使得当前MLLMs是否能够有效地识别VPs(一种人类直观的提示方法)并用于解决问题尚不清楚。为了解决这个问题,我们引入了VP-Bench,一个用于评估MLLMs在VP感知和利用能力的基准测试。VP-Bench采用两阶段评估框架:第一阶段考察模型在自然场景中感知VPs的能力,使用涵盖八种形状和355种属性组合的3万可视化提示。第二阶段研究VPs对下游任务的影响,测量它们在现实问题解决场景中的有效性。使用VP-Bench,我们评估了28个MLLMs,包括专有系统(如GPT-4o)和开源模型(如InternVL3和Qwen2.5-VL),并全面分析了影响VP理解的因素,如VP属性的变化、问题的安排和模型规模。VP-Bench为研究MLLMs如何理解和解决基于地面的引用问题建立了新的参考框架。
论文及项目相关链接
PDF This is the extended version of the paper accepted at AAAI 2026, which includes all technical appendices and additional experimental details
Summary
多模态大型语言模型(MLLMs)在精细粒度对象识别和上下文理解等先进的视觉语言应用方面表现出强大的能力。然而,现有基准测试并未系统地评估MLLMs对视觉提示(VPs)的解读能力。为了解决这个问题,我们引入了VP-Bench基准测试,以评估MLLMs对VPs的感知和利用能力。VP-Bench采用两阶段评估框架,第一阶段考察模型在自然场景中感知VPs的能力,第二阶段研究VPs对下游任务的影响,衡量其在解决实际问题场景中的有效性。通过VP-Bench,我们对包括专有系统(如GPT-4o)和开源模型(如InternVL3和Qwen2.5-VL)在内的28个MLLMs进行了评估,并分析了影响VP理解的因素,如VP属性、问题安排和模型规模等。VP-Bench为研究MLLMs如何理解和解决基于地面的引用问题提供了新的参考框架。
Key Takeaways
- 多模态大型语言模型(MLLMs)在视觉语言应用方面具有广泛应用。
- 目前缺乏系统评估MLLMs对视觉提示(VPs)解读能力的基准测试。
- VP-Bench基准测试用于评估MLLMs感知和利用VPs的能力。
- VP-Bench采用两阶段评估框架:感知VPs的能力和解决实际问题场景中VPs的有效性。
- 评估了包括专有系统和开源模型在内的多个MLLMs。
- 分析了影响VP理解的因素,包括VP属性、问题安排和模型规模等。
点此查看论文截图
Unsupervised Motion-Compensated Decomposition for Cardiac MRI Reconstruction via Neural Representation
Authors:Xuanyu Tian, Lixuan Chen, Qing Wu, Xiao Wang, Jie Feng, Yuyao Zhang, Hongjiang Wei
Cardiac magnetic resonance (CMR) imaging is widely used to characterize cardiac morphology and function. To accelerate CMR imaging, various methods have been proposed to recover high-quality spatiotemporal CMR images from highly undersampled k-t space data. However, current CMR reconstruction techniques either fail to achieve satisfactory image quality or are restricted by the scarcity of ground truth data, leading to limited applicability in clinical scenarios. In this work, we proposed MoCo-INR, a new unsupervised method that integrates implicit neural representations (INR) with the conventional motion-compensated (MoCo) framework. Using explicit motion modeling and the continuous prior of INRs, MoCo-INR can produce accurate cardiac motion decomposition and high-quality CMR reconstruction. Furthermore, we introduce a new INR network architecture tailored to the CMR problem, which significantly stabilizes model optimization. Experiments on retrospective (simulated) datasets demonstrate the superiority of MoCo-INR over state-of-the-art methods, achieving fast convergence and fine-detailed reconstructions at ultra-high acceleration factors (e.g., 20x in VISTA sampling). Additionally, evaluations on prospective (real-acquired) free-breathing CMR scans highlight the clinical practicality of MoCo-INR for real-time imaging. Several ablation studies further confirm the effectiveness of the critical components of MoCo-INR.
心脏磁共振(CMR)成像广泛应用于表征心脏形态和功能。为了加速CMR成像,已经提出了各种方法从高度欠采样的k-t空间数据中恢复高质量的时空CMR图像。然而,当前的CMR重建技术在图像质量方面无法达到满意的效果,或者受到真实数据稀缺的限制,导致在临床场景中的应用有限。在这项工作中,我们提出了MoCo-INR,这是一种新的无监督方法,它将隐式神经表示(INR)与传统运动补偿(MoCo)框架相结合。通过显式运动建模和INR的连续先验,MoCo-INR可以产生准确的心脏运动分解和高质量的CMR重建。此外,我们针对CMR问题引入了一种新的INR网络架构,这可以显著稳定模型优化。在回顾性(模拟)数据集上的实验表明,MoCo-INR优于最新技术,实现了快速收敛和在超高加速因子(例如VISTA采样中的20x)下的精细详细重建。此外,对前瞻性(实时采集)自由呼吸CMR扫描的评估突出了MoCo-INR在实时成像中的临床实用性。几项消融研究进一步证实了MoCo-INR关键组件的有效性。
论文及项目相关链接
PDF Accepted by AAAI-26
Summary
本文介绍了心脏磁共振成像(CMR)中一种新的无监督方法MoCo-INR,该方法结合了传统的运动补偿框架和隐式神经表示法,旨在提高CMR图像的质量与加速成像。通过显式运动建模和连续隐式表示法,MoCo-INR可产生精确的心脏运动分解和高质量的重建图像。在回顾性模拟数据集上的实验证明MoCo-INR优于现有技术,并且适用于真实自由呼吸下扫描的前景分析表明其可用于实时成像。几个切除研究进一步验证了MoCo-INR的关键组成部分的有效性。简而言之,该方法的临床应用潜力很大。
Key Takeaways
CMR成像广泛应用于心脏形态和功能的表征。为了加速成像过程,研究人员提出了从高度欠采样的k-t空间数据中恢复高质量时空CMR图像的方法。然而,当前的重构技术存在不足,要么图像质量不佳,要么受限于真实数据的稀缺性,这在临床应用中受到限制。
MoCo-INR是一种新提出的无监督方法,结合了隐式神经表示(INR)与传统运动补偿(MoCo)框架。它通过明确的运动建模和连续的隐式表示法来准确分解心脏运动并产生高质量图像。
MoCo-INR引入了一种针对CMR问题的定制INR网络架构,显著稳定模型优化过程。在回顾性模拟数据集上的实验证明了MoCo-INR相较于其他方法的优越性。它能在极高加速因子(如VISTA采样中的20倍)下实现快速收敛和精细重建。
点此查看论文截图
Q-Doc: Benchmarking Document Image Quality Assessment Capabilities in Multi-modal Large Language Models
Authors:Jiaxi Huang, Dongxu Wu, Hanwei Zhu, Lingyu Zhu, Jun Xing, Xu Wang, Baoliang Chen
The rapid advancement of Multi-modal Large Language Models (MLLMs) has expanded their capabilities beyond high-level vision tasks. Nevertheless, their potential for Document Image Quality Assessment (DIQA) remains underexplored. To bridge this gap, we propose Q-Doc, a three-tiered evaluation framework for systematically probing DIQA capabilities of MLLMs at coarse, middle, and fine granularity levels. a) At the coarse level, we instruct MLLMs to assign quality scores to document images and analyze their correlation with Quality Annotations. b) At the middle level, we design distortion-type identification tasks, including single-choice and multi-choice tests for multi-distortion scenarios. c) At the fine level, we introduce distortion-severity assessment where MLLMs classify distortion intensity against human-annotated references. Our evaluation demonstrates that while MLLMs possess nascent DIQA abilities, they exhibit critical limitations: inconsistent scoring, distortion misidentification, and severity misjudgment. Significantly, we show that Chain-of-Thought (CoT) prompting substantially enhances performance across all levels. Our work provides a benchmark for DIQA capabilities in MLLMs, revealing pronounced deficiencies in their quality perception and promising pathways for enhancement. The benchmark and code are publicly available at: https://github.com/cydxf/Q-Doc.
多模态大型语言模型(MLLMs)的快速发展使其能力超越了高级视觉任务。然而,它们在文档图像质量评估(DIQA)方面的潜力尚未得到充分探索。为了弥补这一空白,我们提出了Q-Doc,这是一个三级评估框架,旨在系统地探索MLLMs在粗、中、细粒度级别上的DIQA能力。a)在粗略级别上,我们指导MLLMs为文档图像分配质量分数,并分析其与质量注释的相关性。b)在中级水平上,我们设计了对失真类型进行识别的任务,包括单选题和多选题,以应对多种失真场景。c)在精细级别上,我们引入了失真严重程度评估,其中MLLMs根据人类注释的参考分类失真强度。我们的评估表明,虽然MLLMs具有初步的DIQA能力,但它们表现出关键局限性:评分不一致、失真识别错误和严重程度判断错误。值得注意的是,我们表明“思维链”(CoT)提示显著提高了所有级别的性能。我们的工作为MLLMs的DIQA能力提供了基准测试,揭示了它们在质量感知方面的明显缺陷和潜在的改进途径。基准测试和代码可在以下网址公开访问:https://github.com/cydxf/Q-Doc。
论文及项目相关链接
Summary
多模态大型语言模型(MLLMs)在文档图像质量评估(DIQA)方面的潜力尚未得到充分探索。本文提出Q-Doc,一个三层次的评估框架,以系统地探究MLLMs在粗、中、细粒度级别的DIQA能力。评估结果显示,MLLMs虽具备初步的DIQA能力,但在评分一致性、失真识别及严重程度评估等方面存在显著局限。通过思维链(CoT)提示可显著提高各级性能。本文提供的基准测试有助于揭示MLLMs在质量感知方面的不足,并为改进指明了方向。
Key Takeaways
- 多模态大型语言模型(MLLMs)在文档图像质量评估(DIQA)方面的应用潜力尚未充分研究。
- Q-Doc是一个三层次的评估框架,用于系统评估MLLMs在粗、中、细粒度级别的DIQA能力。
- 在粗粒度级别,MLLMs被训练为给文档图像分配质量分数,但存在评分不一致的问题。
- 在中粒度级别,MLLMs面临失真类型识别挑战,包括单一和多种失真的场景识别。
- 在细粒度级别,MLLMs在评估失真严重程度时存在误判。
- 思维链(CoT)提示能显著提高MLLMs在各级DIQA任务上的性能。
点此查看论文截图
MicroVQA++: High-Quality Microscopy Reasoning Dataset with Weakly Supervised Graphs for Multimodal Large Language Model
Authors:Manyu Li, Ruian He, Chenxi Ma, Weimin Tan, Bo Yan
Multimodal Large Language Models are increasingly applied to biomedical imaging, yet scientific reasoning for microscopy remains limited by the scarcity of large-scale, high-quality training data. We introduce MicroVQA++, a three-stage, large-scale and high-quality microscopy VQA corpus derived from the BIOMEDICA archive. Stage one bootstraps supervision from expert-validated figure-caption pairs sourced from peer-reviewed articles. Stage two applies HiCQA-Graph, a novel heterogeneous graph over images, captions, and QAs that fuses NLI-based textual entailment, CLIP-based vision-language alignment, and agent signals to identify and filter inconsistent samples. Stage three uses a MultiModal Large Language Model (MLLM) agent to generate multiple-choice questions (MCQ) followed by human screening. The resulting release comprises a large training split and a human-checked test split whose Bloom’s level hard-sample distribution exceeds the MicroVQA benchmark. Our work delivers (i) a quality-controlled dataset that couples expert literature with graph-based filtering and human refinement; (ii) HiCQA-Graph, the first graph that jointly models (image, caption, QA) for cross-modal consistency filtering; (iii) evidence that careful data construction enables 4B-scale MLLMs to reach competitive microscopy reasoning performance (e.g., GPT-5) and achieve state-of-the-art performance among open-source MLLMs. Code and dataset will be released after the review process concludes.
多模态大型语言模型在生物医学成像中的应用日益广泛,但由于缺乏大规模高质量的训练数据,显微镜科学推理仍然受到限制。我们推出了MicroVQA++,这是一个三阶段、大规模、高质量的显微镜问答语料库,来源于BIOMEDICA档案。第一阶段从经过同行评审的文章中获取的专家验证的图像标题配对中获取监督信息。第二阶段应用HiCQA-Graph,这是一种新型异质图,涵盖图像、标题和问答,融合了基于自然语言推理的文本蕴涵、基于CLIP的视语言对齐和代理信号,用于识别和过滤不一致的样本。第三阶段使用多模态大型语言模型(MLLM)代理生成多项选择题(MCQ),随后进行人工筛选。此次发布包括一个大规模的训练集和一个经过人工检查过的测试集,其Bloom难度样本分布超过了MicroVQA基准测试。我们的工作提供了(i)一个质量受控的数据集,该数据集结合了专家文献、基于图的过滤和人工精炼;(ii)HiCQA-Graph,第一个联合建模(图像、标题、问答)的图形,用于跨模态一致性过滤;(iii)证明精心构建的数据可以使4B规模的多模态大型语言模型达到竞争性的显微镜推理性能(例如GPT-5),并在开源多模态大型语言模型中达到最新水平。代码和数据集将在审查过程结束后发布。
论文及项目相关链接
PDF 11 pages, 4 figures
Summary
本文介绍了MicroVQA++项目,该项目旨在解决生物医学成像中多模态大型语言模型的缺乏大规模高质量训练数据的问题。项目分为三个阶段,采用专家验证的图像和描述对,以及HiCQA-Graph异质图进行样本筛选,最终生成多模态大型语言模型的问题数据集。其特色在于通过严格的数据集构建方式确保了数据集的质量,同时通过高性能的模型展现了在显微图像处理上的推理能力。在公开源大型语言模型当中实现了最顶尖的显微图像处理效果。相关数据将在审稿结束后公布。
Key Takeaways
- MicroVQA++项目为解决生物医学成像中的大型语言模型缺乏高质量训练数据的问题而设计。
- 项目包含三个阶段,从专家验证的图像和描述对开始,通过HiCQA-Graph异质图进行样本筛选,最终生成大型语言模型的问题数据集。
- 数据集构建过程中采用严格的质控方法,确保数据质量。
- 通过多模态大型语言模型在显微图像处理上展现了出色的推理性能。
- 该项目在公开源大型语言模型中实现了顶尖水平的显微图像处理效果。
- 数据集的发布包含了大量训练样本和一个经过人工筛选的测试样本集,该测试集的Bloom级别硬样本分布超过了MicroVQA基准测试。
点此查看论文截图
Universal Safety Controllers with Learned Prophecies
Authors:Bernd Finkbeiner, Niklas Metzger, Satya Prakash Nayak, Anne-Kathrin Schmuck
\emph{Universal Safety Controllers (USCs)} are a promising logical control framework that guarantees the satisfaction of a given temporal safety specification when applied to any realizable plant model. Unlike traditional methods, which synthesize one logical controller over a given detailed plant model, USC synthesis constructs a \emph{generic controller} whose outputs are conditioned by plant behavior, called \emph{prophecies}. Thereby, USCs offer strong generalization and scalability benefits over classical logical controllers. However, the exact computation and verification of prophecies remain computationally challenging. In this paper, we introduce an approximation algorithm for USC synthesis that addresses these limitations via learning. Instead of computing exact prophecies, which reason about sets of trees via automata, we only compute under- and over-approximations from (small) example plants and infer computation tree logic (CTL) formulas as representations of prophecies. The resulting USC generalizes to unseen plants via a verification step and offers improved efficiency and explainability through small and concise CTL prophecies, which remain human-readable and interpretable. Experimental results demonstrate that our learned prophecies remain generalizable, yet are significantly more compact and interpretable than their exact tree automata representations.
强调安全控制器(USCs)是一种有前景的逻辑控制框架,当应用于任何可实现的工厂模型时,它能保证给定时间安全规范的满足。与传统方法在给定详细的工厂模型上合成一个逻辑控制器不同,USC合成构建了一个通用控制器,其输出受工厂行为(称为预言)的影响。因此,与经典逻辑控制器相比,USCs提供了强大的通用性和可扩展性优势。然而,预言的精确计算和验证在计算上仍然具有挑战性。在本文中,我们介绍了一种用于USC合成的近似算法,该算法通过学习解决这些限制。我们不再计算精确的预言(通过自动机推理树集),而只从(小型)示例工厂计算预言的下界和上界,并推断计算树逻辑(CTL)公式作为预言的表示。所得USC通过验证步骤推广到未见过的工厂,并通过简洁且易于理解的CTL预言提高了效率和可解释性,这些预言保持人类可读和可解释性。实验结果表明,我们学习的预言具有通用性,并且与其精确树自动机表示相比,更加紧凑和可解释。
论文及项目相关链接
PDF AAAI 2026
Summary
本文介绍了通用安全控制器(USCs)的逻辑控制框架,该框架通过生成一种基于植物行为预测的通用控制器,保证了在给定的实际植物模型中满足给定的时间安全规范。与传统的针对特定植物模型的逻辑控制器合成方法不同,USCs提供了强大的通用性和可扩展性优势。然而,本文提出了一种针对USC合成的近似算法,通过学习和验证步骤来解决计算预言的复杂性。该算法仅计算来自小样本植物的上下近似值,并推断出作为预言表示的计算树逻辑(CTL)公式。实验结果表明,所学习的预言具有良好的通用性、紧凑性和可解释性。
Key Takeaways
- 通用安全控制器(USCs)是一种逻辑控制框架,可以应用于任何可实现的植物模型,并保证满足时间安全规范。
- USCs通过生成基于植物行为预测的通用控制器,与传统的针对特定植物模型的逻辑控制器合成方法不同。
- USC合成中的预言计算和验证是计算上具有挑战性的。
- 本文提出了一种针对USC合成的近似算法,该算法通过学习和验证步骤解决预言的精确计算问题。
- 近似算法通过计算小样本植物的上下近似值来工作,并推断出作为预言表示的计算树逻辑(CTL)公式。
- 所得的USC通过对未见过的植物进行验证步骤来推广,并通过简洁的CTL预言提供改进的效率。
点此查看论文截图
LaoBench: A Large-Scale Multidimensional Lao Benchmark for Large Language Models
Authors:Jian Gao, Richeng Xuan, Zhaolu Kang, Dingshi Liao, Wenxin Huang, Zongmou Huang, Yangdi Xu, Bowen Qin, Zheqi He, Xi Yang, Changjin Li
The rapid advancement of large language models (LLMs) has not been matched by their evaluation in low-resource languages, especially Southeast Asian languages like Lao. To fill this gap, we introduce LaoBench, the first large-scale, high-quality, and multidimensional benchmark dataset dedicated to assessing LLMs’ comprehensive language understanding and reasoning abilities in Lao. LaoBench comprises over 17,000 carefully curated samples spanning three core dimensions: knowledge application, K12 foundational education, and bilingual translation among Lao, Chinese, and English. The dataset is divided into open-source and closed-source subsets, with the closed-source portion enabling black-box evaluation on an official platform to ensure fairness and data security. Our data construction pipeline integrates expert human curation with automated agent-assisted verification, ensuring linguistic accuracy, cultural relevance, and educational value. Benchmarking multiple state-of-the-art LLMs on LaoBench reveals that current models still face significant challenges in mastering Lao across diverse tasks. We hope LaoBench will catalyze further research and development of AI technologies for underrepresented Southeast Asian languages.
大型语言模型(LLM)的快速发展并未在资源匮乏的语言(尤其是东南亚语言如老挝语)的评估中得到相应的匹配。为了填补这一空白,我们推出了老挝语基准测试集(LaoBench)。它是首个大规模、高质量、多维度的基准测试集,专门用于评估LLM在老挝语的综合语言理解和推理能力。LaoBench包含超过17,000个精心挑选的样本,涵盖三个核心维度:知识应用、K-12基础教育以及老挝语、中文和英文之间的双语翻译。该数据集分为开源和闭源子集,闭源部分可以在官方平台上进行黑盒评估,以确保公平和数据安全。我们的数据构建流程融合了专家人工审核和自动化代理辅助验证,确保语言准确性、文化相关性和教育价值。在LaoBench上对多个最先进的大型语言模型进行基准测试表明,当前模型在掌握老挝语方面仍然面临重大挑战。我们希望LaoBench能推动对代表性不足的东南亚语言的人工智能技术的进一步研究和开发。
论文及项目相关链接
Summary
大型语言模型(LLMs)在资源贫乏语言如老挝语的评估上存在显著不足。为弥补这一空白,我们推出老挝语基准测试数据集LaoBench,旨在评估LLMs在老挝语的综合语言理解和推理能力。LaoBench包含超过17,000个精心挑选的样本,涵盖知识应用、K12基础教育以及老挝语、中文和英文之间的双语翻译等三个核心领域。数据集分为开源和闭源子集,闭源部分可在官方平台上进行黑箱评估,以确保公平性和数据安全。我们的数据构建流程结合了专家人工筛选和自动化辅助验证,确保语言准确性、文化适宜性和教育价值。在LaoBench上对不同顶尖LLMs的基准测试显示,当前模型在掌握老挝语方面仍面临巨大挑战。我们期望LaoBench能推动针对代表性不足东南亚语言的人工智能技术的进一步研发。
Key Takeaways
- 大型语言模型在老挝语的评估上存在不足。
- LaoBench是首个针对老挝语的大型、高质量、多维基准测试数据集。
- LaoBench包含知识应用、基础教育以及双语翻译等三个核心领域的样本。
- 数据集分为开源和闭源子集,以确保公平性和数据安全。
- 数据构建流程结合专家人工筛选和自动化验证,确保准确性、文化适宜性和教育价值。
- 基准测试显示当前模型在老挝语掌握上仍面临挑战。
点此查看论文截图
NOVA: An Agentic Framework for Automated Histopathology Analysis and Discovery
Authors:Anurag J. Vaidya, Felix Meissen, Daniel C. Castro, Shruthi Bannur, Tristan Lazard, Drew F. K. Williamson, Faisal Mahmood, Javier Alvarez-Valle, Stephanie L. Hyland, Kenza Bouzid
Digitized histopathology analysis involves complex, time-intensive workflows and specialized expertise, limiting its accessibility. We introduce NOVA, an agentic framework that translates scientific queries into executable analysis pipelines by iteratively generating and running Python code. NOVA integrates 49 domain-specific tools (e.g., nuclei segmentation, whole-slide encoding) built on open-source software, and can also create new tools ad hoc. To evaluate such systems, we present SlideQuest, a 90-question benchmark – verified by pathologists and biomedical scientists – spanning data processing, quantitative analysis, and hypothesis testing. Unlike prior biomedical benchmarks focused on knowledge recall or diagnostic QA, SlideQuest demands multi-step reasoning, iterative coding, and computational problem solving. Quantitative evaluation shows NOVA outperforms coding-agent baselines, and a pathologist-verified case study links morphology to prognostically relevant PAM50 subtypes, demonstrating its scalable discovery potential.
数字化组织病理学分析涉及复杂且耗时的流程以及专业专业知识,这限制了其普及性。我们介绍了NOVA,这是一个代理框架,通过将科学查询转化为可执行的分析管道,通过迭代生成和运行Python代码。NOVA整合了49个基于开源软件的特定领域工具(例如细胞核分割、全幻灯片编码),还可以创建新的即时工具。为了评估这样的系统,我们推出了SlideQuest,这是一个由病理学家和生物医学科学家验证的包含90个问题的基准测试,涉及数据处理、定量分析和假设检验。与以往的侧重于知识记忆或诊断质量保障的生物医学基准测试不同,SlideQuest要求多步骤推理、迭代编码和计算问题解决。定量评估显示,NOVA的表现优于编码代理基准测试,并且经过病理学家验证的案例研究将形态与预后相关的PAM50亚型相联系,展示了其可扩展的发现潜力。
论文及项目相关链接
Summary
数字化组织病理学分析涉及复杂且耗时的流程,需要专业知识,限制了其普及性。本文介绍了NOVA,一个能将科学查询转化为可执行分析管道的智能框架,通过迭代生成和运行Python代码来工作。NOVA整合了49种基于开源软件的领域特定工具(如细胞核分割、全幻灯片编码),并能即时创建新工具。为了评估此类系统,我们推出了SlideQuest,一个包含90个问题的基准测试,由病理学家和生物医学科学家验证,涵盖数据处理、定量分析和假设检验。不同于以往侧重于知识回忆或诊断质量评估的生物医学基准测试,SlideQuest要求多步骤推理、迭代编码和计算问题解决能力。定量评估显示NOVA优于编码代理基线,并且通过病理学家验证的病例研究将形态与预后相关的PAM50亚型相联系,展示了其可扩展的发现潜力。
Key Takeaways
- 数字化组织病理学分析具有复杂性和专业性,限制了其普及性。
- NOVA是一个智能框架,能将科学查询转化为可执行分析管道,通过迭代生成Python代码工作。
- NOVA整合了多种领域特定工具,并具备即时创建新工具的能力。
- SlideQuest是一个包含多个问题的基准测试,涵盖数据处理、定量分析和假设检验,旨在评估分析系统的性能。
- SlideQuest不同于其他生物医学基准测试,强调多步骤推理、迭代编码和计算问题解决能力。
- 定量评估显示NOVA在性能上优于编码代理基线。
点此查看论文截图
Can You Tell the Difference? Contrastive Explanations for ABox Entailments
Authors:Patrick Koopmann, Yasir Mahmood, Axel-Cyrille Ngonga Ngomo, Balram Tiwari
We introduce the notion of contrastive ABox explanations to answer questions of the type “Why is a an instance of C, but b is not?”. While there are various approaches for explaining positive entailments (why is C(a) entailed by the knowledge base) as well as missing entailments (why is C(b) not entailed) in isolation, contrastive explanations consider both at the same time, which allows them to focus on the relevant commonalities and differences between a and b. We develop an appropriate notion of contrastive explanations for the special case of ABox reasoning with description logic ontologies, and analyze the computational complexity for different variants under different optimality criteria, considering lightweight as well as more expressive description logics. We implemented a first method for computing one variant of contrastive explanations, and evaluated it on generated problems for realistic knowledge bases.
我们引入对比ABox解释的概念,来回答“为什么a是C的实例,而b不是?”类型的问题。虽然解释正向蕴含(为什么C(a)由知识库引发)以及单独缺失的蕴含(为什么C(b)不引发)的方法有很多种,但对比解释可以同时考虑两者,这使他们能够关注a和b之间的相关共性和差异。我们针对描述逻辑本体中的ABox推理这一特殊情况,发展了对比解释的合理概念,并在不同的优化标准下分析了不同变种的计算复杂性,同时考虑了轻量级和更高级的描述逻辑。我们实现了计算对比解释的一种变体方法,并在针对现实知识库生成的问题上进行了评估。
论文及项目相关链接
PDF Technical report to the paper accepted at AAAI-2026
Summary
在介绍对比ABox解释概念时,回答关于为什么对象a属于类别C而对象b不属于的问题。对比解释同时考虑正向和缺失的推论,关注对象a和b之间的共同点和差异。对于描述逻辑本体中的ABox推理特殊情况,我们发展了对比解释的相关概念,并分析了不同变体在不同最优标准下的计算复杂性,同时考虑了简洁和更复杂的描述逻辑。我们实现了计算对比解释的一种初步方法,并在针对现实知识库生成的问题上进行了评估。
Key Takeaways
- 对比ABox解释旨在回答为什么对象a属于类别C而对象b不属于的问题。
- 对比解释同时考虑正向和缺失的推论。
- 对比解释关注对象a和b之间的共同点和差异。
- 对于描述逻辑本体中的ABox推理,发展了对比解释的相关概念。
- 分析了不同对比解释变体在不同最优标准下的计算复杂性。
- 实现了一种计算对比解释的初步方法。
点此查看论文截图
GraphPilot: Grounded Scene Graph Conditioning for Language-Based Autonomous Driving
Authors:Fabian Schmidt, Markus Enzweiler, Abhinav Valada
Vision-language models have recently emerged as promising planners for autonomous driving, where success hinges on topology-aware reasoning over spatial structure and dynamic interactions from multimodal input. However, existing models are typically trained without supervision that explicitly encodes these relational dependencies, limiting their ability to infer how agents and other traffic entities influence one another from raw sensor data. In this work, we bridge this gap with a novel model-agnostic method that conditions language-based driving models on structured relational context in the form of traffic scene graphs. We serialize scene graphs at various abstraction levels and formats, and incorporate them into the models via structured prompt templates, enabling a systematic analysis of when and how relational supervision is most beneficial. Extensive evaluations on the public LangAuto benchmark show that scene graph conditioning of state-of-the-art approaches yields large and persistent improvement in driving performance. Notably, we observe up to a 15.6% increase in driving score for LMDrive and 17.5% for BEVDriver, indicating that models can better internalize and ground relational priors through scene graph-conditioned training, even without requiring scene graph input at test-time. Code, fine-tuned models, and our scene graph dataset are publicly available at https://github.com/iis-esslingen/GraphPilot.
视觉语言模型最近作为自动驾驶的潜在规划器而出现,其成功取决于对空间结构和多模态输入的动态交互进行拓扑感知推理。然而,现有模型通常在没有明确编码这些关系依赖项的监督下进行训练,这限制了它们从原始传感器数据中推断出代理和其他交通实体如何相互影响的能力。在这项工作中,我们弥补了这一空白,提出了一种新颖的模型通用方法,该方法以交通场景图的形式对基于语言的驾驶模型进行结构化关系上下文条件设置。我们以各种抽象层次和格式序列化场景图,并通过结构化提示模板将它们纳入模型,从而能够系统地分析关系监督何时以及如何最有益。在公共LangAuto基准测试上的广泛评估显示,通过场景图条件设置的最先进方法能够在驾驶性能上产生巨大且持续的改进。值得注意的是,我们观察到LMDrive的驾驶得分提高了15.6%,BEVDriver提高了17.5%,这表明模型通过场景图条件训练能够更好地内部化和解释关系先验知识,即使不需要在测试时输入场景图。相关代码、微调后的模型和场景图数据集可公开访问:https://github.com/iis-esslingen/GraphPilot。
论文及项目相关链接
Summary
视觉语言模型在自动驾驶领域展现出巨大潜力,需要拓扑感知推理和空间结构以及多模态输入的动态交互。然而,现有模型通常在没有明确编码这些关系依赖性的监督下进行训练,限制了它们从原始传感器数据中推断出其他交通实体之间相互作用的能力。本研究中,我们提出了一种新型模型无关的方法,以交通场景图的形式对基于语言的驾驶模型进行结构化关系上下文条件处理。我们通过不同抽象层次和格式的场景图序列化,并通过结构化提示模板将其纳入模型,从而系统地分析关系监督何时以及如何最有益。在公共LangAuto基准测试上的广泛评估显示,场景图条件的最先进方法大大提高了驾驶性能。特别是,我们观察到LMDrive的驾驶评分提高了15.6%,BEVDriver提高了17.5%,这表明模型通过场景图条件训练可以更好地内化并验证关系先验知识,甚至在测试时无需场景图输入。
Key Takeaways
- 视觉语言模型在自动驾驶领域有巨大潜力,需要处理空间结构和多模态输入的动态交互。
- 现有模型在训练时缺乏显式编码关系依赖性的监督,限制了其对交通实体间相互作用的理解。
- 提出了一种新型模型无关的方法,通过交通场景图对语言驾驶模型进行结构化关系上下文条件处理。
- 通过不同抽象层次和格式的场景图序列化,结合结构化提示模板,使模型能够系统地分析关系监督的效益。
- 在LangAuto基准测试上的评估显示,场景图条件的最先进方法能显著提高驾驶性能。
- LMDrive和BEVDriver的驾驶评分分别提高了15.6%和17.5%,表明模型通过场景图条件训练可以更好地内化关系先验知识。
- 模型在测试时无需场景图输入,依然能够受益于之前的场景图条件训练。
点此查看论文截图
Align$^3$GR: Unified Multi-Level Alignment for LLM-based Generative Recommendation
Authors:Wencai Ye, Mingjie Sun, Shuhang Chen, Wenjin Wu, Peng Jiang
Large Language Models (LLMs) demonstrate significant advantages in leveraging structured world knowledge and multi-step reasoning capabilities. However, fundamental challenges arise when transforming LLMs into real-world recommender systems due to semantic and behavioral misalignment. To bridge this gap, we propose Align$^3$GR, a novel framework that unifies token-level, behavior modeling-level, and preference-level alignment. Our approach introduces: Dual tokenization fusing user-item semantic and collaborative signals. Enhanced behavior modeling with bidirectional semantic alignment. Progressive DPO strategy combining self-play (SP-DPO) and real-world feedback (RF-DPO) for dynamic preference adaptation. Experiments show Align$^3$GR outperforms the SOTA baseline by +17.8% in Recall@10 and +20.2% in NDCG@10 on the public dataset, with significant gains in online A/B tests and full-scale deployment on an industrial large-scale recommendation platform.
大型语言模型(LLMs)在利用结构化世界知识和多步推理能力方面显示出显著优势。然而,将LLMs转化为现实世界的推荐系统时,由于语义和行为的不对齐,会出现基本挑战。为了弥补这一差距,我们提出了Align$^3$GR,这是一种统一标记层、行为建模层和偏好层对齐的新型框架。我们的方法引入了:融合用户项目语义和协同信号的双重标记。通过双向语义对齐增强行为建模。结合自玩(SP-DPO)和现实世界反馈(RF-DPO)的渐进式DPO策略,用于动态偏好适应。实验表明,在公开数据集上,Align$^3$GR的Recall@10指标优于最新技术基线+17.8%,NDCG@10指标优于+20.2%。在线A/B测试和大型工业推荐平台的全面部署也取得了显著成果。
论文及项目相关链接
PDF Accepted by AAAI 2026 (Oral)
Summary
大型语言模型(LLMs)在利用结构化世界知识和多步推理能力方面展现出显著优势,但在将其转化为实际推荐系统时面临语义和行为失配的挑战。为此,提出了Align$^3$GR框架,该框架统一了令牌级、行为建模级和偏好级的对齐,通过双代币化融合用户项目语义和协同信号,增强了行为建模的双向语义对齐,并采用了结合自我游戏(SP-DPO)和现实世界反馈(RF-DPO)的渐进式DPO策略,实现动态偏好适应。在公开数据集上的实验表明,Align$^3$GR相比最先进基线在Recall@10和NDCG@10上的性能分别提高了+17.8%和+20.2%,在线A/B测试和大规模推荐平台上的全面部署也取得了显著成效。
Key Takeaways
- 大型语言模型(LLMs)在结构化世界知识和多步推理方面具有优势。
- 将LLMs转化为实际推荐系统存在语义和行为失配的挑战。
- Align$^3$GR框架通过统一令牌级、行为建模级和偏好级的对齐来解决这个问题。
- Align$^3$GR通过双代币化融合用户项目语义和协同信号。
- 该框架增强了行为建模的双向语义对齐。
- Align$^3$GR采用结合自我游戏和现实世界反馈的渐进式DPO策略,实现动态偏好适应。
点此查看论文截图
Beyond Flatlands: Unlocking Spatial Intelligence by Decoupling 3D Reasoning from Numerical Regression
Authors:Zhongbin Guo, Jiahe Liu, Yushan Li, Wenyu Gao, Zhen Yang, Chenzhi Li, Xinyue Zhang, Ping Jian
Existing Vision Language Models (VLMs) architecturally rooted in “flatland” perception, fundamentally struggle to comprehend real-world 3D spatial intelligence. This failure stems from a dual-bottleneck: input-stage conflict between computationally exorbitant geometric-aware encoders and superficial 2D-only features, and output-stage misalignment where discrete tokenizers are structurally incapable of producing precise, continuous numerical values. To break this impasse, we introduce GEODE (Geometric-Output and Decoupled-Input Engine), a novel architecture that resolves this dual-bottleneck by decoupling 3D reasoning from numerical generation. GEODE augments main VLM with two specialized, plug-and-play modules: Decoupled Rationale Module (DRM) that acts as spatial co-processor, aligning explicit 3D data with 2D visual features via cross-attention and distilling spatial Chain-of-Thought (CoT) logic into injectable Rationale Tokens; and Direct Regression Head (DRH), an “Embedding-as-Value” paradigm which routes specialized control tokens to a lightweight MLP for precise, continuous regression of scalars and 3D bounding boxes. The synergy of these modules allows our 1.5B parameter model to function as a high-level semantic dispatcher, achieving state-of-the-art spatial reasoning performance that rivals 7B+ models.
现有的视觉语言模型(VLMs)在架构上根植于“平面”感知,在理解真实世界的三维空间智能时存在根本性的困难。这种失败源于双重瓶颈:输入阶段的冲突,即计算昂贵的几何感知编码器和浅层的仅二维特征之间的冲突;以及输出阶段的不对齐,即离散的分词器在结构上无法生成精确、连续的数字值。为了打破这一僵局,我们引入了GEODE(几何输出和解耦输入引擎)这一新型架构,它通过解耦三维推理和数值生成来解决这一双重瓶颈。GEODE增强主VLM两个专业、即插即用的模块:解耦理由模块(DRM)作为空间协处理器,通过交叉注意力将显式三维数据与二维视觉特征对齐,并将空间思维链逻辑提炼成可注入的理由令牌;以及直接回归头(DRH),这是一种“嵌入即值”的模式,它将专用控制令牌路由到轻量级多层感知器,进行精确、连续的标量回归和三维边界框。这些模块的协同作用使得我们的1.5B参数模型能够作为高级语义调度器发挥作用,实现了卓越的空间推理性能,与7B+模型相匹敌。
论文及项目相关链接
Summary
该文本主要讨论了现有视觉语言模型(VLMs)在理解真实世界3D空间智能方面的根本性挑战,并提出了一个新的架构GEODE来解决这个问题。GEODE通过解耦3D推理和数值生成,使用两个专用模块——解耦理性模块(DRM)和直接回归头(DRH)来提升VLMs的性能。该架构实现了对3D空间的理解,并达到了先进的空间推理性能。
Key Takeaways
- 现有视觉语言模型(VLMs)在理解真实世界3D空间智能方面存在挑战。
- 挑战源于输入阶段的冲突和输出阶段的不对齐。
- GEODE架构通过解耦3D推理和数值生成来解决这一挑战。
- GEODE包含两个专用模块:Decoupled Rationale Module (DRM) 和 Direct Regression Head (DRH)。
- DRM作为空间协处理器,通过对齐显式3D数据和2D视觉特征,并将空间逻辑转化为可注入的理性令牌。
- DRH采用“嵌入即值”范式,通过专用控制令牌到轻量级MLP,实现精确、连续的标量回归和3D边界框回归。
点此查看论文截图
Multi-agent Undercover Gaming: Hallucination Removal via Counterfactual Test for Multimodal Reasoning
Authors:Dayong Liang, Xiao-Yong Wei, Changmeng Zheng
Hallucination continues to pose a major obstacle in the reasoning capabilities of large language models (LLMs). Although the Multi-Agent Debate (MAD) paradigm offers a promising solution by promoting consensus among multiple agents to enhance reliability, it relies on the unrealistic assumption that all debaters are rational and reflective, which is a condition that may not hold when agents themselves are prone to hallucinations. To address this gap, we introduce the Multi-agent Undercover Gaming (MUG) protocol, inspired by social deduction games like “Who is Undercover?”. MUG reframes MAD as a process of detecting “undercover” agents (those suffering from hallucinations) by employing multimodal counterfactual tests. Specifically, we modify reference images to introduce counterfactual evidence and observe whether agents can accurately identify these changes, providing ground-truth for identifying hallucinating agents and enabling robust, crowd-powered multimodal reasoning. MUG advances MAD protocols along three key dimensions: (1) enabling factual verification beyond statistical consensus through counterfactual testing; (2) introducing cross-evidence reasoning via dynamically modified evidence sources instead of relying on static inputs; and (3) fostering active reasoning, where agents engage in probing discussions rather than passively answering questions. Collectively, these innovations offer a more reliable and effective framework for multimodal reasoning in LLMs. The source code can be accessed at https://github.com/YongLD/MUG.git.
幻觉仍然是大型语言模型(LLM)推理能力的主要障碍。虽然多智能体辩论(MAD)范式通过促进多个智能体之间的共识来提高可靠性,从而提供了有前景的解决方案,但它依赖于一个不切实际的假设,即所有辩论者都是理性和反思的,这在智能体自身容易陷入幻觉的情况下可能不成立。为了解决这一差距,我们受到“谁是卧底?”等社会推理游戏的启发,引入了多智能体卧底游戏(MUG)协议。MUG将MAD重新构建为检测“卧底”智能体(即那些出现幻觉的智能体)的过程,采用多模式反事实测试。具体来说,我们修改参考图像以引入反事实证据,并观察智能体是否能准确识别这些变化,为识别幻觉智能体提供真实依据,从而实现健壮的、众源的多模式推理。MUG在三个关键维度上推动了MAD协议的发展:(1)通过反事实测试实现超越统计共识的事实验证;(2)通过动态修改的证据源引入交叉证据推理,而不是依赖静态输入;(3)培养主动推理,让智能体参与探究讨论,而不是被动回答问题。总的来说,这些创新为多模态语言模型(LLM)中的推理提供了更可靠、更有效的框架。源代码可访问https://github.com/YongLD/MUG.git。
论文及项目相关链接
PDF Accepted by AAAI 2026
Summary
大型语言模型(LLM)的推理能力仍然面临幻觉这一主要障碍。虽然多智能体辩论(MAD)范式通过促进多个智能体之间的共识来增强可靠性,为解决这一问题提供了希望,但它依赖于所有辩论者都是理性和反思的这一不切实际的假设。为了解决这一差距,我们受到“谁是卧底”等社会推理游戏的启发,引入了多智能体卧底游戏(MUG)协议。MUG将MAD重新构建为一个检测“卧底”智能体的过程,通过采用多模态反事实测试来识别那些受到幻觉影响的智能体。具体来说,我们修改参考图像以引入反事实证据,并观察智能体是否能准确识别这些变化,从而为识别幻觉智能体提供真实依据,实现了可靠、众包的多模态推理。MUG在三个关键方面推进了MAD协议:通过反事实测试实现事实验证,而非仅依赖统计共识;通过动态修改证据来源引入交叉证据推理,而非依赖静态输入;以及培养智能体的主动推理能力,使其参与探讨而非被动回答问题。这些创新为LLM中的多模态推理提供了更可靠、有效的框架。
Key Takeaways
- 大型语言模型(LLM)在推理过程中面临的主要挑战是幻觉问题。
- 多智能体辩论(MAD)范式虽然提供了解决策略,但基于不切实际的假设。
- 提出了一种新的协议,即多智能体卧底游戏(MUG),灵感来自社交推理游戏。
- MUG采用多模态反事实测试来识别受幻觉影响的智能体。
- 通过修改参考图像来引入反事实证据并进行观察验证。
- MUG通过事实验证、交叉证据推理和主动推理推动MAD协议的发展。
点此查看论文截图