嘘~ 正在从服务器偷取页面 . . .

LLM


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-22 更新

Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO

Authors:Junhao Cheng, Liang Hou, Xin Tao, Jing Liao

While language models have become impactful in many real-world applications, video generation remains largely confined to entertainment. Motivated by video’s inherent capacity to demonstrate physical-world information that is difficult to convey through language alone (e.g., imagine teaching someone to tie a tie using only text), we identify an underutilized opportunity to extend video as a new answer modality for Next-Event Prediction (NEP), formalized as Video-Next-Event Prediction (VNEP). While the established NEP task takes a video with a procedural or predictive question as input to predict the next event in text, VNEP requires dynamic video responses. This shift from telling to showing unlocks more intuitive and customized answers for procedural learning and creative exploration. However, this task remains challenging for existing models, as it demands an understanding of multimodal input, instruction-conditioned reasoning, and the generation of video with visual and semantic consistency. To address this, we introduce VANS, a model that leverages reinforcement learning to align a Vision-Language Model (VLM) with a Video Diffusion Model (VDM) for VNEP. The core of VANS is our proposed Joint-GRPO that orchestrates the VLM and VDM to function as a unit. Driven by a shared reward on their respective output, it optimizes the VLM to produce captions that are both accurate and friendly to visualize, while guiding the VDM to generate videos that are faithful to these captions and the input visual context. To enable this learning, we craft VANS-Data-100K, a dedicated dataset for the VNEP task. Experiments on procedural and predictive benchmarks demonstrate that VANS achieves state-of-the-art performance in both video event prediction and visualization. Codes are released in https://github.com/KlingTeam/VANS.

虽然语言模型在许多实际应用中产生了影响,但视频生成仍然主要局限于娱乐。受到视频固有能力的启发,即展示物理世界的信息,这些信息仅通过语言很难传达(例如,想象只用文字教别人打领带),我们发现了扩展视频作为下一代事件预测(NEP)的新答案模式的机会,正式定义为视频下一代事件预测(VNEP)。现有的NEP任务是将带有程序性或预测性问题视频作为输入来预测文本中的下一个事件,而VNEP则需要动态的视频响应。这种从讲述到展示的转变为程序学习和创造性探索提供了更直观和定制化的答案。然而,此任务对于现有模型来说仍然具有挑战性,因为它需要理解多模式输入、指令条件推理以及生成具有视觉和语义一致性的视频。为了解决这一问题,我们引入了VANS,这是一个利用强化学习将视觉语言模型(VLM)与视频扩散模型(VDM)对齐的模型来进行VNEP。VANS的核心是我们提出的联合GRPO,它协调VLM和VDM作为一个单元进行工作。通过共享各自的输出奖励来驱动,它优化VLM产生既准确又易于可视化的字幕,同时引导VDM生成忠实于这些字幕和输入视觉环境的视频。为了实现这种学习,我们制作了VANS-Data-100K,这是专为VNEP任务设计的数据集。在程序性和预测性基准测试上的实验表明,VANS在视频事件预测和可视化方面都达到了最新技术水平。相关代码已发布在https://github.com/KlingTeam/VANS。

论文及项目相关链接

PDF Project page: https://video-as-answer.github.io/

Summary

视频生成技术在娱乐领域应用广泛,但其潜力远不止于此。本文提出了一种新的机会,即扩展视频作为下一代事件预测(NEP)的新答案模态,正式定义为视频下一代事件预测(VNEP)。与传统的以视频和预测问题为输入的NEP任务不同,VNEP需要动态的视频响应。这种从告知到展示的转变为程序学习和创造性探索提供了更直观和定制化的答案。然而,这一任务对现有的模型来说仍然具有挑战性,因为它需要理解多模态输入、指令条件推理以及生成具有视觉和语义一致性的视频。为了应对这一挑战,本文引入了VANS模型,该模型利用强化学习将视觉语言模型(VLM)与视频扩散模型(VDM)对齐,用于VNEP。VANS的核心是本文提出的联合GRPO,它协调VLM和VDM作为一个单元进行工作。在各自输出的共享奖励驱动下,它优化VLM生成既准确又易于可视化的字幕,同时引导VDM生成忠于这些字幕和输入视觉环境的视频。为此学习,我们打造了VANS-Data-100K,一个专为VNEP任务的数据集。实验证明,VANS在视频事件预测和可视化方面都达到了最先进的性能。

Key Takeaways

  1. 视频生成技术在娱乐领域应用广泛,但具有更大的潜力用于其他领域。
  2. 提出了一种新的任务:视频下一代事件预测(VNEP),旨在利用视频作为答案模态。
  3. VNEP与传统NEP任务不同,需要动态的视频响应,以展示更直观和定制化的答案。
  4. 现有模型在应对VNEP任务时面临挑战,需要理解多模态输入、指令条件推理以及生成具有视觉和语义一致性的视频。
  5. 介绍了VANS模型,通过强化学习协调视觉语言模型(VLM)和视频扩散模型(VDM)以应对这些挑战。
  6. VANS的核心是联合GRPO,它协调VLM和VDM作为一个单元进行工作,优化字幕和视频生成。

Cool Papers

点此查看论文截图

Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter

Authors:Qinghao Hu, Shang Yang, Junxian Guo, Xiaozhe Yao, Yujun Lin, Yuxian Gu, Han Cai, Chuang Gan, Ana Klimovic, Song Han

The emergence of Large Language Models (LLMs) with strong reasoning capabilities marks a significant milestone, unlocking new frontiers in complex problem-solving. However, training these reasoning models, typically using Reinforcement Learning (RL), encounters critical efficiency bottlenecks: response generation during RL training exhibits a persistent long-tail distribution, where a few very long responses dominate execution time, wasting resources and inflating costs. To address this, we propose TLT, a system that accelerates reasoning RL training losslessly by integrating adaptive speculative decoding. Applying speculative decoding in RL is challenging due to the dynamic workloads, evolving target model, and draft model training overhead. TLT overcomes these obstacles with two synergistic components: (1) Adaptive Drafter, a lightweight draft model trained continuously on idle GPUs during long-tail generation to maintain alignment with the target model at no extra cost; and (2) Adaptive Rollout Engine, which maintains a memory-efficient pool of pre-captured CUDAGraphs and adaptively select suitable SD strategies for each input batch. Evaluations demonstrate that TLT achieves over 1.7x end-to-end RL training speedup over state-of-the-art systems, preserves the model accuracy, and yields a high-quality draft model as a free byproduct suitable for efficient deployment. Code is released at https://github.com/mit-han-lab/fastrl.

大型语言模型(LLM)的涌现,以其强大的推理能力为标志,开辟了复杂问题解决的全新领域。然而,通常使用强化学习(RL)来训练这些推理模型时,会遇到关键的效率瓶颈:RL训练过程中的响应生成呈现出持久的长尾分布,少数非常长的响应主导了执行时间,浪费了资源并增加了成本。为了解决这一问题,我们提出了TLT系统,它通过集成自适应推测解码来无损地加速推理RL训练。在RL中应用推测解码具有挑战性,因为存在动态工作量、目标模型的演变以及草案模型训练开销。TLT通过两个协同组件克服这些障碍:(1)自适应起草者,这是一个轻量级的草案模型,在长尾生成期间连续在闲置的GPU上进行训练,以与目标模型保持一致,无需额外成本;(2)自适应滚动引擎,它维护一个高效的预捕获CUDAGraph池,并自适应地为每个输入批次选择适合的SD策略。评估表明,TLT相较于最新系统实现了超过1.7倍端到端的RL训练加速,保持了模型精度,并产生了适合高效部署的高质量草案模型作为副产品。代码已发布在https://github.com/mit-han-lab/fastrl。

论文及项目相关链接

PDF

Summary

大型语言模型(LLM)的出现标志着人工智能发展的一个重要里程碑,具有强大的推理能力,可以解锁复杂问题解决的全新领域。然而,使用强化学习(RL)训练这些推理模型时存在效率瓶颈问题。训练过程中响应生成呈现出持久的长尾分布特征,极少数极长的响应占据大量执行时间,造成资源浪费和成本增加。针对此问题,我们提出了TLT系统,它通过集成自适应投机解码无损加速推理RL训练。TLT包含两个协同工作的组件:自适应草稿者和自适应滚动引擎。评估表明,TLT较现有系统实现了超过1.7倍端到端的RL训练加速,同时保持模型精度,并产生适合高效部署的高质量草稿模型作为副产品。

Key Takeaways

  1. 大型语言模型(LLM)的出现标志着在复杂问题解决领域的一个重大进展,但强化学习(RL)训练存在效率瓶颈。
  2. 训练过程中的响应生成呈现长尾分布特征,导致资源浪费和成本增加。
  3. TLT系统通过集成自适应投机解码来加速无损推理RL训练。
  4. TLT包含两个主要组件:自适应草稿者和自适应滚动引擎,分别应对训练中的不同挑战。
  5. 自适应草稿者利用空闲GPU进行轻量级模型训练,保持与目标模型的同步,不增加额外成本。
  6. 自适应滚动引擎通过维护预捕获的CUDAGraphs的内存有效池并自适应选择适合每个输入批次的SD策略,提高了训练效率。
  7. 评估显示,TLT实现了超过1.7倍的RL训练加速,保持模型精度,并产生适合高效部署的草稿模型。

Cool Papers

点此查看论文截图

Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs

Authors:Ali Taghibakhshi, Sharath Turuvekere Sreenivas, Saurav Muralidharan, Ruisi Cai, Marcin Chochowski, Ameya Sunil Mahabaleshwarkar, Yoshi Suhara, Oluwatobi Olabiyi, Daniel Korzekwa, Mostofa Patwary, Mohammad Shoeybi, Jan Kautz, Bryan Catanzaro, Ashwath Aithal, Nima Tajbakhsh, Pavlo Molchanov

Training a family of large language models targeting multiple scales and deployment objectives is prohibitively expensive, requiring separate training runs for each different size. Recent work on model compression through pruning and knowledge distillation has reduced this cost; however, this process still incurs hundreds of billions of tokens worth of training cost per compressed model. In this paper, we present Nemotron Elastic, a framework for building reasoning-oriented LLMs, including hybrid Mamba-Attention architectures, that embed multiple nested submodels within a single parent model, each optimized for different deployment configurations and budgets. Each of these submodels shares weights with the parent model and can be extracted zero-shot during deployment without additional training or fine-tuning. We enable this functionality through an end-to-end trained router, tightly coupled to a two-stage training curriculum designed specifically for reasoning models. We additionally introduce group-aware SSM elastification that preserves Mamba’s structural constraints, heterogeneous MLP elastification, normalized MSE-based layer importance for improved depth selection, and knowledge distillation enabling simultaneous multi-budget optimization. We apply Nemotron Elastic to the Nemotron Nano V2 12B model, simultaneously producing a 9B and a 6B model using only 110B training tokens; this results in over 360x cost reduction compared to training model families from scratch, and around 7x compared to SoTA compression techniques. Each of the nested models performs on par or better than the SoTA in accuracy. Moreover, unlike other compression methods, the nested capability of our approach allows having a many-in-one reasoning model that has constant deployment memory against the number of models in the family.

训练针对多种规模和部署目标的大型语言模型家族是一项极其昂贵的任务,需要为每个不同大小的模型进行单独的训练。最近关于通过剪枝和知识蒸馏进行模型压缩的工作已经降低了成本,然而,这个过程仍然会为每个压缩模型产生数百亿个令牌的价值训练成本。在本文中,我们介绍了Nemotron Elastic框架,该框架用于构建面向推理的大型语言模型,包括混合Mamba-Attention架构,该架构在单个父模型中嵌入多个嵌套子模型,每个子模型都针对不同的部署配置和预算进行了优化。这些子模型与父母模型共享权重,在部署期间可以零射击提取,无需额外的训练或微调。我们通过端到端训练的路由器实现此功能,该路由器紧密耦合到专门用于推理模型的两阶段训练课程。此外,我们引入了保留Mamba结构约束的组感知SSM弹性化、异质MLP弹性化、基于归一化MSE的层重要性改进深度选择以及知识蒸馏,以实现同时多预算优化。我们将Nemotron Elastic应用于Nemotron Nano V2 1 12B模型,仅使用110B训练令牌就同时产生了9B和6B模型。与从头开始训练模型家族相比,这导致了超过360倍的成本降低,与当前状态压缩技术相比,大约降低了7倍。每个嵌套模型在准确性方面都达到了或超过了当前状态的技术水平。而且,与其他压缩方法不同,我们的方法的嵌套功能允许拥有一个多合一的推理模型,其部署内存恒定且不受模型中数量的影响。

论文及项目相关链接

PDF

摘要

本文介绍了Nemotron Elastic框架,用于构建面向推理的大型语言模型家族。该框架嵌入多个嵌套子模型于单一父模型中,针对不同的部署配置和预算进行优化。通过端到端的训练路由器与两阶段训练课程紧密结合,实现了子模型与父模型权重的共享,部署时无需额外训练或微调即可零射提取。此外,引入群体感知SSM弹性化、异质MLP弹性化、基于归一化MSE的层重要性改进以及知识蒸馏等技术,实现了同时多预算优化。应用于Nemotron Nano V2 12B模型的实例显示,仅使用110B训练令牌就同时产生了9B和6B模型,与从头开始训练模型家族相比,成本降低了360倍以上,与现有压缩技术相比,成本降低了约7倍。每个嵌套模型在准确性方面与现有技术相当或更好。此外,与其他压缩方法不同,该嵌套能力的方法允许构建一个许多合一的推理模型,其部署内存恒定,不受模型家族中模型数量的影响。

关键见解

  1. 构建面向推理的大型语言模型家族面临高昂的训练成本。
  2. Nemotron Elastic框架嵌入多个嵌套子模型于单一父模型中,优化不同部署配置和预算。
  3. 通过端到端的训练路由器与两阶段训练课程实现子模型与父模型权重的共享,零射提取部署。
  4. 引入多种技术如SSM弹性化、MLP弹性化、基于归一化MSE的层重要性改进和知识蒸馏实现同时多预算优化。
  5. 应用实例显示,与从头开始训练模型家族相比,成本大幅降低,每个嵌套模型的性能与现有技术相当或更好。
  6. 嵌套能力的方法允许构建一个许多合一的推理模型,其部署内存恒定,不受模型大小影响。
  7. 该方法为提高大型语言模型的效率、降低部署成本提供了新的解决方案。

Cool Papers

点此查看论文截图

Comparison of Text-Based and Image-Based Retrieval in Multimodal Retrieval Augmented Generation Large Language Model Systems

Authors:Elias Lumer, Alex Cardenas, Matt Melich, Myles Mason, Sara Dieter, Vamse Kumar Subbiah, Pradeep Honaganahalli Basavaraju, Roberto Hernandez

Recent advancements in Retrieval-Augmented Generation (RAG) have enabled Large Language Models (LLMs) to access multimodal knowledge bases containing both text and visual information such as charts, diagrams, and tables in financial documents. However, existing multimodal RAG systems rely on LLM-based summarization to convert images into text during preprocessing, storing only text representations in vector databases, which causes loss of contextual information and visual details critical for downstream retrieval and question answering. To address this limitation, we present a comprehensive comparative analysis of two retrieval approaches for multimodal RAG systems, including text-based chunk retrieval (where images are summarized into text before embedding) and direct multimodal embedding retrieval (where images are stored natively in the vector space). We evaluate all three approaches across 6 LLM models and a two multi-modal embedding models on a newly created financial earnings call benchmark comprising 40 question-answer pairs, each paired with 2 documents (1 image and 1 text chunk). Experimental results demonstrate that direct multimodal embedding retrieval significantly outperforms LLM-summary-based approaches, achieving absolute improvements of 13% in mean average precision (mAP@5) and 11% in normalized discounted cumulative gain. These gains correspond to relative improvements of 32% in mAP@5 and 20% in nDCG@5, providing stronger evidence of their practical impact. We additionally find that direct multimodal retrieval produces more accurate and factually consistent answers as measured by LLM-as-a-judge pairwise comparisons. We demonstrate that LLM summarization introduces information loss during preprocessing, whereas direct multimodal embeddings preserve visual context for retrieval and inference.

最近,检索增强生成(RAG)领域的进展使得大型语言模型(LLM)能够访问包含文本和视觉信息(如金融文档中的图表、图解和表格)的多模态知识库。然而,现有的多模态RAG系统依赖于LLM的摘要将图像在预处理阶段转换为文本,仅存储文本表示在向量数据库中,这导致了下游检索和问答中至关重要的上下文信息和视觉细节的丢失。为了解决这个问题,我们对两种多模态RAG系统的检索方法进行了全面的比较分析,包括基于文本的块检索(图像嵌入前先进行文本摘要)和直接多模态嵌入检索(图像直接在向量空间中存储)。我们在新创建的金融收益电话基准测试上评估了所有三种方法,该基准测试包括40个问答对,每个问答对与两个文档配对(一个图像和一个文本块),并跨六个LLM模型和两个多模态嵌入模型。实验结果表明,直接多模态嵌入检索显著优于基于LLM摘要的方法,在平均准确率均值(mAP@5)和归一化折扣累积增益(nDCG)方面绝对提高了13%和11%。这些收益相当于在mAP@5和nDCG@5方面分别提高了32%和2.随着技术的发展及普及,”问在在线找工作简历匹配的精准度如何提高。在各种算法的指导下(例如贝叶斯分类器或神经网络算法),雇主能够通过上传个人简历的电子版本与工作岗位要求的特定关键词匹配简历吗?如何有效地实现这一目标?”这个问题的答案依赖于所使用的技术和工具。在某些情况下,可以使用各种算法(如贝叶斯分类器或神经网络算法)来匹配简历和职位需求。这些算法可以根据工作岗位的要求提取关键词,并将其与上传的个人简历进行匹配。然而,这种匹配方法的结果准确性可能会受到简历和职位描述的质量和清晰度的限制。为了实现精准匹配简历和提高工作效率的目标,可能需要借助于在线简历匹配系统来协助处理和分析。这样的系统可以使用自然语言处理技术对职位描述进行语义分析,以及识别不同技能和相关经验的重要特征等。此外,一些在线简历匹配系统还允许雇主通过上传个人简历的电子版本进行自动化筛选和匹配。这些系统可以自动筛选符合特定要求的候选人,并将他们与相应的职位匹配。然而,尽管这些技术可以提高匹配简历的效率和准确性,但雇主仍然需要考虑其他因素来做出决策,例如面试结果、候选人的个性特征等。因此,”在线找工作简历匹配的精准度如何提高”这个问题的答案是一个复杂的过程,涉及到多个方面的因素和技术手段的运用。在实践中,需要根据具体情况综合考虑这些因素和技术手段的应用。总的来说,通过利用先进的技术手段和合理的流程设计,可以提高在线找工作简历匹配的精准度和工作效率。

论文及项目相关链接

PDF

摘要

最新进展使得大型语言模型能够访问包含文本和视觉信息(如图表、图表和表格)的多模态知识库。然而,现有的多模态RAG系统依赖LLM进行图像转文本的预处理,并将文本表示存储在向量数据库中,这导致了关键上下文信息和视觉细节的丢失,对于下游检索和问答至关重要。本文全面比较分析了两种多模态RAG系统的检索方法,包括基于文本的块检索(图像先转为文本再嵌入)和直接多模态嵌入检索(图像原样存储于向量空间)。在全新的金融收益调查基准测试中,我们评估了三种方法和六个LLM模型及两个多模态嵌入模型。实验结果显示,直接多模态嵌入检索明显优于基于LLM总结的方法,平均精度均值(mAP@5)提高了13%,归一化折损累积增益(nDCG@5)提高了11%。这一增长分别对应着mAP@5的32%和nDCG@5的20%的相对改善,进一步证明了其实践影响。此外,我们还发现直接多模态检索产生的答案更准确且符合事实。LLM总结在预处理过程中会造成信息损失,而直接多模态嵌入则保留了视觉上下文,有助于检索和推理。

关键见解

  1. LLM现在可以访问包含文本和视觉信息的多模态知识库。
  2. 现有RAG系统依赖LLM将图像转化为文本,导致关键信息的丢失。
  3. 直接多模态嵌入检索方法显著优于基于LLM总结的方法。
  4. 直接多模态嵌入检索在平均精度和归一化折损累积增益方面有明显改善。
  5. 直接多模态检索产生的答案更准确且符合事实。
  6. LLM总结在预处理时会造成信息损失。

Cool Papers

点此查看论文截图

You Only Forward Once: An Efficient Compositional Judging Paradigm

Authors:Tianlong Zhang, Hongwei Xue, Shilin Yan, Di Wu, Chen Xu, Yunyun Yang

Multimodal large language models (MLLMs) show strong potential as judges. However, existing approaches face a fundamental trade-off: adapting MLLMs to output a single score misaligns with the generative nature of MLLMs and limits fine-grained requirement understanding, whereas autoregressively generating judging analyses is prohibitively slow in high-throughput settings. Observing that judgment reduces to verifying whether inputs satisfy a set of structured requirements, we propose YOFO, a template-conditioned method that judges all requirements in a single forward pass. Built on an autoregressive model, YOFO accepts a structured requirement template and, in one inference step, produces a binary yes/no decision for each requirement by reading the logits of the final token associated with that requirement. This design yields orders-of-magnitude speedups while preserving interpretability. Extensive experiments show that YOFO not only achieves state-of-the-art results on standard recommendation datasets, but also supports dependency-aware analysis-where subsequent judgments are conditioned on previous ones-and further benefits from post-hoc CoT.

多模态大型语言模型(MLLMs)在评判方面显示出强大的潜力。然而,现有方法面临一个基本权衡:将MLLMs调整为输出单一分数,这与MLLMs的生成性质不符,并限制了精细需求理解,而自回归生成评判分析在高吞吐量环境下速度过慢。观察到判断归结为验证输入是否满足一系列结构化要求,我们提出YOFO,一种基于模板的条件方法,可在单次前向传递中判断所有要求。YOFO建立在自回归模型之上,接受结构化要求模板,并在一个推理步骤中,通过读取与要求相关的最后一个令牌的逻辑值,为每个要求生成是或否的二元决定。这种设计在保持可解释性的同时,实现了数量级的加速。大量实验表明,YOFO不仅在标准推荐数据集上实现了最新结果,还支持依赖意识分析(后续判断以先前判断为基础),并受益于事后事后解释(CoT)。

论文及项目相关链接

PDF

Summary

大型多模态语言模型(MLLMs)作为裁判具有强大的潜力。然而,现有方法面临基本权衡:将MLLMs调整为输出单一分数与其生成性质不符并限制了精细需求理解,而生成判断分析的自回归方法在高吞吐量场景下过于缓慢。本研究观察到判断实质上是验证输入是否满足一系列结构化要求,因此提出了一种基于模板的条件方法YOFO,可在单次前向传递中对所有要求进行判断。YOFO建立在自回归模型上,接受结构化要求模板,并在一步推断中,通过读取与要求相关联的最终令牌的对数,为每个要求产生是或否的二元决策。这种设计在保持可解释性的同时实现了数量级的加速。大量实验表明,YOFO不仅在标准推荐数据集上实现了最新结果,还支持依赖感知分析(后续判断基于先前判断)并从事后认知偏移(CoT)中获益。

Key Takeaways

  1. 多模态大型语言模型(MLLMs)作为裁判具有巨大潜力。
  2. 现有MLLMs方法面临在输出单一分数和保持生成性质之间的权衡,同时也存在速度和处理精细需求理解的限制。
  3. 判断实质上是验证输入是否满足一系列结构化要求。
  4. YOFO是一种基于模板的条件方法,能在单次前向传递中对所有要求进行判断,实现了数量级的加速。
  5. YOFO接受结构化要求模板,并为每个要求产生二元决策。
  6. YOFO在标准推荐数据集上实现了最新结果,并支持依赖感知分析。

Cool Papers

点此查看论文截图

TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding

Authors:Boshen Xu, Zihan Xiao, Jiaze Li, Jianzhong Ju, Zhenbo Luo, Jian Luan, Qin Jin

We introduce TimeViper, a hybrid vision-language model designed to tackle challenges of long video understanding. Processing long videos demands both an efficient model architecture and an effective mechanism for handling extended temporal contexts. To this end, TimeViper adopts a hybrid Mamba-Transformer backbone that combines the efficiency of state-space models with the expressivity of attention mechanisms. Through this hybrid design, we reveal the vision-to-text information aggregation phenomenon, where information progressively flows from vision tokens to text tokens across increasing LLM depth, resulting in severe vision token redundancy. Motivated by this observation, we propose TransV, a token information transfer module that transfers and compresses vision tokens into instruction tokens while maintaining multimodal understanding capabilities. This design enables TimeViper to process hour-long videos exceeding 10,000 frames. Extensive experiments across multiple benchmarks demonstrate that TimeViper competes with state-of-the-art models while extending frame numbers. We further analyze attention behaviors of both Mamba and Transformer layers, offering new insights into hybrid model interpretability. This work represents an initial step towards developing, interpreting, and compressing hybrid Mamba-Transformer architectures.

我们推出了TimeViper,这是一款混合视觉语言模型,旨在解决长视频理解面临的挑战。处理长视频需要高效的模型架构和有效的处理扩展时间上下文机制。为此,TimeViper采用了混合Mamba-Transformer骨干网,结合了状态空间模型的效率和注意力机制的表达能力。通过这一混合设计,我们揭示了视觉到文本的信息聚合现象,即信息从视觉令牌逐步流向文本令牌,随着大型语言模型深度的增加,导致严重的视觉令牌冗余。受此观察结果的启发,我们提出了TransV,这是一个令牌信息传递模块,能够将视觉令牌转移并压缩成指令令牌,同时保持多模式理解能力。这种设计使TimeViper能够处理超过10,000帧的长时间视频。在多个基准测试的大量实验表明,TimeViper在与最新模型的竞争中表现良好,同时扩展了帧数。我们进一步分析了Mamba和Transformer层的注意力行为,为混合模型的解释性提供了新的见解。这项工作是开发、解释和压缩混合Mamba-Transformer架构的初步步骤。

论文及项目相关链接

PDF Project page: https://xuboshen.github.io/TimeViper

Summary
时间Viper是一种混合视觉语言模型,旨在解决长视频理解的挑战。它采用混合的Mamba-Transformer架构,结合了状态空间模型的效率和注意力机制的表达能力。该设计揭示了从视觉到文本的渐进信息聚合现象,基于此,提出了TransV模块,能够转移和压缩视觉令牌以维持多媒体理解功能。这使TimeViper能够处理超过一万帧的长达一小时的视频。广泛的实验证明,TimeViper与最先进的模型竞争,同时扩展了框架数量。此外,还分析了Mamba和Transformer层的注意力行为,为混合模型的可解释性提供了新的见解。这项工作是开发、解释和压缩混合Mamba-Transformer架构的初步尝试。

Key Takeaways

  1. TimeViper是一种混合视觉语言模型,旨在处理长视频理解挑战。
  2. 它结合了状态空间模型的效率和注意力机制的表达能力。
  3. TimeViper揭示了从视觉到文本的渐进信息聚合现象。
  4. TransV模块被提出用于转移和压缩视觉令牌,以维持多媒体理解功能。
  5. TimeViper能够处理长达一小时、超过一万帧的视频。
  6. 在多个基准测试中,TimeViper与最先进的模型表现相当,同时扩展了框架数量。

Cool Papers

点此查看论文截图

The Oracle and The Prism: A Decoupled and Efficient Framework for Generative Recommendation Explanation

Authors:Jiaheng Zhang, Daqiang Zhang

The integration of Large Language Models (LLMs) into explainable recommendation systems often leads to a performance-efficiency trade-off in end-to-end architectures, where joint optimization of ranking and explanation can result in suboptimal compromises. To resolve this, we propose Prism, a novel decoupled framework that rigorously separates the recommendation process into a dedicated ranking stage and an explanation generation stage. Inspired by knowledge distillation, Prism leverages a powerful teacher LLM (e.g., FLAN-T5-XXL) as an Oracle to produce high-fidelity explanatory knowledge. A compact, fine-tuned student model (e.g., BART-Base), the Prism, then specializes in synthesizing this knowledge into personalized explanations. This decomposition ensures that each component is optimized for its specific objective, eliminating inherent conflicts in coupled models. Extensive experiments on benchmark datasets demonstrate that our 140M-parameter Prism model significantly outperforms its 11B-parameter teacher in human evaluations of faithfulness and personalization, while achieving a 24 times speedup and a 10 times reduction in memory consumption during inference. These results validate that decoupling, coupled with targeted distillation, provides an efficient and effective pathway to high-quality explainable recommendation.

将大型语言模型(LLM)集成到可解释推荐系统中,通常在端到端架构中导致性能效率权衡,排名和解释的联合优化可能导致次优妥协。为解决这一问题,我们提出了Prism,这是一种新型解耦框架,它将推荐过程严格分离为专门的排名阶段和解释生成阶段。受知识蒸馏的启发,Prism利用强大的教师LLM(例如FLAN-T5-XXL)作为Oracle产生高保真解释知识。然后,一个紧凑、经过微调的学生模型(例如BART-Base),即Prism,专门将这些知识合成个性化的解释。这种分解确保每个组件都针对其特定目标进行优化,消除了耦合模型中的固有冲突。在基准数据集上的大量实验表明,我们的1.4亿参数Prism模型在人类对忠诚度和个性化的评估中显著优于其110亿参数的老师,同时在推理过程中实现了24倍的速度提升和10倍的内存消耗减少。这些结果验证了通过有针对性的蒸馏进行解耦,是通向高质量可解释推荐的高效有效途径。

论文及项目相关链接

PDF 11 pages,3 figures

Summary

大型语言模型(LLM)融入可解释推荐系统时,在端到端架构中常面临性能效率权衡问题,联合优化排名和解释可能导致次优妥协。为解决此问题,我们提出Prism,一个将推荐过程严格分离为专门的排名阶段和解释生成阶段的新型解耦框架。受知识蒸馏启发,Prism利用强大的教师LLM(如FLAN-T5-XXL)作为Oracle产生高保真解释知识。一个精简、经过微调的学生模型(如BART-Base),即Prism,然后专门将这些知识合成为个性化的解释。这种分解确保每个组件都能针对其特定目标进行优化,消除了联合模型中的固有冲突。在基准数据集上的大量实验表明,我们的1.4亿参数Prism模型在人类对忠诚度和个性化的评估中显著优于其11亿参数的老师,同时在推理过程中实现了24倍的速度提升和10倍的内存消耗减少。这些结果验证了去耦结合有针对性的蒸馏,为高效高质量的可解释推荐提供了途径。

Key Takeaways

  1. LLMs在融入可解释推荐系统时面临性能效率权衡问题。
  2. Prism框架将推荐过程分为排名阶段和解释生成阶段,以优化每个阶段的目标。
  3. Prism利用知识蒸馏,使用强大的教师LLM产生高保真解释知识。
  4. Prism学生模型能够合成并提供个性化的解释。
  5. 解耦框架消除了联合模型中的固有冲突。
  6. 在基准数据集上,Prism模型表现出优异的性能,超越了其教师模型。
  7. Prism模型实现了显著的速度提升和内存消耗减少。

Cool Papers

点此查看论文截图

LLM4EO: Large Language Model for Evolutionary Optimization in Flexible Job Shop Scheduling

Authors:Rongjie Liao, Junhao Qiu, Xin Chen, Xiaoping Li

Customized static operator design has enabled widespread application of Evolutionary Algorithms (EAs), but their search performance is transient during iterations and prone to degradation. Dynamic operators aim to address this but typically rely on predefined designs and localized parameter control during the search process, lacking adaptive optimization throughout evolution. To overcome these limitations, this work leverages Large Language Models (LLMs) to perceive evolutionary dynamics and enable operator-level meta-evolution. The proposed framework, LLMs for Evolutionary Optimization (LLM4EO), comprises three components: knowledge-transfer-based operator design, evolution perception and analysis, and adaptive operator evolution. Firstly, initialization of operators is performed by transferring the strengths of classical operators via LLMs. Then, search preferences and potential limitations of operators are analyzed by integrating fitness performance and evolutionary features, accompanied by corresponding suggestions for improvement. Upon stagnation of population evolution, gene selection priorities of operators are dynamically optimized via improvement prompting strategies. This approach achieves co-evolution of populations and operators in the search, introducing a novel paradigm for enhancing the efficiency and adaptability of EAs. Finally, a series of validations on multiple benchmark datasets of the flexible job shop scheduling problem demonstrate that LLM4EO accelerates population evolution and outperforms both mainstream evolutionary programming and traditional EAs.

定制静态算子设计已经实现了进化算法(EA)的广泛应用,但其在迭代过程中的搜索性能是瞬态的,容易退化。动态算子旨在解决这一问题,但通常依赖于搜索过程中的预设设计和局部参数控制,缺乏整个进化过程的自适应优化。为了克服这些限制,这项工作利用大型语言模型(LLM)来感知进化动态并实现算子级别的元进化。所提出的LLM进化优化框架(LLM4EO)包括三个组成部分:基于知识转移的算子设计、进化感知和分析以及自适应算子进化。首先,通过LLM转移经典算子的优势来实现算子的初始化。然后,通过整合适应度性能和进化特征来分析算子的搜索偏好和潜在局限性,并给出相应的改进建议。当种群进化停滞时,通过改进提示策略动态优化算子的基因选择优先级。这种方法实现了搜索过程中的种群和算子的协同进化,为增强EA的效率和适应性引入了一种新的范式。最后,对柔性作业车间调度问题的多个基准数据集的一系列验证表明,LLM4EO加速了种群进化,并优于主流进化编程和传统EA。

论文及项目相关链接

PDF

Summary

基于大型语言模型(LLM)的演化优化框架,实现定制化静态操作设计进化算法的动态演化,以提升搜索效率及适应性问题。此框架通过知识迁移进行设计初始化,通过感知和分析演化特征以指导优化方向,动态调整基因选择优先级以应对种群演化停滞问题。在多个基准数据集上的验证显示,该框架加速种群演化并优于主流进化编程和传统进化算法。

Key Takeaways

  1. LLM用于进化算法(EA)的演化优化框架实现了动态操作设计。
  2. 该框架结合了知识迁移技术来初始化操作设计。
  3. 通过感知和分析演化特征来指导操作优化的方向。
  4. 在种群演化停滞时,动态调整操作设计的基因选择优先级以进行优化。
  5. 此框架通过大型语言模型(LLM)进行深度感知,实现了操作和种群之间的协同演化。
  6. 在多个基准数据集上的验证显示,该框架在解决灵活作业车间调度问题上表现出优越性能。

Cool Papers

点此查看论文截图

Large Language Model-Based Reward Design for Deep Reinforcement Learning-Driven Autonomous Cyber Defense

Authors:Sayak Mukherjee, Samrat Chatterjee, Emilie Purvine, Ted Fujimoto, Tegan Emerson

Designing rewards for autonomous cyber attack and defense learning agents in a complex, dynamic environment is a challenging task for subject matter experts. We propose a large language model (LLM)-based reward design approach to generate autonomous cyber defense policies in a deep reinforcement learning (DRL)-driven experimental simulation environment. Multiple attack and defense agent personas were crafted, reflecting heterogeneity in agent actions, to generate LLM-guided reward designs where the LLM was first provided with contextual cyber simulation environment information. These reward structures were then utilized within a DRL-driven attack-defense simulation environment to learn an ensemble of cyber defense policies. Our results suggest that LLM-guided reward designs can lead to effective defense strategies against diverse adversarial behaviors.

为复杂、动态环境中的自主网络攻击和防御学习代理设计奖励是专业人士面临的一项具有挑战性的任务。我们提出了一种基于大型语言模型(LLM)的奖励设计方法,在深度强化学习(DRL)驱动的仿真实验环境中生成自主网络防御策略。我们创建了多个攻击和防御代理角色,以反映代理行为的异质性,生成由LLM引导的奖励设计,首先为LLM提供情境网络模拟环境信息。这些奖励结构随后被用于DRL驱动的攻防仿真环境中,以学习一系列网络防御策略。我们的结果表明,LLM引导的奖励设计可以有效对抗多种对抗性行为。

论文及项目相关链接

PDF Accepted in the AAAI-26 Workshop on Artificial Intelligence for Cyber Security (AICS)

Summary

在复杂、动态的环境中为自主网络攻击和防御学习代理设计奖励是专家面临的一项挑战。我们提出了一种基于大型语言模型(LLM)的奖励设计方法,用于在深度强化学习(DRL)驱动的仿真环境中生成自主网络防御策略。我们创建了多个攻击和防御代理角色,以反映代理行动中的异质性,并通过提供网络模拟环境信息来指导LLM生成奖励设计。这些奖励结构被用于DRL驱动的攻防仿真环境中,以学习一系列网络防御策略。研究结果表明,LLM引导的奖励设计可以有效对抗各种对抗性行为。

Key Takeaways

  1. 大型语言模型(LLM)可用于设计奖励机制,以生成自主网络防御策略。
  2. 在复杂、动态环境中设计奖励是一项挑战。
  3. 通过创建多个攻击和防御代理角色来反映行动中的异质性。
  4. LLM基于提供的网络模拟环境信息来生成奖励设计。
  5. 奖励结构被用于DRL驱动的攻防仿真环境中。
  6. LLM引导的奖励设计能够学习到一系列网络防御策略。

Cool Papers

点此查看论文截图

OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe

Authors:Kaichen Zhang, Keming Wu, Zuhao Yang, Kairui Hu, Bin Wang, Ziwei Liu, Xingxuan Li, Lidong Bing

Recent advancements in large reasoning models have fueled growing interest in extending such capabilities to multimodal domains. However, despite notable progress in visual reasoning, the lack of transparent and reproducible data curation and training strategies remains a major barrier to scalable research. In this work, we introduce OpenMMReasoner, a fully transparent two-stage recipe for multimodal reasoning spanning supervised fine-tuning (SFT) and reinforcement learning (RL). In the SFT stage, we construct an 874K-sample cold-start dataset with rigorous step-by-step validation, providing a strong foundation for reasoning capabilities. The subsequent RL stage leverages a 74K-sample dataset across diverse domains to further sharpen and stabilize these abilities, resulting in a more robust and efficient learning process. Extensive evaluations demonstrate that our training recipe not only surpasses strong baselines but also highlights the critical role of data quality and training design in shaping multimodal reasoning performance. Notably, our method achieves a 11.6% improvement over the Qwen2.5-VL-7B-Instruct baseline across nine multimodal reasoning benchmarks, establishing a solid empirical foundation for future large-scale multimodal reasoning research. We open-sourced all our codes, pipeline, and data at https://github.com/EvolvingLMMs-Lab/OpenMMReasoner.

最近大型推理模型的进步激发了将此类能力扩展到多模态领域的兴趣。然而,尽管在视觉推理方面取得了显著的进展,但缺乏透明和可重复的数据整合和培训策略仍是阻碍规模化研究的主要障碍。在这项工作中,我们介绍了OpenMMReasoner,这是一种用于多模态推理的完全透明的两阶段方法,涵盖监督微调(SFT)和强化学习(RL)。在SFT阶段,我们使用严格按步骤验证的方法构建了一个包含87万样本的冷启动数据集,为推理能力提供了坚实的基础。随后的RL阶段利用来自不同领域的7#样本数据集进一步锐化和稳定这些能力,从而实现了更稳健和高效的学习过程。大量评估表明,我们的训练配方不仅超越了强大的基准测试,还突出了数据质量和培训设计在塑造多模态推理性能中的关键作用。值得注意的是,我们的方法在九个多模态推理基准测试中实现了对Qwen2.5-VL-7B-Instruct基准测试11.6%的改进,为未来大规模多模态推理研究奠定了坚实的实证基础。我们在https://github.com/EvolvingLMMs-Lab/OpenMMReasoner公开了所有代码、管道和数据。

论文及项目相关链接

PDF

Summary

近期大型推理模型的进展推动了向多模态领域扩展此类能力日益增加的兴趣。然而,尽管在视觉推理方面取得了显著进展,缺乏透明和可重复的数据整理和培训策略仍然是阻碍规模化研究的主要障碍。在此工作中,我们推出OpenMMReasoner,这是一个完全透明的多模态推理跨监督微调(SFT)和强化学习(RL)的两阶段配方。在SFT阶段,我们构建了一个拥有严格分步验证的87.4万样本的初始数据集,为推理能力提供了坚实的基础。随后的RL阶段利用一个涵盖不同领域的7.4万样本数据集来进一步磨砺和稳定这些能力,从而实现了一个更加稳健和高效的学习过程。广泛的评估表明,我们的训练配方不仅超越了强大的基准测试,而且突显了数据质量和培训设计在塑造多模态推理性能中的关键作用。值得注意的是,我们的方法在九个多模态推理基准测试上实现了对Qwen2.5-VL-7B-Instruct基准测试的11.6%的改进,为未来大规模多模态推理研究建立了坚实的实证基础。

Key Takeaways

  1. 近期大型推理模型的进展推动了多模态领域的研究兴趣。
  2. 缺乏透明和可重复的数据整理和培训策略仍是多模态研究的主要障碍。
  3. OpenMMReasoner是一个两阶段的完全透明多模态推理方法,包括监督微调(SFT)和强化学习(RL)。
  4. SFT阶段通过构建拥有严格分步验证的87.4万样本数据集为推理能力奠定基础。
  5. RL阶段利用涵盖不同领域的7.4万样本数据集进一步磨砺和稳定推理能力。
  6. 广泛的评估显示OpenMMReasoner不仅超越现有基准,而且突显数据质量和培训设计的重要性。

Cool Papers

点此查看论文截图

FlipVQA-Miner: Cross-Page Visual Question-Answer Mining from Textbooks

Authors:Zhen Hao Wong, Jingwen Deng, Hao Liang, Runming He, Chengyu Shen, Wentao Zhang

The development of Large Language Models (LLMs) increasingly depends on high-quality supervised data, yet existing instruction-tuning and RL datasets remain costly to curate and often rely on synthetic samples that introduce hallucination and limited diversity. At the same time, textbooks and exercise materials contain abundant, high-quality human-authored Question-Answer(QA) content that remains underexploited due to the difficulty of transforming raw PDFs into AI-ready supervision. Although modern OCR and vision-language models can accurately parse document structure, their outputs lack the semantic alignment required for training. We propose an automated pipeline that extracts well-formed QA and visual-QA (VQA) pairs from educational documents by combining layout-aware OCR with LLM-based semantic parsing. Experiments across diverse document types show that the method produces accurate, aligned, and low-noise QA/VQA pairs. This approach enables scalable use of real-world educational content and provides a practical alternative to synthetic data generation for improving reasoning-oriented LLM training. All code and data-processing pipelines are open-sourced at https://github.com/OpenDCAI/DataFlow.

大型语言模型(LLM)的发展越来越依赖于高质量的有监督数据,然而现有的指令调整和强化学习数据集仍然成本高昂,并且经常依赖于合成样本,这引入了幻觉和有限的多样性。同时,教科书和练习材料包含丰富的高质量人类编写的问答(QA)内容,由于将原始PDF转换为AI可用监督数据的难度,这些内容尚未得到充分利用。尽管现代OCR和视觉语言模型可以准确地解析文档结构,但它们的输出缺乏训练所需语义对齐。我们提出了一种自动化管道,通过结合基于布局意识的OCR和LLM语义解析,从教育文档中提取结构良好的问答和视觉问答(VQA)对。在多种文档类型上的实验表明,该方法能够产生准确、对齐、低噪声的QA/VQA对。这种方法能够可扩展地使用现实世界的教育内容,并为改善以推理为导向的LLM训练提供了合成数据生成的实用替代方案。所有代码和数据处理管道已在https://github.com/OpenDCAI/DataFlow上开源。

论文及项目相关链接

PDF

总结

随着大型语言模型(LLM)的发展,其对高质量监督数据的需求日益增长。然而,现有的指令调整和强化学习数据集仍然成本高昂且依赖于合成样本,这导致了虚构和多样性有限的问题。同时,教科书和练习材料包含丰富的高质量人类创作的问题答案(QA)内容,但由于将原始PDF转换为AI可用监督的困难,这些内容尚未得到充分开发。尽管现代光学字符识别(OCR)和视觉语言模型能够准确解析文档结构,但其输出缺乏训练所需的语义对齐。我们提出一个自动化管道,通过结合布局感知OCR和基于LLM的语义解析,从教育文档中提取形成良好的QA和视觉问答(VQA)对。在多种文档类型上的实验表明,该方法产生准确、对齐且低噪声的QA/VQA对。此方案使现实世界的教育内容得以规模化使用,并为改善以推理为导向的LLM训练提供了实用的替代方案合成数据生成。相关代码和数据处理管道已在https://github.com/OpenDCAI/DataFlow上开源。

关键见解

  1. 大型语言模型(LLM)发展依赖于高质量监督数据。
  2. 当前数据集制作成本高昂,并依赖于合成样本,存在虚构和多样性限制。
  3. 教科书和练习材料包含丰富但未充分利用的高质量QA内容。
  4. 将PDF转化为AI可用监督数据存在技术挑战。
  5. 现有技术如OCR和视觉语言模型虽能解析文档结构,但缺乏语义对齐。
  6. 提出结合布局感知OCR和LLM语义解析的自动化管道,以从教育文档中提取QA和VQA对。

Cool Papers

点此查看论文截图

Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

Authors:Yi Yang, Xueqi Li, Yiyang Chen, Jin Song, Yihan Wang, Zipeng Xiao, Jiadi Su, You Qiaoben, Pengfei Liu, Zhijie Deng

Recent advances in Vision-Language-Action (VLA) models demonstrate that visual signals can effectively complement sparse action supervisions. However, letting VLA directly predict high-dimensional visual states can distribute model capacity and incur prohibitive training cost, while compressing visual states into more compact supervisory signals inevitably incurs information bottlenecks. Moreover, existing methods often suffer from poor comprehension and reasoning capabilities due to the neglect of language supervision. This paper introduces Mantis, a novel framework featuring a Disentangled Visual Foresight (DVF) to tackle these issues. Specifically, Mantis decouples visual foresight prediction from the backbone with the combination of meta queries and a diffusion Transformer (DiT) head. With the current visual state provided to the DiT via a residual connection, a simple next-state prediction objective enables the meta queries to automatically capture the latent actions that delineate the visual trajectory, and hence boost the learning of explicit actions. The disentanglement reduces the burden of the VLA backbone, enabling it to maintain comprehension and reasoning capabilities through language supervision. Empirically, pretrained on human manipulation videos, robot demonstrations, and image-text pairs, Mantis achieves a 96.7% success rate on LIBERO benchmark after fine-tuning, surpassing powerful baselines while exhibiting high convergence speed. Real-world evaluations show that Mantis outperforms $π_{0.5}$, a leading open-source VLA model, particularly in instruction-following capability, generalization to unseen instructions, and reasoning ability. Code and weights are released to support the open-source community.

最近的Vision-Language-Action(VLA)模型的进展表明,视觉信号可以有效地补充稀疏动作监督。然而,让VLA直接预测高维视觉状态会分散模型容量并产生高昂的训练成本,而将视觉状态压缩成更紧凑的监督信号不可避免地会造成信息瓶颈。此外,由于忽视了语言监督,现有方法往往存在理解和推理能力差的不足。本文介绍了Mantis,一个具有解耦视觉预测(DVF)特征的新型框架,以解决这些问题。具体来说,Mantis通过结合元查询和扩散Transformer(DiT)头,将视觉预测与主干解耦。通过残差连接将当前视觉状态提供给DiT,简单的下一个状态预测目标使元查询能够自动捕获划分视觉轨迹的潜在动作,从而增强显式动作的学习。这种解耦减轻了VLA主干的负担,使其能够通过语言监督保持理解和推理能力。经验上,经过人类操作视频、机器人演示和图像文本对进行预训练后,Mantis在LIBERO基准测试上进行微调后达到了96.7%的成功率,超越了强大的基线,并表现出高速收敛性。在现实世界环境中的评估表明,Mantis优于领先的开源VLA模型π_{0.5},特别是在遵循指令、对未见指令的泛化以及推理能力方面。代码和权重已发布,以支持开源社区。

论文及项目相关链接

PDF

Summary

近期VLA模型进展表明,视觉信号能有效补充稀疏动作监督。然而,直接预测高维视觉状态会分散模型容量并带来昂贵训练成本,而压缩视觉状态会带来信息瓶颈。此外,现有方法常因忽视语言监督而难以理解推理。本文介绍Mantis框架,采用解耦视觉预测来解决这些问题。Mantis结合元查询和扩散Transformer(DiT)头来从视觉主干中解耦预测。当前视觉状态通过残差连接提供给DiT,简单的下一个状态预测目标使元查询自动捕捉界定视觉轨迹的潜在动作,从而提升明确动作的学习。解耦减轻了VLA主干的负担,使其能通过语言监督保持理解和推理能力。实证上,Mantis在LIBERO基准测试上达到96.7%的准确率,超越了强大的基线并展现出高速收敛性。在现实世界评估中,Mantis在指令遵循能力、对未见指令的泛化能力和推理能力方面表现尤为出色。

Key Takeaways

  1. VLA模型虽能通过视觉信号补充动作监督,但直接预测高维视觉状态会导致模型容量分散和训练成本增加。
  2. 压缩视觉状态会面临信息瓶颈问题。
  3. 现有VLA模型常因忽视语言监督而在理解和推理方面存在不足。
  4. Mantis框架通过结合元查询和扩散Transformer(DiT)头来解耦视觉预测,解决上述问题。
  5. Mantis利用残差连接提供当前视觉状态,通过简单的下一个状态预测目标提升动作学习。
  6. 解纠缠设计减轻了VLA主干的负担,使其能够利用语言监督保持理解和推理能力。

Cool Papers

点此查看论文截图

Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models

Authors:Yijun Yang, Lichao Wang, Jianping Zhang, Chi Harold Liu, Lanqing Hong, Qiang Xu

The growing misuse of Vision-Language Models (VLMs) has led providers to deploy multiple safeguards, including alignment tuning, system prompts, and content moderation. However, the real-world robustness of these defenses against adversarial attacks remains underexplored. We introduce Multi-Faceted Attack (MFA), a framework that systematically exposes general safety vulnerabilities in leading defense-equipped VLMs such as GPT-4o, Gemini-Pro, and Llama-4. The core component of MFA is the Attention-Transfer Attack (ATA), which hides harmful instructions inside a meta task with competing objectives. We provide a theoretical perspective based on reward hacking to explain why this attack succeeds. To improve cross-model transferability, we further introduce a lightweight transfer-enhancement algorithm combined with a simple repetition strategy that jointly bypasses both input-level and output-level filters without model-specific fine-tuning. Empirically, we show that adversarial images optimized for one vision encoder transfer broadly to unseen VLMs, indicating that shared visual representations create a cross-model safety vulnerability. Overall, MFA achieves a 58.5% success rate and consistently outperforms existing methods. On state-of-the-art commercial models, MFA reaches a 52.8% success rate, surpassing the second-best attack by 34%. These results challenge the perceived robustness of current defense mechanisms and highlight persistent safety weaknesses in modern VLMs. Code: https://github.com/cure-lab/MultiFacetedAttack

随着视觉语言模型(VLMs)的滥用日益严重,提供商采取了多种保护措施,包括对齐调整、系统提示和内容审核。然而,这些防御措施在现实世界中对抗敌对攻击时的稳健性尚未得到充分探索。我们引入了多面攻击(MFA)框架,该框架系统地暴露了配备领先防御措施的VLMs(如GPT-4o、Gemini-Pro和Llama-4)的一般安全漏洞。MFA的核心组件是注意力转移攻击(ATA),它将有害指令隐藏在具有竞争目标的元任务中。我们从基于奖励黑客攻击的理论角度来解释为什么这种攻击能够成功。为了提高跨模型的可移植性,我们进一步引入了一种轻量级的传输增强算法,结合简单的重复策略,可以共同绕过输入级别和输出级别的过滤器,无需进行模型特定的微调。实证表明,针对单一视觉编码器优化的对抗性图像广泛转移到未见过的VLMs上,这表明共享的视觉表示形式会创建跨模型的安全漏洞。总体而言,MFA达到了58.5%的成功率,并且始终优于现有方法。在最先进的商业模型上,MFA达到了52.8%的成功率,比第二名攻击高出34%。这些结果挑战了当前防御机制的稳健性假设,并突出了现代VLMs中持续存在的安全弱点。代码地址:https://github.com/cure-lab/MultiFacetedAttack

论文及项目相关链接

PDF AAAI 2026 Oral

Summary

该文本介绍了视觉语言模型(VLMs)的滥用问题促使供应商采取了多种保护措施,包括对齐调整、系统提示和内容审核等。然而,这些保护措施对对抗性攻击的实用性依然有待探索。研究团队引入了多面攻击(MFA)框架,该框架系统地揭示了领先的保护装备VLMs的一般安全漏洞,如GPT-4o、Gemini-Pro和Llama-4等。MFA的核心组件是注意力转移攻击(ATA),它能在具有竞争目标的元任务中隐藏有害指令。研究团队通过基于奖励黑客行为的理论视角解释了该攻击的成功原因。为了改善跨模型的传输性,研究团队进一步引入了一种轻量级的传输增强算法,结合简单的重复策略,共同绕过了输入级别和输出级别的过滤器,无需特定模型的微调。实验表明,针对单一视觉编码器的优化对抗性图像可以广泛地转移到未被观测的VLMs上,这表明共享的视觉表征会创建跨模型的安全漏洞。总体而言,MFA的成功率达到了58.5%,并且始终优于现有的方法。在先进的商业模型上,MFA达到了52.8%的成功率,比第二名攻击高出34%。这些结果挑战了当前保护机制的稳健性,并强调了现代VLMs的持续安全弱点。

Key Takeaways

  1. 视觉语言模型(VLMs)存在滥用问题,促使供应商采取保护措施,但仍存在安全漏洞。
  2. 引入Multi-Faceted Attack(MFA)框架,揭示了VLMs的一般安全漏洞。
  3. MFA的核心是Attention-Transfer Attack(ATA),能隐藏有害指令在元任务中。
  4. 基于奖励黑客行为的理论视角解释了ATA的成功原因。
  5. 提出了轻量级的传输增强算法,结合简单重复策略,绕过输入和输出级别的过滤器。
  6. 对抗性图像可广泛转移至未被观测的VLMs,表明共享视觉表征的跨模型安全漏洞。

Cool Papers

点此查看论文截图

People readily follow personal advice from AI but it does not improve their well-being

Authors:Lennart Luettgau, Vanessa Cheung, Magda Dubois, Keno Juechems, Jessica Bergs, Henry Davidson, Bessie O’Dell, Hannah Rose Kirk, Max Rollwage, Christopher Summerfield

People increasingly seek personal advice from large language models (LLMs), yet whether humans follow their advice, and its consequences for their well-being, remains unknown. In a longitudinal randomised controlled trial with a representative UK sample (N = 2,302), 75% of participants who had a 20-minute discussion with GPT-4o about health, careers or relationships subsequently reported following its advice. Based on autograder evaluations of chat transcripts, LLM advice rarely violated safety best practice. When queried 2-3 weeks later, participants who had interacted with personalised AI (with access to detailed user information) followed its advice more often in the real world and reported higher well-being than those advised by non-personalised AI. However, while receiving personal advice from AI temporarily reduced well-being, no differential long-term effects compared to a control emerged. Our results suggest that humans readily follow LLM advice about personal issues but doing so shows no additional well-being benefit over casual conversations.

人们越来越多地向大型语言模型(LLM)寻求个人建议,然而,人们是否会遵循这些建议,以及这些建议对人们的福祉产生的影响仍然未知。在一项具有代表性的英国样本(N=2302)的纵向随机对照试验中,有75%的参与者在与GPT-4o就健康、职业或关系进行了20分钟的讨论后,报告称遵循了其建议。基于聊天记录自动评估器的评估,LLM的建议很少违反安全最佳实践。在咨询后两到三周的回访中,与个性化AI(能够访问用户详细信息)互动的参与者更经常在现实生活中遵循其建议,并且报告的幸福感高于被非个性化AI建议的人。然而,虽然从AI那里获得个性化建议暂时降低了幸福感,但与对照组相比没有出现长期差异。我们的结果表明,人类很容易接受关于个人问题的LLM建议,但这样做并没有在闲聊之外带来额外的幸福感益处。

论文及项目相关链接

PDF

Summary

个人越来越倾向于向大型语言模型(LLM)寻求建议,但人们是否会遵循这些建议以及它们对个人福祉的影响尚不清楚。一项具有代表性的英国样本(N=2,302)的纵向随机对照试验显示,在与GPT-4o就健康、职业或关系进行20分钟讨论后,75%的参与者表示遵循了其建议。基于聊天记录自动评估器评估的结果,LLM的建议很少违反安全最佳实践。被询问时表示在之后的两到三周中,与个性化AI互动的参与者更经常在现实世界中遵循其建议,并且报告的幸福感比那些只与AI对话但未获取个性化建议的人更高。然而,尽管接受AI提供的个性化建议暂时降低了幸福感,但长期影响与控制组相比并未出现明显差异。我们的结果表明,人类乐于接受LLM关于个人问题的建议,但这并不会带来额外的幸福感提升。

Key Takeaways

  1. 在一项代表性英国样本的试验中,超过75%的参与者遵循了大型语言模型GPT-4o的建议。
  2. 大型语言模型提供的建议很少违反安全最佳实践。
  3. 与个性化AI互动的参与者更可能在实际生活中遵循AI的建议。
  4. 在短期内容纳AI个性化建议会使人们的幸福感下降。但在长期观察中,并没有发现其对幸福感有额外的积极影响。
  5. AI提供的个性化建议虽然被广泛接受,但其长期效果并不显著优于一般对话。
  6. 个人更容易接受大型语言模型关于个人问题的建议,但这类建议并不带来额外的幸福感提升。

Cool Papers

点此查看论文截图

Unsupervised Discovery of Long-Term Spatiotemporal Periodic Workflows in Human Activities

Authors:Fan Yang, Quanting Xie, Atsunori Moteki, Shoichi Masui, Shan Jiang, Kanji Uchino, Yonatan Bisk, Graham Neubig

Periodic human activities with implicit workflows are common in manufacturing, sports, and daily life. While short-term periodic activities – characterized by simple structures and high-contrast patterns – have been widely studied, long-term periodic workflows with low-contrast patterns remain largely underexplored. To bridge this gap, we introduce the first benchmark comprising 580 multimodal human activity sequences featuring long-term periodic workflows. The benchmark supports three evaluation tasks aligned with real-world applications: unsupervised periodic workflow detection, task completion tracking, and procedural anomaly detection. We also propose a lightweight, training-free baseline for modeling diverse periodic workflow patterns. Experiments show that: (i) our benchmark presents significant challenges to both unsupervised periodic detection methods and zero-shot approaches based on powerful large language models (LLMs); (ii) our baseline outperforms competing methods by a substantial margin in all evaluation tasks; and (iii) in real-world applications, our baseline demonstrates deployment advantages on par with traditional supervised workflow detection approaches, eliminating the need for annotation and retraining. Our project page is https://sites.google.com/view/periodicworkflow.

周期性的人类活动带有隐含的工作流程,在制造、运动和日常生活中都很常见。虽然短期周期性活动(具有简单的结构和高对比度的模式)已经得到了广泛的研究,但长期周期性工作流程(具有低对比度的模式)仍然在很大程度上被忽视。为了填补这一空白,我们引入了第一个基准测试,其中包括580个多模式的人类活动序列,这些序列具有长期周期性工作流程的特征。该基准测试支持三个与实际应用相对应的评价任务:无监督的周期性工作流程检测、任务完成跟踪和程序异常检测。我们还提出了一种轻量级的、无需训练的基线模型,用于模拟多样化的周期性工作流程模式。实验表明:(i)我们的基准测试对无监督的周期性检测方法以及基于强大语言模型(LLM)的零样本方法构成了重大挑战;(ii)我们的基线模型在所有评估任务中都大大优于竞争方法;(iii)在真实世界的应用中,我们的基线模型与传统的监督式工作流程检测方法的部署优势相当,无需进行标注和再训练。我们的项目页面是https://sites.google.com/view/periodicworkflow。

论文及项目相关链接

PDF accepted to WACV 2026

Summary

本文介绍了一个包含580个多模式人类活动序列的长期周期性工作流基准测试,该基准测试支持三个与实际应用对齐的评价任务:无监督周期性工作流检测、任务完成跟踪和程序异常检测。文章还提出了一种轻量级的、无需训练的基线模型,用于建模多样的周期性工作流模式。实验表明,该基准测试对无监督周期性检测方法和基于大型语言模型(LLM)的零样本方法提出了重大挑战;基线模型在所有评价任务中的表现优于其他方法;在现实应用中,基线模型的部署优势与传统监督式工作流检测相当,且无需标注和重新训练。

Key Takeaways

  1. 引入了一个包含580个多模式人类活动序列的长期周期性工作流基准测试。
  2. 基准测试支持三个评价任务:无监督周期性工作流检测、任务完成跟踪和程序异常检测。
  3. 提出了一种轻量级的、无需训练的基线模型用于建模多样的周期性工作流模式。
  4. 实验表明,该基准测试对现有的方法提出了挑战。
  5. 基线模型在所有评价任务中的表现优于其他方法。
  6. 在现实应用中,基线模型的部署优势与传统监督式工作流检测相当。

Cool Papers

点此查看论文截图

vMFCoOp: Towards Equilibrium on a Unified Hyperspherical Manifold for Prompting Biomedical VLMs

Authors:Minye Shao, Sihan Guo, Xinrun Li, Xingyu Miao, Haoran Duan, Yang Long

Recent advances in context optimization (CoOp) guided by large language model (LLM)-distilled medical semantic priors offer a scalable alternative to manual prompt engineering and full fine-tuning for adapting biomedical CLIP-based vision-language models (VLMs). However, prompt learning in this context is challenged by semantic misalignment between LLMs and CLIP variants due to divergent training corpora and model architectures; it further lacks scalability across continuously evolving families of foundation models. More critically, pairwise multimodal alignment via conventional Euclidean-space optimization lacks the capacity to model unified representations or apply localized geometric constraints, which tends to amplify modality gaps in complex biomedical imaging and destabilize few-shot adaptation. In this work, we propose vMFCoOp, a framework that inversely estimates von Mises-Fisher (vMF) distributions on a shared Hyperspherical Manifold, aligning semantic biases between arbitrary LLMs and CLIP backbones via Unified Semantic Anchors to achieve robust biomedical prompting and superior few-shot classification. Grounded in three complementary constraints, vMFCoOp demonstrates consistent improvements across 14 medical datasets, 12 medical imaging modalities, and 13 anatomical regions, outperforming state-of-the-art methods in accuracy, generalization, and clinical applicability. This work aims to continuously expand to encompass more downstream applications, and the corresponding resources are intended to be shared through https://github.com/VinyehShaw/UniEqui.

最近,以大型语言模型(LLM)提炼的医疗语义优先级为指导的上下文优化(CoOp)的进步,为基于CLIP的生物医学视觉语言模型(VLMs)的适应提供了手动提示工程和完全微调的可扩展替代方案。然而,在这种情况下,提示学习面临LLM和CLIP变体之间语义不一致的挑战,这是由于训练语料库和模型架构的差异性造成的;它进一步缺乏在不断发展的基础模型家族中的可扩展性。更重要的是,通过传统的欧几里得空间优化进行的成对多模式对齐缺乏建模统一表示或应用局部几何约束的能力,这往往会放大复杂生物医学成像中的模式间隙并破坏少量数据的适应性。在这项工作中,我们提出了vMFCoOp框架,它通过共享超球面流形上的逆估计von Mises-Fisher(vMF)分布来实现稳健的生物医学提示和优越的小样本分类。基于三个互补约束的vMFCoOp在14个医疗数据集、12种医疗成像模式和13个解剖区域上显示出持续的改进,在准确性、泛化和临床适用性方面均优于最先进的方法。本工作的目标是通过共享更多下游应用,不断更新扩充:https://github.com/VinyehShaw/UniEqui

论文及项目相关链接

PDF Accepted as an Oral Presentation at AAAI 2026 Main Technical Track (this version is not peer-reviewed; it is the extended version)

Summary

基于大型语言模型(LLM)蒸馏医学语义先验的上下文优化(CoOp)进展为解决生物医学CLIP基视觉语言模型(VLM)的适应性问题提供了可扩展的替代方案,如手动提示工程和全微调。然而,该领域的提示学习面临LLM和CLIP版本间语义不一致的挑战。此外,该研究更深入地面临的问题是传统的欧几里得空间优化方法无法实现统一建模和局部几何约束,这往往会放大复杂生物医学成像中的模态差距并破坏少量数据的适应性。本研究提出了vMFCoOp框架,它通过共享超球面流形上的反向估计von Mises-Fisher(vMF)分布来对齐LLM和CLIP骨干之间的语义偏差,以实现稳健的生物医学提示和出色的少量样本分类。基于三个互补约束的vMFCoOp在14个医学数据集、12种医学成像模态和13个解剖区域上展示了持续的改进,在准确性、通用性和临床适用性方面优于最新方法。本研究的目的是不断扩大更多的下游应用范围。更多相关资源将通过共享链接访问:https://github.com/VinyehShaw/UniEqui

Key Takeaways

  1. LLM-distilled medical semantic priors guide context optimization (CoOp) in adapting biomedical CLIP-based vision-language models (VLMs)。
  2. 语义不一致挑战了LLM和CLIP版本之间的提示学习。
  3. 传统欧几里得空间优化无法建模统一表示或应用局部几何约束。
  4. vMFCoOp框架实现了LLM和CLIP之间的语义偏差对齐。
  5. vMFCoOp实现了稳健的生物医学提示和少量样本分类。
  6. vMFCoOp在多个医学数据集、成像模态和解剖区域上表现出优越性能。

Cool Papers

点此查看论文截图

GAPO: Robust Advantage Estimation for Real-World Code LLMs

Authors:Jianqing Zhang, Zhezheng Hao, Wei Xia, Hande Dong, Hong Wang, Chenxing Wei, Yuyan Zhou, Yubin Qi, Qiang Lin, Jian Cao

Reinforcement learning (RL) is widely used for post-training large language models (LLMs) in code editing, where group-relative methods like GRPO are popular for their critic-free, normalized advantage estimation. However, in real-world code-editing scenarios, reward distributions are often skewed with unpredictable outliers, leading to distorted advantage computation and increased noise. To address this issue, we propose Group Adaptive Policy Optimization (GAPO), which adaptively finds an outlier-free highest-density interval (HDI) per prompt and then uses the median of that interval as an adaptive Q to replace the group mean in advantage calculation. This adaptive Q robustly handles skewed distributions while remaining plug-and-play and efficient. We validate GAPO on nine instruction-tuned LLMs (3B-14B) using a large internal dataset of 51,844 real-world, history-aware code-editing tasks across 10 languages, demonstrating consistent improvements in exact match accuracy over GRPO and its variant DAPO. Code is publicly available.

强化学习(RL)广泛用于对代码编辑中的大型语言模型(LLM)进行后训练,其中无需批判家的归一化优势估计等方法(如GRPO)在群体相对方法中很受欢迎。然而,在现实世界的代码编辑场景中,奖励分布往往存在偏斜,且存在不可预测的异常值,导致优势计算失真和噪声增加。为了解决这个问题,我们提出了集团自适应策略优化(GAPO),它自适应地找到每个提示的异常值最高密度区间(HDI),然后使用该区间的中位数作为自适应Q值来替换优势计算中的组均值。这种自适应Q值稳健地处理偏斜分布,同时保持随插即用和高效。我们在九个指令调优的LLM(3B-14B)上验证了GAPO,这些LLM使用了一个大型内部数据集,包含51844个现实世界的、具有历史意识的代码编辑任务,涉及10种语言。与GRPO及其变体DAPO相比,它在精确匹配准确性方面表现出了一致的提高。代码已公开可用。

论文及项目相关链接

PDF

Summary

强化学习在训练大型语言模型(LLM)进行代码编辑时广泛应用。针对现实场景中奖励分布偏斜及难以预测的问题,我们提出一种名为Group Adaptive Policy Optimization(GAPO)的新方法。它通过为每个提示找到无异常值的最高密度区间,并使用该区间的中位数作为自适应Q值来替换优势计算中的组均值,从而稳健地处理偏斜分布。在多个指令调整的大型语言模型上进行的实验验证显示,GAPO在精确匹配率方面实现了对GRPO及其变体DAPO的持续改进。

Key Takeaways

  1. 强化学习广泛应用于训练大型语言模型(LLM)进行代码编辑。
  2. 在现实世界的代码编辑场景中,奖励分布常常偏斜且存在难以预测的异常值。
  3. Group Adaptive Policy Optimization (GAPO) 方法通过为每个提示找到无异常值的最高密度区间来处理偏斜的奖励分布。
  4. GAPO使用区间中位数作为自适应Q值来替换优势计算中的组均值,从而稳健地处理偏斜分布。
  5. GAPO在多个大型语言模型上的实验验证显示出其对精确匹配率的改进效果。
  6. GAPO方法具有即插即用和高效的特点。

Cool Papers

点此查看论文截图

Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark

Authors:Minhui Zhu, Minyang Tian, Xiaocheng Yang, Tianci Zhou, Lifan Yuan, Penghao Zhu, Eli Chertkov, Shengyan Liu, Yufeng Du, Ziming Ji, Indranil Das, Junyi Cao, Yufeng Du, Jiabin Yu, Peixue Wu, Jinchen He, Yifan Su, Yikun Jiang, Yujie Zhang, Chang Liu, Ze-Min Huang, Weizhen Jia, Yunkai Wang, Farshid Jafarpour, Yong Zhao, Xinan Chen, Jessie Shelton, Aaron W. Young, John Bartolotta, Wenchao Xu, Yue Sun, Anjun Chu, Victor Colussi, Chris Akers, Nathan Brooks, Wenbo Fu, Jinchao Zhao, Marvin Qi, Anqi Mu, Yubo Yang, Allen Zang, Yang Lyu, Peizhi Mai, Christopher Wilson, Xuefei Guo, Juntai Zhou, Daniel Inafuku, Chi Xue, Luyu Gao, Ze Yang, Yaïr Hein, Yonatan Kahn, Kevin Zhou, Di Luo, John Drew Wilson, Jarrod T. Reilly, Dmytro Bandak, Ofir Press, Liang Yang, Xueying Wang, Hao Tong, Nicolas Chia, Eliu Huerta, Hao Peng

While large language models (LLMs) with reasoning capabilities are progressing rapidly on high-school math competitions and coding, can they reason effectively through complex, open-ended challenges found in frontier physics research? And crucially, what kinds of reasoning tasks do physicists want LLMs to assist with? To address these questions, we present the CritPt (Complex Research using Integrated Thinking - Physics Test, pronounced “critical point”), the first benchmark designed to test LLMs on unpublished, research-level reasoning tasks that broadly covers modern physics research areas, including condensed matter, quantum physics, atomic, molecular & optical physics, astrophysics, high energy physics, mathematical physics, statistical physics, nuclear physics, nonlinear dynamics, fluid dynamics and biophysics. CritPt consists of 71 composite research challenges designed to simulate full-scale research projects at the entry level, which are also decomposed to 190 simpler checkpoint tasks for more fine-grained insights. All problems are newly created by 50+ active physics researchers based on their own research. Every problem is hand-curated to admit a guess-resistant and machine-verifiable answer and is evaluated by an automated grading pipeline heavily customized for advanced physics-specific output formats. We find that while current state-of-the-art LLMs show early promise on isolated checkpoints, they remain far from being able to reliably solve full research-scale challenges: the best average accuracy among base models is only 5.7%, achieved by GPT-5 (high), moderately rising to around 10% when equipped with coding tools. Through the realistic yet standardized evaluation offered by CritPt, we highlight a large disconnect between current model capabilities and realistic physics research demands, offering a foundation to guide the development of scientifically grounded AI tools.

随着具有推理能力的大型语言模型(LLM)在高中数学竞赛和编程方面取得快速发展,它们能否有效应对前沿物理研究中遇到的复杂、开放性的挑战?关键的是,物理学家希望LLM辅助完成哪些推理任务?为了解答这些问题,我们推出了CritPt(利用综合思维进行复杂研究——物理测试),这是首个针对未发表的、研究级别的推理任务设计的基准测试,广泛覆盖了现代物理研究领域,包括凝聚态物理、量子力学、原子、分子和光学物理、天体物理、高能物理、数学物理、统计物理、核物理、非线性动力学、流体力学和生物物理学。CritPt包含71个组合研究挑战,旨在模拟入门级全尺度研究项目,同时分解为190个更简单的检查点任务,以获取更精细的见解。所有问题均由50多名活跃的物理研究者根据他们自己的研究全新创建。每个问题都经过手工筛选,以得出不易猜测且机器可验证的答案,并由针对高级物理特定输出格式进行大量定制的自动评分管道进行评估。我们发现,尽管当前最先进的大型语言模型在孤立的检查点上显示出早期前景,但它们仍远远不能可靠地解决全尺度的研究挑战:基础模型中的最佳平均准确率仅为5.7%,由GPT-5(高级)实现,配备编码工具时适度上升至约10%。通过CritPt提供的现实且标准化的评估,我们突出了当前模型能力与实际物理研究需求之间的巨大差距,为开发科学基础扎实的AI工具提供了指导基础。

论文及项目相关链接

PDF 39 pages, 6 figures, 6 tables

摘要

大型语言模型(LLM)在具备推理能力方面迅速进步,在高中的数学竞赛和编程方面表现突出,但它们能否有效应对前沿物理研究中复杂的开放性问题挑战尚待验证。本研究推出CritPt(复杂研究综合思维物理测试),旨在测试LLM在未经发表的研究级推理任务上的表现,广泛涵盖现代物理研究领域。CritPt包含模拟入门级全尺度研究项目的71个复合挑战,以及为获得更精细见解而分解的190个简单检查点任务。所有问题均由超过五十名活跃的物理研究者基于自身研究全新创作,每个问题都是经过手工筛选以确保答案难以猜测并可以通过机器验证,并通过高度定制化的自动化评分管道进行评分。本研究发现,虽然当前顶尖LLM在独立检查点上显示出初步潜力,但在解决全尺度的研究挑战方面仍相距甚远:基础模型的平均准确率仅为5.7%,由GPT-5(高级版)实现最高表现。通过与批判性思维结合的现实性评价方法,研究突显出当前模型能力与实际物理研究需求之间巨大的脱节。本项研究为未来科学基础的人工智能工具开发提供了指导方向。

关键见解

  1. 大型语言模型(LLM)在物理研究领域内的推理能力尚处于初级阶段。
  2. CritPt基准测试用于评估LLM在处理前沿物理研究的复杂、开放性问题方面的能力。
  3. CritPt包含复合挑战及简单检查点任务,模拟实际物理学研究项目。
  4. 问题由活跃的物理研究者基于自身研究设计,确保答案的机器可验证性。
  5. 当前顶尖LLM解决全尺度研究挑战的能力有限,基础模型的平均准确率仅为5.7%。
  6. GPT-5在检查点任务上表现相对较好,但仍未达到可靠解决复杂挑战的水平。

Cool Papers

点此查看论文截图

False Sense of Security: Why Probing-based Malicious Input Detection Fails to Generalize

Authors:Cheng Wang, Zeming Wei, Qin Liu, Muhao Chen

Large Language Models (LLMs) can comply with harmful instructions, raising serious safety concerns despite their impressive capabilities. Recent work has leveraged probing-based approaches to study the separability of malicious and benign inputs in LLMs’ internal representations, and researchers have proposed using such probing methods for safety detection. We systematically re-examine this paradigm. Motivated by poor out-of-distribution performance, we hypothesize that probes learn superficial patterns rather than semantic harmfulness. Through controlled experiments, we confirm this hypothesis and identify the specific patterns learned: instructional patterns and trigger words. Our investigation follows a systematic approach, progressing from demonstrating comparable performance of simple n-gram methods, to controlled experiments with semantically cleaned datasets, to detailed analysis of pattern dependencies. These results reveal a false sense of security around current probing-based approaches and highlight the need to redesign both models and evaluation protocols, for which we provide further discussions in the hope of suggesting responsible further research in this direction. We have open-sourced the project at https://github.com/WangCheng0116/Why-Probe-Fails.

大型语言模型(LLMs)能够遵循有害指令,这引发了严重的安全担忧,尽管它们具有令人印象深刻的能力。最近的研究工作利用基于探查的方法研究了LLMs内部表示中恶意和良性输入的分离性,研究人员提出使用此类探查方法进行安全检测。我们对这一范式进行了系统回顾。受分布外性能不佳的驱动,我们假设探查学习的是表面模式,而非语义危害性。通过受控实验,我们证实了这一假设,并确定了学习的特定模式:指令模式和触发词。我们的调查遵循系统方法,从展示简单n元方法的相当性能开始,到使用语义清理数据集的受控实验,再到模式依赖性的详细分析。这些结果揭示了当前基于探查的方法的虚假安全感知,并强调了重新设计模型和评估协议的需要。我们提供了进一步的讨论,希望为这一方向的有责任感的研究提出建议。该项目已开源,网址为https://github.com/WangCheng0116/Why-Probe-Fails。

论文及项目相关链接

PDF Withdrawn due to identified errors in the experimental procedure

Summary

大型语言模型(LLMs)能执行有害指令,引发严重安全担忧。尽管存在利用探查方法进行研究以识别LLMs内部表示中的恶意与良性输入的分离性的研究,但系统复查显示探查方法存在安全隐患。基于分布外的性能不佳表现,我们假设探查方法学习的是表面模式而非语义危害性。通过控制实验,我们验证了假设并确定了学习的特定模式:指令模式和触发词。我们的调查采用系统性方法,从展示简单n-gram方法的可比性表现开始,逐步过渡到控制实验与语义清洗数据集的分析,直至深入剖析模式依赖关系。研究揭示出探查方法的虚假安全性感知并强调了重塑模型及评估协议的必要,以期为负责任的后续研究提供参考。项目已开源访问:链接地址

Key Takeaways

  1. 大型语言模型(LLMs)能执行有害指令,引发安全担忧。
  2. 探查方法被用于研究LLMs内部表示中的恶意与良性输入分离性。
  3. 探查方法存在安全隐患,可能仅学习表面模式而非真正识别语义危害性。
  4. 通过控制实验验证,发现学习的模式包括指令模式和触发词。
  5. 现有探查方法存在虚假安全性感知。
  6. 需要重塑模型及评估协议以改进现有问题。

Cool Papers

点此查看论文截图

Learning to Detect Unknown Jailbreak Attacks in Large Vision-Language Models

Authors:Shuang Liang, Zhihao Xu, Jialing Tao, Hui Xue, Xiting Wang

Despite extensive alignment efforts, Large Vision-Language Models (LVLMs) remain vulnerable to jailbreak attacks, posing serious safety risks. To address this, existing detection methods either learn attack-specific parameters, which hinders generalization to unseen attacks, or rely on heuristically sound principles, which limit accuracy and efficiency. To overcome these limitations, we propose Learning to Detect (LoD), a general framework that accurately detects unknown jailbreak attacks by shifting the focus from attack-specific learning to task-specific learning. This framework includes a Multi-modal Safety Concept Activation Vector module for safety-oriented representation learning and a Safety Pattern Auto-Encoder module for unsupervised attack classification. Extensive experiments show that our method achieves consistently higher detection AUROC on diverse unknown attacks while improving efficiency. The code is available at https://anonymous.4open.science/r/Learning-to-Detect-51CB.

尽管进行了大量的对齐工作,大型视觉语言模型(LVLMs)仍然容易受到越狱攻击的影响,这带来了严重的安全风险。为了解决这个问题,现有的检测方法要么学习特定的攻击参数,这阻碍了其对未知攻击的泛化能力,要么依赖于健全的原则,这限制了其准确性和效率。为了克服这些局限性,我们提出了Learning to Detect(LoD)框架,该框架通过改变对特定攻击学习的关注,转向特定任务学习,从而准确检测未知的越狱攻击。该框架包括一个面向安全性的表示学习的多模态安全概念激活向量模块和一个用于无监督攻击分类的安全模式自动编码器模块。大量实验表明,我们的方法在多种未知攻击上实现了更高的检测AUROC,同时提高了效率。代码可在https://anonymous.4open.science/r/Learning-to-Detect-51CB获取。

论文及项目相关链接

PDF 16 pages; Previously this version appeared as arXiv:2510.15430 which was submitted as a new work by accident

总结

大规模视觉语言模型(LVLMs)对jailbreak攻击依然脆弱,存在安全风险。现有的检测方法要么依赖特定攻击参数,影响对新攻击的泛化能力;要么依赖经验原则,限制了准确性和效率。为解决这些问题,我们提出Learning to Detect(LoD)框架,通过任务特定学习而非攻击特定学习来准确检测未知jailbreak攻击。该框架包括面向安全表示学习的多模态安全概念激活向量模块以及用于无监督攻击分类的安全模式自动编码器模块。实验表明,我们的方法在多种未知攻击的检测上始终具有较高的检测AUROC值,并提高了效率。相关代码已公开于:链接地址

关键见解

  1. LVLMs对jailbreak攻击仍然脆弱,存在安全风险。
  2. 现有检测方法存在局限性,难以应对新攻击或影响准确性和效率。
  3. Learning to Detect(LoD)框架通过任务特定学习来检测未知jailbreak攻击,提高了泛化能力和效率。
  4. LoD框架包括多模态安全概念激活向量模块和安全问题自动编码器模块。
  5. 多模态安全概念激活向量模块面向安全表示学习。
  6. 安全问题自动编码器模块用于无监督攻击分类。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
Agent Agent
Agent 方向最新论文已更新,请持续关注 Update in 2025-11-22 D-GARA A Dynamic Benchmarking Framework for GUI Agent Robustness in Real-World Anomalies
2025-11-22
下一篇 
R1_Reasoning R1_Reasoning
R1_Reasoning 方向最新论文已更新,请持续关注 Update in 2025-11-22 EvoLMM Self-Evolving Large Multimodal Models with Continuous Rewards
2025-11-22
  目录