⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-03-15 更新
HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model
Authors:Jiaming Liu, Hao Chen, Pengju An, Zhuoyang Liu, Renrui Zhang, Chenyang Gu, Xiaoqi Li, Ziyu Guo, Sixiang Chen, Mengzhen Liu, Chengkai Hou, Mengdi Zhao, KC alex Zhou, Pheng-Ann Heng, Shanghang Zhang
Recent advancements in vision-language models (VLMs) for common-sense reasoning have led to the development of vision-language-action (VLA) models, enabling robots to perform generalized manipulation. Although existing autoregressive VLA methods leverage large-scale pretrained knowledge, they disrupt the continuity of actions. Meanwhile, some VLA methods incorporate an additional diffusion head to predict continuous actions, relying solely on VLM-extracted features, which limits their reasoning capabilities. In this paper, we introduce HybridVLA, a unified framework that seamlessly integrates the strengths of both autoregressive and diffusion policies within a single large language model, rather than simply connecting them. To bridge the generation gap, a collaborative training recipe is proposed that injects the diffusion modeling directly into the next-token prediction. With this recipe, we find that these two forms of action prediction not only reinforce each other but also exhibit varying performance across different tasks. Therefore, we design a collaborative action ensemble mechanism that adaptively fuses these two predictions, leading to more robust control. In experiments, HybridVLA outperforms previous state-of-the-art VLA methods across various simulation and real-world tasks, including both single-arm and dual-arm robots, while demonstrating stable manipulation in previously unseen configurations.
最近,用于常识推理的视觉语言模型(VLMs)的进步推动了视觉语言行动(VLA)模型的发展,使机器人能够执行通用操作。尽管现有的自回归VLA方法利用大规模预训练知识,但它们会破坏行动的连续性。同时,一些VLA方法加入了一个额外的扩散头来预测连续行动,仅依赖于VLM提取的特征,这限制了其推理能力。在本文中,我们介绍了HybridVLA,这是一个统一框架,能够在一个大型语言模型中无缝集成自回归和扩散策略的优点,而不是简单地连接它们。为了弥合生成差距,我们提出了一种协作训练配方,将扩散建模直接注入下一个令牌预测。通过这一配方,我们发现这两种行动预测不仅相互加强,而且在不同任务上的表现各不相同。因此,我们设计了一种协作行动集成机制,自适应地融合这两种预测,从而实现更稳健的控制。在实验中,HybridVLA在各种仿真和真实任务中表现出超越先前最先进的VLA方法的效果,包括单臂和双臂机器人,同时在以前未见过的配置中表现出稳定的操作。
论文及项目相关链接
Summary
本文介绍了HybridVLA框架,该框架结合了自回归和扩散策略的优势,在一个大型语言模型中无缝集成,以强化机器人执行通用操作的能力。通过协作训练策略,将扩散建模直接注入下一个令牌预测中,以缩小生成差距。此外,还设计了一种协作行动集成机制,自适应地融合两种预测,以实现更稳健的控制。在模拟和真实世界的实验中,HybridVLA在单臂和双臂机器人任务中均优于先前的主流VLA方法。
Key Takeaways
- HybridVLA是一个新的框架,结合了自回归和扩散策略的优势,增强了机器人执行通用操作的能力。
- 协作训练策略将扩散建模直接注入下一个令牌预测,以缩小生成差距。
- 自回归和扩散策略在不同的任务中表现出不同的性能。
- 提出了一个协作行动集成机制,自适应地融合两种动作预测。
- HybridVLA在模拟和真实世界的实验中均表现出优异性能。
- 该方法在单臂和双臂机器人任务中都优于先前的主流VLA方法。
点此查看论文截图




UniGoal: Towards Universal Zero-shot Goal-oriented Navigation
Authors:Hang Yin, Xiuwei Xu, Lingqing Zhao, Ziwei Wang, Jie Zhou, Jiwen Lu
In this paper, we propose a general framework for universal zero-shot goal-oriented navigation. Existing zero-shot methods build inference framework upon large language models (LLM) for specific tasks, which differs a lot in overall pipeline and fails to generalize across different types of goal. Towards the aim of universal zero-shot navigation, we propose a uniform graph representation to unify different goals, including object category, instance image and text description. We also convert the observation of agent into an online maintained scene graph. With this consistent scene and goal representation, we preserve most structural information compared with pure text and are able to leverage LLM for explicit graph-based reasoning. Specifically, we conduct graph matching between the scene graph and goal graph at each time instant and propose different strategies to generate long-term goal of exploration according to different matching states. The agent first iteratively searches subgraph of goal when zero-matched. With partial matching, the agent then utilizes coordinate projection and anchor pair alignment to infer the goal location. Finally scene graph correction and goal verification are applied for perfect matching. We also present a blacklist mechanism to enable robust switch between stages. Extensive experiments on several benchmarks show that our UniGoal achieves state-of-the-art zero-shot performance on three studied navigation tasks with a single model, even outperforming task-specific zero-shot methods and supervised universal methods.
本文提出了一个通用的零样本目标导向导航框架。现有的零样本方法基于大型语言模型(LLM)构建特定任务的推理框架,整体流程差异较大,且无法在不同类型的目标之间推广。为了实现通用零样本导航的目标,我们提出了一种统一图表示方法,以融合不同的目标,包括对象类别、实例图像和文本描述。此外,我们将观察结果转换为在线维护的场景图。通过这种一致的场景和目标表示,我们能够保留大部分结构信息,相较于纯文本能够利用LLM进行明确的基于图的推理。具体来说,我们在每个时间点上对场景图和目标图进行图匹配,并根据不同的匹配状态提出不同的策略来生成长期探索目标。当零匹配时,代理首先迭代搜索目标的子图。随着部分匹配的出现,代理然后利用坐标投影和锚点配对来对齐来推断目标位置。最后是场景图修正和目标验证以完成完美匹配。我们还引入了一个黑名单机制,以实现阶段之间的稳健切换。在几个基准测试上的广泛实验表明,我们的UniGoal使用单一模型在三项研究的导航任务上实现了最先进的零样本性能,甚至超越了特定任务的零样本方法和监督通用方法。
论文及项目相关链接
PDF Accepted to CVPR 2025
Summary:
该文提出了一种基于通用图表示的零样本目标导向导航框架。通过统一图表示,将不同目标(包括对象类别、实例图像和文本描述)融合在一起,实现了零样本导航。文中提出了场景图的在线维护,保留了大多数结构信息,并采用了大型语言模型进行基于图的显式推理。通过图匹配和不同的探索策略,实现了对探索目标的长期规划。此外,还引入了一个黑名单机制来增强阶段的稳健性切换。实验表明,所提出的UniGoal框架在三种导航任务上实现了最先进的零样本性能。
Key Takeaways:
- 论文提出了一个通用的零样本目标导向导航框架,旨在实现跨不同目标的零样本导航。
- 通过统一图表示,融合了不同的目标,包括对象类别、实例图像和文本描述。
- 采用了大型语言模型进行基于图的显式推理,保留了结构信息。
- 场景图的在线维护使得导航更加精确和灵活。
- 通过图匹配和不同的探索策略,实现了对探索目标的长期规划。
- UniGoal框架具有强大的性能,在多个基准测试中实现了最先进的零样本导航性能。
点此查看论文截图




Transformers without Normalization
Authors:Jiachen Zhu, Xinlei Chen, Kaiming He, Yann LeCun, Zhuang Liu
Normalization layers are ubiquitous in modern neural networks and have long been considered essential. This work demonstrates that Transformers without normalization can achieve the same or better performance using a remarkably simple technique. We introduce Dynamic Tanh (DyT), an element-wise operation $DyT($x$) = \tanh(\alpha $x$)$, as a drop-in replacement for normalization layers in Transformers. DyT is inspired by the observation that layer normalization in Transformers often produces tanh-like, $S$-shaped input-output mappings. By incorporating DyT, Transformers without normalization can match or exceed the performance of their normalized counterparts, mostly without hyperparameter tuning. We validate the effectiveness of Transformers with DyT across diverse settings, ranging from recognition to generation, supervised to self-supervised learning, and computer vision to language models. These findings challenge the conventional understanding that normalization layers are indispensable in modern neural networks, and offer new insights into their role in deep networks.
标准化层在现代神经网络中无处不在,并一直被视为至关重要。本研究表明,不使用标准化的Transformer可以通过一种非常简单的技术实现相同或更好的性能。我们引入了动态双曲函数(DyT),作为一种元素级操作$DyT(x) = \tanh(\alpha x)$,作为Transformer中标准化层的即插即用替代品。DyT的灵感来源于这样一个观察:Transformer中的层标准化通常会产生类似于双曲函数(tanh)的S形输入输出映射。通过融入DyT,不使用标准化的Transformer可以匹配或超过其标准化对应物的性能,而且大部分情况下不需要调整超参数。我们在多种设置中验证了使用DyT的Transformer的有效性,包括从识别到生成、监督学习到自我监督学习、计算机视觉到语言模型等。这些发现挑战了标准化层在现代神经网络中不可或缺的传统理解,并为深入了解其在深度网络中的作用提供了新的见解。
论文及项目相关链接
PDF CVPR 2025; Project page: https://jiachenzhu.github.io/DyT/
Summary
现代神经网络中普遍存在的归一化层被认为是必要的,但这项工作展示了不使用归一化的Transformer通过使用一种非常简单的技术也能达到相同或更好的性能。引入动态双曲函数(DyT)作为Transformer中归一化层的替代方案。DyT受启发于Transformer中层归一化产生的tanh-like输入-输出映射的观察。通过结合DyT,不使用归一化的Transformer可以匹配或超过使用归一化的同类模型的性能,并且大多不需要调整超参数。验证了DyT在多种设置中的有效性,包括识别与生成任务、监督学习与自监督学习以及计算机视觉和语言模型等领域。这些发现挑战了常规认知,即归一化层在现代神经网络中是不可或缺的,并为深入了解其在深度网络中的作用提供了新的见解。
Key Takeaways
- Transformers不使用归一化层也能实现良好性能。
- 提出了动态双曲函数(DyT)作为Transformer中归一化层的替代方案。
- DyT是基于观察Transformer中层归一化的输入-输出映射特性而设计的。
- 使用DyT的Transformer模型可以匹配或超过使用归一化的模型的性能。
- 在多种任务设置中都验证了DyT的有效性,包括识别、生成、监督学习、自监督学习等。
- 这些发现挑战了常规认知,即归一化层在现代神经网络中是不可或缺的。
点此查看论文截图










Siege: Autonomous Multi-Turn Jailbreaking of Large Language Models with Tree Search
Authors:Andy Zhou
We introduce Siege, a multi-turn adversarial framework that models the gradual erosion of Large Language Model (LLM) safety through a tree search perspective. Unlike single-turn jailbreaks that rely on one meticulously engineered prompt, Siege expands the conversation at each turn in a breadth-first fashion, branching out multiple adversarial prompts that exploit partial compliance from previous responses. By tracking these incremental policy leaks and re-injecting them into subsequent queries, Siege reveals how minor concessions can accumulate into fully disallowed outputs. Evaluations on the JailbreakBench dataset show that Siege achieves a 100% success rate on GPT-3.5-turbo and 97% on GPT-4 in a single multi-turn run, using fewer queries than baselines such as Crescendo or GOAT. This tree search methodology offers an in-depth view of how model safeguards degrade over successive dialogue turns, underscoring the urgency of robust multi-turn testing procedures for language models.
我们介绍了Siege,这是一个多轮对抗性框架,通过树搜索的视角来模拟大型语言模型(LLM)安全性的逐渐侵蚀。不同于依赖精心设计的提示的单轮越狱,Siege以广度优先的方式扩展每一轮的对话,分支出多个对抗性提示,这些提示利用之前响应的部分合规性。通过跟踪这些逐步的政策泄露并将其重新注入后续的查询中,Siege揭示了微小的让步是如何累积成完全禁止的输出的。在JailbreakBench数据集上的评估表明,Siege在GPT-3.5 turbo上实现了100%的成功率,在GPT-4的单轮多运行中达到了97%的成功率,使用的查询次数少于基准测试如Crescendo或GOAT。这种树搜索方法提供了一个深入的视角,来观察模型保障措施在连续的对话回合中是如何退化的,这突显了对语言模型进行稳健的多轮测试程序的紧迫性。
论文及项目相关链接
PDF Accepted to ICLR 2025 Trustworthy LLM
Summary:我们推出了Siege,这是一个多回合对抗性框架,它通过树搜索的角度来模拟大型语言模型(LLM)安全性的逐渐侵蚀。不同于依赖精心设计的单一提示的单回合越狱,Siege以广度优先的方式扩展对话的每一回合,分支出多个对抗性提示,利用之前回应的部分合规性进行攻击。通过跟踪这些累积的政策漏洞并将其重新注入后续查询,Siege揭示了微小的让步是如何累积成完全不允许的输出的。在JailbreakBench数据集上的评估显示,Siege在一次多回合运行中实现了GPT-3.5turbo的100%成功率,GPT-4上的成功率为97%,查询次数少于基线如Crescendo或GOAT。这种树搜索方法提供了一个深入的视角,可以观察到模型保障措施如何在连续的对话回合中降级,强调了为语言模型实施稳健的多回合测试程序的紧迫性。
Key Takeaways:
- Siege是一个多回合对抗性框架,模拟LLM安全性的逐渐侵蚀。
- 它采用树搜索方法来扩展对话,并在每一回合中分支出多个对抗性提示。
- Siege通过跟踪政策漏洞并将其重新注入后续查询,揭示了LLM的安全问题。
- 在JailbreakBench数据集上,Siege在GPT-3.5turbo上的成功率为100%,在GPT-4上为97%。
- 相比于基线方法如Crescendo或GOAT,Siege使用了更少的查询次数。
- Siege揭示了模型保障措施如何在连续的对话回合中逐渐失效。
点此查看论文截图



Compositional Subspace Representation Fine-tuning for Adaptive Large Language Models
Authors:Andy Zhou
Adapting large language models to multiple tasks can cause cross-skill interference, where improvements for one skill degrade another. While methods such as LoRA impose orthogonality constraints at the weight level, they do not fully address interference in hidden-state representations. We propose Compositional Subspace Representation Fine-tuning (CS-ReFT), a novel representation-based approach that learns multiple orthonormal subspace transformations, each specializing in a distinct skill, and composes them via a lightweight router. By isolating these subspace edits in the hidden state, rather than weight matrices, CS-ReFT prevents cross-task conflicts more effectively. On the AlpacaEval benchmark, applying CS-ReFT to Llama-2-7B achieves a 93.94% win rate, surpassing GPT-3.5 Turbo (86.30%) while requiring only 0.0098% of model parameters. These findings show that specialized representation edits, composed via a simple router, significantly enhance multi-task instruction following with minimal overhead.
适应大型语言模型进行多任务学习可能会导致跨技能干扰,即某项技能的提升会损害另一项技能。虽然LoRA等方法在权重层面施加正交性约束,但它们并没有完全解决隐藏状态表示中的干扰问题。我们提出了组合子空间表示微调(CS-ReFT),这是一种基于表示的新方法,学习多个正交子空间变换,每个变换都专注于一种独特的技能,并通过轻量级路由器进行组合。通过在隐藏状态中隔离这些子空间编辑,而不是权重矩阵,CS-ReFT更有效地防止了跨任务冲突。在AlpacaEval基准测试中,将CS-ReFT应用于Llama-2-7B模型,取得了93.94%的胜率,超过了GPT-3.5 Turbo(86.30%),同时仅需要模型参数的0.0098%。这些发现表明,通过简单路由器组合的专业表示编辑,可以显著提高多任务指令的执行力,且几乎不产生额外开销。
论文及项目相关链接
PDF Accepted to ICLR 2025 SCOPE
Summary
大型语言模型在多任务适应过程中会出现技能间干扰问题,即提升某项技能的同时会降以及其他技能的性能。现有方法如LoRA虽在权重层面施加正交性约束,但并未完全解决隐藏状态表示中的干扰问题。本文提出一种基于表示的方法——Compositional Subspace Representation Fine-tuning(CS-ReFT),学习多个正交的子空间变换,每个变换专长于一种技能,并通过轻量级路由器进行组合。通过隔离隐藏状态中的子空间编辑,而非权重矩阵,CS-ReFT更有效地防止了跨任务冲突。在AlpacaEval基准测试中,将CS-ReFT应用于Llama-2-7B模型,取得了93.94%的高胜率,超越了GPT-3.5 Turbo(86.30%),并且仅需要模型参数的0.0098%。研究结果表明,通过简单路由器组合的专业化表示编辑能显著提高多任务指令执行效率,且带来的额外开销很小。
Key Takeaways
- 大型语言模型在多任务适应时会面临技能间干扰问题。
- 现有方法如LoRA并不完全解决隐藏状态表示中的干扰。
- CS-ReFT通过学习多个正交的子空间变换来解决跨任务干扰问题。
- 每个子空间变换在CS-ReFT中专注于一种特定技能。
- CS-ReFT通过轻量级路由器组合这些子空间变换。
- CS-ReFT在AlpacaEval基准测试中取得了显著成果,胜过GPT-3.5 Turbo。
点此查看论文截图



R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization
Authors:Yi Yang, Xiaoxuan He, Hongkun Pan, Xiyan Jiang, Yan Deng, Xingtao Yang, Haoyu Lu, Dacheng Yin, Fengyun Rao, Minfeng Zhu, Bo Zhang, Wei Chen
Large Language Models have demonstrated remarkable reasoning capability in complex textual tasks. However, multimodal reasoning, which requires integrating visual and textual information, remains a significant challenge. Existing visual-language models often struggle to effectively analyze and reason visual content, resulting in suboptimal performance on complex reasoning tasks. Moreover, the absence of comprehensive benchmarks hinders the accurate assessment of multimodal reasoning capabilities. In this paper, we introduce R1-Onevision, a multimodal reasoning model designed to bridge the gap between visual perception and deep reasoning. To achieve this, we propose a cross-modal reasoning pipeline that transforms images into formal textural representations, enabling precise language-based reasoning. Leveraging this pipeline, we construct the R1-Onevision dataset which provides detailed, step-by-step multimodal reasoning annotations across diverse domains. We further develop the R1-Onevision model through supervised fine-tuning and reinforcement learning to cultivate advanced reasoning and robust generalization abilities. To comprehensively evaluate multimodal reasoning performance across different grades, we introduce R1-Onevision-Bench, a benchmark aligned with human educational stages, covering exams from junior high school to university and beyond. Experimental results show that R1-Onevision achieves state-of-the-art performance, outperforming models such as GPT-4o and Qwen2.5-VL on multiple challenging multimodal reasoning benchmarks.
大型语言模型在复杂的文本任务中表现出了显著的理解能力。然而,多模态推理,这需要整合视觉和文本信息,仍然是一个巨大的挑战。现有的视觉语言模型往往难以有效地分析和理解视觉内容,导致在复杂的推理任务上表现不佳。此外,缺乏全面的基准测试阻碍了多模态推理能力的准确评估。在本文中,我们介绍了R1-Onevision,一个旨在弥合视觉感知和深度推理之间差距的多模态推理模型。为实现这一目标,我们提出了一种跨模态推理管道,将图像转换为正式的纹理表示,从而实现基于精确语言的推理。通过这个管道,我们构建了R1-Onevision数据集,该数据集在各个领域提供了详细、分步骤的多模态推理注释。我们进一步通过监督微调强化学习来开发R1-Onevision模型,培养先进的推理和稳健的泛化能力。为了全面评估不同等级的多模态推理性能,我们推出了与人的教育阶段相对应的标准R1-Onevision-Bench,涵盖从初中到大学及以后的考试。实验结果表明,R1-Onevision取得了最先进的性能,在多个具有挑战性的多模态推理基准测试中优于GPT-4o和Qwen2.5-VL等模型。
论文及项目相关链接
PDF Code and Model: https://github.com/Fancy-MLLM/R1-onevision
Summary
大型语言模型在复杂文本任务中展现出强大的推理能力,但在需要整合视觉和文本信息的多模态推理方面仍面临挑战。现有视觉语言模型在分析和理解视觉内容方面存在不足,导致在复杂推理任务上的性能不佳。针对这些问题,本文提出了R1-Onevision多模态推理模型,通过跨模态推理管道将图像转化为正式文本表示,实现精确的语言推理。借助该管道,构建了R1-Onevision数据集,提供不同领域详细的逐步多模态推理注释。通过监督微调强化学习,进一步发展了R1-Onevision模型的先进推理和稳健泛化能力。为全面评估不同等级的多模态推理性能,本文还引入了与人类教育阶段相符的R1-Onevision-Bench基准测试,涵盖从初中到大学及以后的考试。实验结果表明,R1-Onevision在多个具有挑战性的多模态推理基准测试上实现了最先进的性能。
Key Takeaways
- 大型语言模型在复杂文本任务中展现出强大的推理能力,但在多模态推理方面仍有显著挑战。
- 现有视觉语言模型在分析和理解视觉内容方面存在不足。
- R1-Onevision多模态推理模型通过跨模态推理管道转化图像为文本表示,实现精确语言推理。
- R1-Onevision数据集提供多模态推理的详细注释,涵盖不同领域。
- R1-Onevision模型通过监督微调和强化学习进一步发展了先进推理和泛化能力。
- R1-Onevision-Bench基准测试评估不同等级的多模态推理性能,与人类的各个阶段教育相符。
点此查看论文截图





TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-Intervention
Authors:Jinhao Duan, Fei Kong, Hao Cheng, James Diffenderfer, Bhavya Kailkhura, Lichao Sun, Xiaofeng Zhu, Xiaoshuang Shi, Kaidi Xu
Object Hallucination (OH) has been acknowledged as one of the major trustworthy challenges in Large Vision-Language Models (LVLMs). Recent advancements in Large Language Models (LLMs) indicate that internal states, such as hidden states, encode the “overall truthfulness” of generated responses. However, it remains under-explored how internal states in LVLMs function and whether they could serve as “per-token” hallucination indicators, which is essential for mitigating OH. In this paper, we first conduct an in-depth exploration of LVLM internal states in relation to OH issues and discover that (1) LVLM internal states are high-specificity per-token indicators of hallucination behaviors. Moreover, (2) different LVLMs encode universal patterns of hallucinations in common latent subspaces, indicating that there exist “generic truthful directions” shared by various LVLMs. Based on these discoveries, we propose Truthful-Guided Pre-Intervention (TruthPrInt) that first learns the truthful direction of LVLM decoding and then applies truthful-guided inference-time intervention during LVLM decoding. We further propose ComnHallu to enhance both cross-LVLM and cross-data hallucination detection transferability by constructing and aligning hallucination latent subspaces. We evaluate TruthPrInt in extensive experimental settings, including in-domain and out-of-domain scenarios, over popular LVLMs and OH benchmarks. Experimental results indicate that TruthPrInt significantly outperforms state-of-the-art methods. Codes will be available at https://github.com/jinhaoduan/TruthPrInt.
对象幻觉(OH)已被认为是大型视觉语言模型(LVLMs)面临的主要可信挑战之一。大型语言模型(LLM)的最新进展表明,隐藏状态等内部状态编码了生成响应的“整体真实性”。然而,关于LVLMs的内部状态如何发挥作用,以及它们是否可以作为“逐词”幻觉指标的问题尚未得到充分研究,这对于缓解OH至关重要。在本文中,我们首先深入探讨了LVLM内部状态与OH问题的关系,并发现:(1)LVLM的内部状态是幻觉行为的高特异性逐词指标。(2)不同的LVLM在共同的潜在子空间中编码了幻觉的通用模式,这表明存在各种LVLM共享的“通用真实方向”。基于这些发现,我们提出了真实引导预干预(TruthPrInt),它首先学习LVLM解码的真实方向,然后在LVLM解码时进行真实引导推理时间干预。为了进一步增强跨LVLM和跨数据幻觉检测的可转移性,我们提出ComnHallu,通过构建和对齐幻觉潜在子空间。我们在广泛的实验设置中对TruthPrInt进行了评估,包括域内和域外场景,以及流行的LVLM和OH基准测试。实验结果表明,TruthPrInt显著优于最新方法。代码将在https://github.com/jinhaoduan/TruthPrInt上提供。
论文及项目相关链接
PDF 15 pages, 9 figures, the first two authors contributed equally
摘要
大型视觉语言模型(LVLMs)中的对象幻觉(OH)被公认为是主要的可信挑战之一。研究发现,LVLM的内部状态(如隐藏状态)编码了生成响应的“整体真实性”。然而,尚不清楚LVLM的内部状态如何发挥作用,以及它们是否能作为“每个标记”的幻觉指标来减轻OH。本文通过深入研究LVLM内部状态与OH问题的关系,发现(1)LVLM内部状态是高特异性的、针对每个标记的幻觉行为指标。(2)不同的LVLM在共同的潜在子空间中编码幻觉的通用模式,这表明各种LVLM共享“通用的真实方向”。基于此,本文提出了真实引导预干预(TruthPrInt),该方法首先学习LVLM解码的真实方向,然后在LVLM解码过程中进行真实引导推理干预。此外,本文还提出了ComnHallu,通过构建和对齐幻觉潜在子空间,增强跨LVLM和跨数据幻觉检测的迁移性。在广泛的实验设置(包括域内和域外场景、流行LVLM和OH基准测试)中评估TruthPrInt,结果表明TruthPrInt显著优于最新方法。代码将发布在https://github.com/jinhaoduan/TruthPrInt。
关键见解
- LVLM的内部状态是评估生成响应真实性的重要指标。
- LVLM的内部状态可以作为“每个标记”的幻觉行为的特异性指标。
- 不同的LVLM在潜在子空间中编码幻觉的通用模式,存在“通用的真实方向”。
- 提出了真实引导预干预(TruthPrInt)方法,通过学习LVLM解码的真实方向,在推理时进行干预。
- ComnHallu方法通过构建和对齐幻觉潜在子空间,增强了幻觉检测的迁移性和跨模型、跨数据的检测能力。
- TruthPrInt在广泛的实验设置中表现出显著的性能提升,包括在域内和域外的场景、流行的LVLM和OH基准测试上。
点此查看论文截图






Unlock the Power of Unlabeled Data in Language Driving Model
Authors:Chaoqun Wang, Jie Yang, Xiaobin Hong, Ruimao Zhang
Recent Vision-based Large Language Models~(VisionLLMs) for autonomous driving have seen rapid advancements. However, such promotion is extremely dependent on large-scale high-quality annotated data, which is costly and labor-intensive. To address this issue, we propose unlocking the value of abundant yet unlabeled data to improve the language-driving model in a semi-supervised learning manner. Specifically, we first introduce a series of template-based prompts to extract scene information, generating questions that create pseudo-answers for the unlabeled data based on a model trained with limited labeled data. Next, we propose a Self-Consistency Refinement method to improve the quality of these pseudo-annotations, which are later used for further training. By utilizing a pre-trained VisionLLM (e.g., InternVL), we build a strong Language Driving Model (LDM) for driving scene question-answering, outperforming previous state-of-the-art methods. Extensive experiments on the DriveLM benchmark show that our approach performs well with just 5% labeled data, achieving competitive performance against models trained with full datasets. In particular, our LDM achieves 44.85% performance with limited labeled data, increasing to 54.27% when using unlabeled data, while models trained with full datasets reach 60.68% on the DriveLM benchmark.
近年来,基于视觉的大型语言模型(VisionLLMs)在自动驾驶领域取得了快速发展。然而,这种进步极度依赖于大规模高质量标注数据,这成本高昂且劳动密集。为了解决这个问题,我们提出了以半监督学习的方式,解锁大量未标注数据的价值,以提高驾驶语言模型的表现。具体来说,我们首先引入一系列基于模板的提示来提取场景信息,生成问题,这些问题会根据有限标注数据训练的模型为未标注数据提供伪答案。接下来,我们提出了一种自洽细化方法,以提高这些伪标注的质量,用于进一步的训练。通过利用预训练的VisionLLM(例如InternVL),我们建立了一个强大的语言驾驶模型(LDM),用于驾驶场景问答,超越了之前的最先进方法。在DriveLM基准测试上的大量实验表明,我们的方法只需5%的标注数据就能表现良好,与全数据集训练的模型相比具有竞争力。尤其值得一提的是,我们的LDM在有限标注数据的情况下达到44.85%的性能,在使用未标注数据后提高到54.27%,而全数据集训练的模型在DriveLM基准测试上达到60.68%。
论文及项目相关链接
PDF Accepted by ICRA2025
Summary
大规模高质量标注数据对基于视觉的大型语言模型(VisionLLMs)在自动驾驶领域的应用至关重要,但获取这些数据成本高昂且劳动密集。为应对这一问题,本研究提出利用丰富的未标注数据,以半监督学习方式提升语言驾驶模型的价值。通过基于模板的提示生成伪答案,再利用自我一致性优化方法提高伪标注的质量,并将其用于进一步训练。利用预训练的VisionLLM(如InternVL),为驾驶场景问答构建了强大的语言驾驶模型(LDM),表现优于先前的方法。在DriveLM基准测试上,仅使用5%标注数据的方法表现良好,使用未标注数据时性能进一步提升。
Key Takeaways
- 自动驾驶领域中的VisionLLMs面临依赖大规模高质量标注数据的问题。
- 为解决此问题,研究提出了利用丰富的未标注数据以半监督学习方式提升语言驾驶模型的方法。
- 通过基于模板的提示生成伪答案,并使用自我一致性优化方法提高伪标注质量。
- 利用预训练的VisionLLM构建了强大的LDM用于驾驶场景问答。
- 该方法在DriveLM基准测试上表现良好,仅使用5%标注数据时性能可观。
- 使用未标注数据可进一步提升模型性能。
点此查看论文截图






Unveiling the Mathematical Reasoning in DeepSeek Models: A Comparative Study of Large Language Models
Authors:Afrar Jahin, Arif Hassan Zidan, Yu Bao, Shizhe Liang, Tianming Liu, Wei Zhang
With the rapid evolution of Artificial Intelligence (AI), Large Language Models (LLMs) have reshaped the frontiers of various fields, spanning healthcare, public health, engineering, science, agriculture, education, arts, humanities, and mathematical reasoning. Among these advancements, DeepSeek models have emerged as noteworthy contenders, demonstrating promising capabilities that set them apart from their peers. While previous studies have conducted comparative analyses of LLMs, few have delivered a comprehensive evaluation of mathematical reasoning across a broad spectrum of LLMs. In this work, we aim to bridge this gap by conducting an in-depth comparative study, focusing on the strengths and limitations of DeepSeek models in relation to their leading counterparts. In particular, our study systematically evaluates the mathematical reasoning performance of two DeepSeek models alongside five prominent LLMs across three independent benchmark datasets. The findings reveal several key insights: 1). DeepSeek-R1 consistently achieved the highest accuracy on two of the three datasets, demonstrating strong mathematical reasoning capabilities. 2). The distilled variant of LLMs significantly underperformed compared to its peers, highlighting potential drawbacks in using distillation techniques. 3). In terms of response time, Gemini 2.0 Flash demonstrated the fastest processing speed, outperforming other models in efficiency, which is a crucial factor for real-time applications. Beyond these quantitative assessments, we delve into how architecture, training, and optimization impact LLMs’ mathematical reasoning. Moreover, our study goes beyond mere performance comparison by identifying key areas for future advancements in LLM-driven mathematical reasoning. This research enhances our understanding of LLMs’ mathematical reasoning and lays the groundwork for future advancements
随着人工智能(AI)的迅速发展,大型语言模型(LLM)已经重塑了各个领域的边界,涵盖了医疗保健、公共卫生、工程、科学、农业、教育、艺术、人文和数学推理等多个领域。在这些进展中,DeepSeek模型表现出引人注目的能力,使其在同行业中的竞争中脱颖而出。虽然之前的研究已经对LLM进行了比较分析,但很少有研究对LLM的广泛数学推理能力进行全面评估。在这项工作中,我们旨在通过进行深入的对比研究来填补这一空白,重点关注DeepSeek模型与其领先同行在数学推理方面的优势和局限性。特别是,我们的研究系统地评估了两个DeepSeek模型与五种主要LLM在数学推理方面的性能表现,涉及三个独立的基准数据集。研究结果表明:1. DeepSeek-R1在两个数据集中的准确率始终最高,表现出强大的数学推理能力。2. 与其同行相比,蒸馏变体LLM的表现明显较差,这突显了使用蒸馏技术可能存在的潜在缺陷。3. 在响应时间方面,Gemini 2.0 Flash的处理速度最快,在效率方面优于其他模型,这对于实时应用是一个至关重要的因素。除了这些定量评估外,我们还深入探讨了架构、训练和优化如何影响LLM的数学推理能力。此外,我们的研究不仅局限于性能比较,还确定了LLM驱动的数学推理未来发展的关键领域。这项研究增强了我们对于LLM数学推理的理解,并为未来的进步奠定了基础。
论文及项目相关链接
Summary
随着人工智能的快速发展,大型语言模型(LLM)已经重塑了多个领域的前沿,包括医疗、公共卫生、工程、科学、农业、教育、艺术、人文和数学推理等。DeepSeek模型表现出令人瞩目的能力,本研究旨在通过深入研究对比DeepSeek模型与其他领先的大型语言模型在数学推理方面的优势和局限性,填补当前研究的空白。研究结果表明DeepSeek-R1在多数数据集上表现最佳,蒸馏型LLM表现较差,Gemini 2.0 Flash在响应时间方面表现最佳。此外,本研究还探讨了架构、训练和优化对LLM数学推理的影响,并指出了未来LLM驱动的数学推理发展的关键领域。
Key Takeaways
- DeepSeek-R1在多数数据集上展现出强大的数学推理能力。
- 蒸馏型LLM相较于其他模型表现较差,这突显了使用蒸馏技术的一些潜在缺点。
- Gemini 2.0 Flash在响应时间方面表现最佳,具有较高的处理效率,适用于实时应用。
- LLM的数学推理能力受到其架构、训练和优化的影响。
- 研究结果强调了未来在LLM驱动的数学推理发展中需要关注的关键领域。
- 本研究增强了我们对LLM数学推理的理解,并为未来的进步奠定了基础。
点此查看论文截图



ASIDE: Architectural Separation of Instructions and Data in Language Models
Authors:Egor Zverev, Evgenii Kortukov, Alexander Panfilov, Soroush Tabesh, Alexandra Volkova, Sebastian Lapuschkin, Wojciech Samek, Christoph H. Lampert
Despite their remarkable performance, large language models lack elementary safety features, and this makes them susceptible to numerous malicious attacks. In particular, previous work has identified the absence of an intrinsic separation between instructions and data as a root cause for the success of prompt injection attacks. In this work, we propose an architectural change, ASIDE, that allows the model to clearly separate between instructions and data by using separate embeddings for them. Instead of training the embeddings from scratch, we propose a method to convert an existing model to ASIDE form by using two copies of the original model’s embeddings layer, and applying an orthogonal rotation to one of them. We demonstrate the effectiveness of our method by showing (1) highly increased instruction-data separation scores without a loss in model capabilities and (2) competitive results on prompt injection benchmarks, even without dedicated safety training. Additionally, we study the working mechanism behind our method through an analysis of model representations.
尽管大型语言模型表现出色,但它们缺乏基本的安全功能,这使得它们容易受到众多恶意攻击的影响。特别是,先前的工作已经确定了指令和数据之间缺乏内在分离是提示注入攻击成功的根本原因。在这项工作中,我们提出了一种架构更改,即ASIDE,它允许模型通过为指令和数据使用单独的嵌入来清晰地分离它们。我们并不提议从头开始训练嵌入,而是提出了一种将现有模型转换为ASIDE形式的方法,该方法使用原始模型的嵌入层副本,并对其中一个应用正交旋转。我们通过展示(1)在保持模型能力不损失的情况下,指令-数据分离得分大幅提高;(2)即使在未进行专门的安全训练的情况下,提示注入基准测试也有竞争力结果来证明我们方法的有效性。此外,我们还通过模型表示的分析研究了该方法的工作原理。
论文及项目相关链接
PDF ICLR 2025 Workshop on Building Trust in Language Models and Applications
摘要
尽管大型语言模型的性能显著,但它们缺乏基本的安全特性,这使得它们容易受到多次恶意攻击。先前的工作已经识别出指令和数据之间缺乏内在分离是提示注入攻击成功的根本原因。在这项工作中,我们提出了一种架构改变——ASIDE,它允许模型通过为指令和数据使用单独的嵌入来清晰地分离它们。我们提出了一种将现有模型转换为ASIDE形式的方法,而不是从头开始训练嵌入,该方法包括使用原始模型嵌入层的两个副本,并对其中一个应用正交旋转。我们通过(1)提高指令-数据分离分数而不会影响模型能力,(2)在提示注入基准测试上获得具有竞争力的结果(即使在没有专门的安全训练的情况下),来证明我们方法的有效性。此外,我们还通过模型表示的分析研究了我们的方法的工作原理。
要点掌握
- 大型语言模型缺乏基本的安全特性,容易受到恶意攻击。
- 指令和数据之间缺乏内在分离是提示注入攻击成功的关键因素。
- 提出了一种新的架构ASIDE,能够清晰地分离指令和数据。
- 转换现有模型到ASIDE形式的方法是通过使用两个嵌入层副本并应用正交旋转。
- 该方法在不损失模型能力的前提下提高了指令与数据的分离效果。
- 在提示注入基准测试上,该方法取得了具有竞争力的结果,无需专门的安全训练。
点此查看论文截图




KUDA: Keypoints to Unify Dynamics Learning and Visual Prompting for Open-Vocabulary Robotic Manipulation
Authors:Zixian Liu, Mingtong Zhang, Yunzhu Li
With the rapid advancement of large language models (LLMs) and vision-language models (VLMs), significant progress has been made in developing open-vocabulary robotic manipulation systems. However, many existing approaches overlook the importance of object dynamics, limiting their applicability to more complex, dynamic tasks. In this work, we introduce KUDA, an open-vocabulary manipulation system that integrates dynamics learning and visual prompting through keypoints, leveraging both VLMs and learning-based neural dynamics models. Our key insight is that a keypoint-based target specification is simultaneously interpretable by VLMs and can be efficiently translated into cost functions for model-based planning. Given language instructions and visual observations, KUDA first assigns keypoints to the RGB image and queries the VLM to generate target specifications. These abstract keypoint-based representations are then converted into cost functions, which are optimized using a learned dynamics model to produce robotic trajectories. We evaluate KUDA on a range of manipulation tasks, including free-form language instructions across diverse object categories, multi-object interactions, and deformable or granular objects, demonstrating the effectiveness of our framework. The project page is available at http://kuda-dynamics.github.io.
随着大型语言模型(LLM)和视觉语言模型(VLM)的快速发展,开放式词汇机器人操纵系统在开发方面已取得了重大进展。然而,许多现有方法忽视了物体动力学的重要性,限制了它们在更复杂、动态的任务中的应用。在这项工作中,我们介绍了KUDA,这是一个开放式词汇操纵系统,它通过关键点整合动力学学习和视觉提示,利用VLMs和基于学习的神经动力学模型。我们的关键见解是,基于关键点的目标规格可以同时被VLMs解释,并可以有效地转化为基于模型的规划的成本函数。给定语言指令和视觉观察,KUDA首先为RGB图像分配关键点,并查询VLM以生成目标规格。这些抽象的基于关键点的表示然后被转换成成本函数,使用学习到的动力学模型进行优化,以产生机器人轨迹。我们在各种操作任务上评估了KUDA,包括跨不同对象类别的自由形式语言指令、多对象交互以及可变形或颗粒状物体,证明了我们的框架的有效性。项目页面可在http://kuda-dynamics.github.io查看。
论文及项目相关链接
PDF Project website: http://kuda-dynamics.github.io
Summary
随着大型语言模型(LLMs)和视觉语言模型(VLMs)的快速发展,开放词汇机器人操纵系统取得了显著进展。然而,许多现有方法忽视了物体动力学的重要性,限制了它们在更复杂、动态任务中的应用。本研究介绍了KUDA,一个开放词汇的操纵系统,它通过关键点整合动力学学习和视觉提示,利用VLMs和学习型神经动力学模型。KUDA的关键见解是,基于关键点的目标规格可以同时被VLMs解读,并能有效地转化为模型基础规划的成本函数。给定语言指令和视觉观察,KUDA首先将关键点分配给RGB图像并查询VLM以生成目标规格。这些抽象的基于关键点的表示然后被转化为成本函数,使用学习到的动力学模型进行优化以产生机器人轨迹。
Key Takeaways
- 大型语言模型(LLMs)和视觉语言模型(VLMs)的快速发展推动了开放词汇机器人操纵系统的进步。
- 现有方法在复杂、动态任务中的应用受限于对物体动力学的忽视。
- KUDA是一个开放词汇的操纵系统,通过关键点整合动力学学习和视觉提示。
- KUDA利用VLMs和学习型神经动力学模型,基于关键点的目标规格可以同时被VLMs解读并转化为成本函数。
- KUDA通过语言指令和视觉观察来分配关键点,生成目标规格,并将其转化为机器人操作的轨迹。
- KUDA在多种操作任务上的表现得到了验证,包括自由形式的语言指令、多对象交互、可变形或颗粒状物体等。
- KUDA项目页面提供了更多详细信息:http://kuda-dynamics.github.io。
点此查看论文截图







PiSA: A Self-Augmented Data Engine and Training Strategy for 3D Understanding with Large Models
Authors:Zilu Guo, Hongbin Lin, Zhihao Yuan, Chaoda Zheng, Pengshuo Qiu, Dongzhi Jiang, Renrui Zhang, Chun-Mei Feng, Zhen Li
3D Multimodal Large Language Models (MLLMs) have recently made substantial advancements. However, their potential remains untapped, primarily due to the limited quantity and suboptimal quality of 3D datasets. Current approaches attempt to transfer knowledge from 2D MLLMs to expand 3D instruction data, but still face modality and domain gaps. To this end, we introduce PiSA-Engine (Point-Self-Augmented-Engine), a new framework for generating instruction point-language datasets enriched with 3D spatial semantics. We observe that existing 3D MLLMs offer a comprehensive understanding of point clouds for annotation, while 2D MLLMs excel at cross-validation by providing complementary information. By integrating holistic 2D and 3D insights from off-the-shelf MLLMs, PiSA-Engine enables a continuous cycle of high-quality data generation. We select PointLLM as the baseline and adopt this co-evolution training framework to develop an enhanced 3D MLLM, termed PointLLM-PiSA. Additionally, we identify limitations in previous 3D benchmarks, which often feature coarse language captions and insufficient category diversity, resulting in inaccurate evaluations. To address this gap, we further introduce PiSA-Bench, a comprehensive 3D benchmark covering six key aspects with detailed and diverse labels. Experimental results demonstrate PointLLM-PiSA’s state-of-the-art performance in zero-shot 3D object captioning and generative classification on our PiSA-Bench, achieving significant improvements of 46.45% (+8.33%) and 63.75% (+16.25%), respectively. We will release the code, datasets, and benchmark.
3D多模态大型语言模型(MLLMs)最近取得了重大进展。然而,它们的潜力尚未被发掘,主要是因为3D数据集的数量有限和质量不佳。当前的方法试图从2D MLLMs转移知识来扩展3D指令数据,但仍面临模态和领域差距。为此,我们引入了PiSA-Engine(Point-Self-Augmented-Engine),这是一个用于生成富含3D空间语义的指令点语言数据集的新框架。我们发现现有的3D MLLMs对点云注释有着全面的理解,而2D MLLMs则通过提供补充信息擅长交叉验证。通过整合现成的MLLMs的2D和3D整体见解,PiSA-Engine能够实现高质量数据生成的持续循环。我们选择PointLLM作为基线,并采用这种协同进化训练框架来开发增强的3D MLLM,称为PointLLM-PiSA。此外,我们发现了以前3D基准测试的局限性,这些测试通常具有粗糙的语言标题和不足的类别多样性,导致评估不准确。为了弥补这一差距,我们进一步引入了PiSA-Bench,这是一个全面的3D基准测试,涵盖六个关键方面,具有详细和多样的标签。实验结果表明,PointLLM-PiSA在我们的PiSA-Bench上实现了零样本3D目标描述和生成分类的领先水平,分别提高了46.45%(+8.33%)和63.75%(+16.25%)。我们将发布代码、数据集和基准测试。
论文及项目相关链接
PDF Technical Report
Summary
基于上述文本,提出一种名为PiSA-Engine的新框架,用于生成富含三维空间语义的指令点语言数据集。通过整合二维和三维的多角度见解,实现了高质量数据生成的连续循环。并提出PiSA-Bench这一全面三维基准测试平台,覆盖六个关键方面并拥有详细多样的标签。实验结果证实其在新方法和基准测试上的优越性。后续将发布相关代码、数据集和基准测试平台。概述完毕。
Key Takeaways
以下是基于文本的关键见解:
- 当前大型语言模型(LLM)在三维领域的潜力尚未得到充分发挥,主要原因是缺乏高质量的三维数据集。
- 提出PiSA-Engine框架,旨在生成富含三维空间语义的指令点语言数据集。该框架结合了二维和三维LLM的优势,实现了高质量数据生成的连续循环。
- 介绍新的基准测试平台PiSA-Bench,其涵盖了六个关键方面并具备详细的多样性标签,能够更准确地对模型进行评估。
- 基于PointLLM基线模型和PiSA框架共同演化训练法训练了一个新的模型PointLLM-PiSA。
- 实验结果证实PointLLM-PiSA在零样本三维对象描述和生成分类任务上表现卓越,实现了显著的性能提升。
点此查看论文截图







AudioX: Diffusion Transformer for Anything-to-Audio Generation
Authors:Zeyue Tian, Yizhu Jin, Zhaoyang Liu, Ruibin Yuan, Xu Tan, Qifeng Chen, Wei Xue, Yike Guo
Audio and music generation have emerged as crucial tasks in many applications, yet existing approaches face significant limitations: they operate in isolation without unified capabilities across modalities, suffer from scarce high-quality, multi-modal training data, and struggle to effectively integrate diverse inputs. In this work, we propose AudioX, a unified Diffusion Transformer model for Anything-to-Audio and Music Generation. Unlike previous domain-specific models, AudioX can generate both general audio and music with high quality, while offering flexible natural language control and seamless processing of various modalities including text, video, image, music, and audio. Its key innovation is a multi-modal masked training strategy that masks inputs across modalities and forces the model to learn from masked inputs, yielding robust and unified cross-modal representations. To address data scarcity, we curate two comprehensive datasets: vggsound-caps with 190K audio captions based on the VGGSound dataset, and V2M-caps with 6 million music captions derived from the V2M dataset. Extensive experiments demonstrate that AudioX not only matches or outperforms state-of-the-art specialized models, but also offers remarkable versatility in handling diverse input modalities and generation tasks within a unified architecture. The code and datasets will be available at https://zeyuet.github.io/AudioX/
音频和音乐生成在许多应用中已成为至关重要的任务,然而现有方法面临重大局限:它们在孤立的情况下运行,不具备跨模态的统一能力,缺乏高质量的多模态训练数据,难以有效地整合不同的输入。在这项工作中,我们提出了AudioX,一个统一的扩散Transformer模型,用于任何内容到音频和音乐生成。不同于之前的特定领域模型,AudioX可以生成高质量的一般音频和音乐,同时提供灵活的自然语言控制以及无缝处理各种模态,包括文本、视频、图像、音乐和音频。其核心创新之处在于多模态掩模训练策略,该策略会屏蔽跨模态的输入,并迫使模型从被屏蔽的输入中学习,从而产生稳健和统一的跨模态表示。为了解决数据稀缺问题,我们整理了两个综合数据集:基于VGGSound数据集的19万音频字幕的vggsound-caps,以及从V2M数据集中派生的600万音乐字幕的V2M-caps。大量实验表明,AudioX不仅与最先进的专用模型相匹配或表现更好,而且在一个统一架构中处理各种输入模态和生成任务方面表现出惊人的通用性。代码和数据集将可在https://zeyuet.github.io/AudioX/找到。
论文及项目相关链接
PDF The code and datasets will be available at https://zeyuet.github.io/AudioX/
Summary:
本文介绍了一种名为AudioX的统一扩散转换器模型,该模型可用于任何内容到音频和音乐生成。它具备跨模态的灵活处理能力,可以生成高质量的一般音频和音乐。其关键创新在于多模态掩模训练策略,该策略能够在跨模态输入中掩模输入并迫使模型从掩模输入中学习,从而产生稳健的统一跨模态表示。为解决数据稀缺问题,作者还整理了两个综合数据集。实验表明,AudioX不仅在专用模型上表现卓越,还表现出惊人的跨模态处理能力和生成任务的灵活性。
Key Takeaways:
- AudioX是一个统一的扩散转换器模型,用于任何内容到音频和音乐生成。
- 它具备生成高质量一般音频和音乐的能力,同时提供灵活的跨模态处理能力。
- AudioX的关键创新在于其多模态掩模训练策略,该策略产生稳健的跨模态表示。
- 为解决数据稀缺问题,作者整理了两个综合数据集vggsound-caps和V2M-caps。
- AudioX在专用模型上表现卓越,并在处理跨模态输入和生成任务时表现出灵活性。
- 该模型的代码和数据集将可在[https://zeyuet.github.io/AudioX/]上获得。
点此查看论文截图




Conformal Prediction Sets for Deep Generative Models via Reduction to Conformal Regression
Authors:Hooman Shahrokhi, Devjeet Raj Roy, Yan Yan, Venera Arnaoudova, Janaradhan Rao Doppa
We consider the problem of generating valid and small prediction sets by sampling outputs (e.g., software code and natural language text) from a black-box deep generative model for a given input (e.g., textual prompt). The validity of a prediction set is determined by a user-defined binary admissibility function depending on the target application. For example, requiring at least one program in the set to pass all test cases in code generation application. To address this problem, we develop a simple and effective conformal inference algorithm referred to as Generative Prediction Sets (GPS). Given a set of calibration examples and black-box access to a deep generative model, GPS can generate prediction sets with provable guarantees. The key insight behind GPS is to exploit the inherent structure within the distribution over the minimum number of samples needed to obtain an admissible output to develop a simple conformal regression approach over the minimum number of samples. Experiments on multiple datasets for code and math word problems using different large language models demonstrate the efficacy of GPS over state-of-the-art methods.
我们考虑通过从一个黑箱深度生成模型中对给定输入(如文本提示)进行采样输出(例如软件代码和自然语言文本),来生成有效且小的预测集的问题。预测集的有效性是由用户定义的二进制接纳函数决定的,这取决于目标应用程序。例如,在代码生成应用程序中,要求集合中至少有一个程序通过所有测试用例。为了解决此问题,我们开发了一种简单有效的合规推理算法,称为生成预测集(GPS)。给定一组校准示例和对深度生成模型的黑箱访问权限,GPS可以生成具有可证明保证的预测集。GPS背后的关键见解是利用获得可接纳输出所需的最小样本数分布的内在结构,在此基础上开发一种简单的合规回归方法。在多个数据集上进行的代码和数学文字问题的实验表明,与最先进的方法相比,GPS更为有效。使用了大型语言模型进行了广泛验证。
论文及项目相关链接
Summary
在给定输入(如文本提示)的情况下,通过从黑箱深度生成模型中采样输出(如软件代码和自然语言文本)来生成有效且小的预测集是一个难题。为了解决这个问题,我们提出了一种简单有效的基于置信推断的方法,称为生成预测集(GPS)。给定一组校准示例和对深度生成模型的黑箱访问权限,GPS能够生成具有可验证保证的预测集。关键在于利用生成可接受输出所需的最小样本数分布的内在结构,为最小样本数开发一种简单的置信回归方法。在多个数据集上的实验表明,GPS在解决代码和数学问题的应用中优于现有方法。
Key Takeaways
- 该问题聚焦于从黑箱深度生成模型中生成有效且小的预测集。
- 通过一个用户定义的二元接纳函数来判断预测集的有效性。
- 提出了一种简单有效的基于置信推断的方法——生成预测集(GPS)。
- GPS利用生成可接受输出所需的最小样本数分布的内在结构。
- GPS通过一种简单的置信回归方法为最小样本数提供可验证保证。
- 实验结果显示GPS在多个数据集上的表现优于现有方法。
点此查看论文截图



TokenCarve: Information-Preserving Visual Token Compression in Multimodal Large Language Models
Authors:Xudong Tan, Peng Ye, Chongjun Tu, Jianjian Cao, Yaoxin Yang, Lin Zhang, Dongzhan Zhou, Tao Chen
Multimodal Large Language Models (MLLMs) are becoming increasingly popular, while the high computational cost associated with multimodal data input, particularly from visual tokens, poses a significant challenge. Existing training-based token compression methods improve inference efficiency but require costly retraining, while training-free methods struggle to maintain performance when aggressively reducing token counts. In this study, we reveal that the performance degradation of MLLM closely correlates with the accelerated loss of information in the attention output matrix. This insight introduces a novel information-preserving perspective, making it possible to maintain performance even under extreme token compression. Based on this finding, we propose TokenCarve, a training-free, plug-and-play, two-stage token compression framework. The first stage employs an Information-Preservation-Guided Selection (IPGS) strategy to prune low-information tokens, while the second stage further leverages IPGS to guide token merging, minimizing information loss. Extensive experiments on 11 datasets and 2 model variants demonstrate the effectiveness of TokenCarve. It can even reduce the number of visual tokens to 22.2% of the original count, achieving a 1.23x speedup in inference, a 64% reduction in KV cache storage, and only a 1.54% drop in accuracy. Our code is available at https://github.com/ShawnTan86/TokenCarve.
多模态大型语言模型(MLLMs)越来越受欢迎,然而与多模态数据输入相关的高计算成本,特别是来自视觉标记的输入,构成了一大挑战。现有的基于训练的标记压缩方法提高了推理效率,但需要昂贵的重新训练,而无训练的方法在大力减少标记数量时却难以维持性能。在这项研究中,我们发现多模态大型语言模型的性能下降与注意力输出矩阵中信息加速丢失密切相关。这一发现引入了一种新的信息保留视角,即使在极端的标记压缩下也能维持性能。基于这一发现,我们提出了TokenCarve,这是一种无需训练、即插即用的两阶段标记压缩框架。第一阶段采用信息保留引导选择(IPGS)策略来删除低信息标记,第二阶段进一步利用IPGS来指导标记合并,尽量减少信息损失。在11个数据集和2个模型变体上的大量实验证明了TokenCarve的有效性。它甚至可以将视觉标记的数量减少到原始数量的22.2%,实现推理速度提高1.23倍,KV缓存存储减少64%,准确率仅下降1.54%。我们的代码可在https://github.com/ShawnTan86/TokenCarve上找到。
论文及项目相关链接
Summary
多媒体大型语言模型(MLLMs)面临高计算成本挑战,特别是在处理视觉符号输入时。现有基于训练的符号压缩方法能提高推理效率,但需要昂贵的重新训练成本,而无需训练的压缩方法则在大幅减少符号计数时难以保持性能。本研究发现MLLM性能下降与注意力输出矩阵中信息的加速丧失密切相关,因此提出了一种新型的信息保留视角,并基于此见解提出了无需训练的TokenCarve框架。该框架采用两阶段符号压缩策略,第一阶段采用信息保留引导选择策略来删除低信息符号,第二阶段进一步利用该策略引导符号合并,尽量减少信息损失。在多个数据集和模型变体上的实验表明TokenCarve的有效性。它可以将视觉符号的数量减少到原始数量的22.2%,提高推理速度1.23倍,降低KV缓存存储64%,且仅损失1.54%的精度。
Key Takeaways
- 多媒体大型语言模型(MLLMs)在处理视觉符号输入时面临高计算成本挑战。
- 现有符号压缩方法需要昂贵的重新训练成本或难以在减少符号计数时保持性能。
- 研究发现MLLM性能下降与注意力输出矩阵中信息的加速丧失有关。
- 提出了一种新型的信息保留视角来保持性能,即使在极端的符号压缩下。
- 介绍了TokenCarve框架,这是一个无需训练的、即插即用的两阶段符号压缩框架。
- TokenCarve通过采用信息保留引导选择策略来删除和合并低信息符号,以优化性能。
点此查看论文截图




MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation
Authors:Weihao Xuan, Rui Yang, Heli Qi, Qingcheng Zeng, Yunze Xiao, Yun Xing, Junjue Wang, Huitao Li, Xin Li, Kunyu Yu, Nan Liu, Qingyu Chen, Douglas Teodoro, Edison Marrese-Taylor, Shijian Lu, Yusuke Iwasawa, Yutaka Matsuo, Irene Li
Traditional benchmarks struggle to evaluate increasingly sophisticated language models in multilingual and culturally diverse contexts. To address this gap, we introduce MMLU-ProX, a comprehensive multilingual benchmark covering 13 typologically diverse languages with approximately 11,829 questions per language. Building on the challenging reasoning-focused design of MMLU-Pro, our framework employs a semi-automatic translation process: translations generated by state-of-the-art large language models (LLMs) are rigorously evaluated by expert annotators to ensure conceptual accuracy, terminological consistency, and cultural relevance. We comprehensively evaluate 25 state-of-the-art LLMs using 5-shot chain-of-thought (CoT) and zero-shot prompting strategies, analyzing their performance across linguistic and cultural boundaries. Our experiments reveal consistent performance degradation from high-resource languages to lower-resource ones, with the best models achieving over 70% accuracy on English but dropping to around 40% for languages like Swahili, highlighting persistent gaps in multilingual capabilities despite recent advances. MMLU-ProX is an ongoing project; we are expanding our benchmark by incorporating additional languages and evaluating more language models to provide a more comprehensive assessment of multilingual capabilities.
传统基准测试在评估日益复杂的多语言和文化背景的语言模型时面临挑战。为了解决这一差距,我们推出了MMLU-ProX,这是一个全面的多语言基准测试,涵盖13种语言形态多样的语言,每种语言大约有11,829个问题。基于具有挑战性的推理导向设计MMLU-Pro,我们的框架采用半自动翻译过程:由最新大型语言模型(LLM)生成的翻译会经过专家注释者的严格评估,以确保概念准确性、术语一致性和文化相关性。我们使用最新的LLM对性能进行综合评估采用具有五次连续性思考的初步思考和零射引发策略来推进分析其在语言和跨文化领域的表现。我们的实验揭示了从资源丰富型语言到资源稀缺型语言的性能持续下降,最佳模型在英语上的准确率超过70%,但在如斯瓦希里语等语言上的准确率降至约40%,这突显了尽管近期有所进展,但在多语言能力方面仍存在持续的差距。MMLU-ProX是一个正在进行中的项目;我们正在通过增加语言和评估更多的语言模型来扩展我们的基准测试,以提供更全面的多语言能力评估。
论文及项目相关链接
Summary
MMLU-ProX是一个针对多语言模型性能评估的新基准测试,覆盖了包括低资源语言在内的13种不同语言。该研究使用了基于大型语言模型(LLM)的半自动翻译过程,并经过专家评估确保翻译的准确性、一致性和文化相关性。该研究分析了多语言环境下的语言模型性能,发现高资源语言到低资源语言的性能退化问题仍然显著存在。MMLU-ProX是一个持续发展的项目,计划在未来继续扩展语言和模型评估范围。
Key Takeaways
- MMLU-ProX是一个针对多语言模型性能评估的新基准测试,覆盖了多达13种语言,目的是评估日渐精细的语言模型在多语言和跨文化背景下的表现。
- MMLU-ProX通过引入半自动翻译过程并采用最新的大型语言模型进行翻译生成,再经过专家评估来确保翻译的质量与准确性。
- 该研究使用不同的测试策略评估了语言模型的性能,如基于推理的CoT策略和零样本提示策略。这些策略对语言模型在多语言和跨文化环境下的性能进行了全面评估。
- 研究发现,从高资源语言到低资源语言的性能退化问题仍然存在,即使在英语等语言上表现最好的模型在斯瓦希里等语言上的准确率也只有大约40%。这凸显了多语言能力方面的持续差距。
- MMLU-ProX项目仍在发展中,计划通过增加更多语言和评估更多语言模型来提供更全面的多语言能力评估。这表明该领域的研究和进步仍在持续进行中。
- 此研究的重点在于展示和分析语言模型在多种不同语言环境下的表现,强调多语言能力的重要性及其挑战。这不仅对于研究者和开发者具有重要意义,也对实际应用中的多语言处理提出了挑战和机遇。
点此查看论文截图



Whisper Speaker Identification: Leveraging Pre-Trained Multilingual Transformers for Robust Speaker Embeddings
Authors:Jakaria Islam Emon, Md Abu Salek, Kazi Tamanna Alam
Speaker identification in multilingual settings presents unique challenges, particularly when conventional models are predominantly trained on English data. In this paper, we propose WSI (Whisper Speaker Identification), a framework that repurposes the encoder of the Whisper automatic speech recognition model pre trained on extensive multilingual data to generate robust speaker embeddings via a joint loss optimization strategy that leverages online hard triplet mining and self supervised Normalized Temperature-scaled Cross Entropy loss. By capitalizing on Whisper language-agnostic acoustic representations, our approach effectively distinguishes speakers across diverse languages and recording conditions. Extensive evaluations on multiple corpora, including VoxTube (multilingual), JVS (Japanese), CallHome (German, Spanish, Chinese, and Japanese), and Voxconverse (English), demonstrate that WSI consistently outperforms state-of-the-art baselines, namely Pyannote Embedding, ECAPA TDNN, and Xvector, in terms of lower equal error rates and higher AUC scores. These results validate our hypothesis that a multilingual pre-trained ASR encoder, combined with joint loss optimization, substantially improves speaker identification performance in non-English languages.
在多语言环境中进行说话人识别面临着独特的挑战,尤其是在传统的模型主要基于英语数据进行训练的情况下。在本文中,我们提出了WSI(Whisper说话人识别)框架,它重新利用了在大量多语言数据上预训练的Whisper自动语音识别模型的编码器,通过联合损失优化策略生成稳健的说话人嵌入,该策略利用在线硬三元组挖掘和自我监督的归一化温度尺度交叉熵损失。通过利用Whisper语言无关的声学表示,我们的方法有效地在不同的语言和录音条件下区分说话人。在多个语料库上的广泛评估,包括VoxTube(多语言)、JVS(日语)、CallHome(德语、西班牙语、中文和日语)和Voxconverse(英语),证明WSI在平等误差率更低、AUC分数更高的情况下,始终优于Pyannote Embedding、ECAPA TDNN和Xvector等最新基线。这些结果验证了我们假设的正确性,即多语言预训练的ASR编码器与联合损失优化相结合,可以显著提高非英语语言的说话人识别性能。
论文及项目相关链接
PDF 6 pages
Summary:
本文提出了WSI(Whisper语音识别模型中的说话人识别)框架,该框架利用预训练于丰富多语种数据的Whisper自动语音识别模型的编码器生成稳健的说话人嵌入。通过采用在线硬三元组挖掘和自监督的归一化温度缩放交叉熵损失的联合损失优化策略,该框架能有效区分不同语言和录音条件下的说话人。在多个语料库上的广泛评估表明,WSI在平等错误率和AUC得分方面均优于Pyannote嵌入、ECAPA TDNN和Xvector等最新基线模型,验证了多语种预训练ASR编码器结合联合损失优化在非英语语种说话人识别方面的显著提升效果。
Key Takeaways:
- 本文提出了WSI框架,旨在解决多语种环境下的说话人识别挑战。
- WSI利用预训练于多语种数据的Whisper自动语音识别模型的编码器生成说话人嵌入。
- 通过联合损失优化策略,WSI能有效区分不同语言和录音条件下的说话人。
- 广泛评估表明,WSI在多个语料库上的性能优于其他最新基线模型。
- WSI在平等错误率和AUC得分方面均表现出色。
- 验证了在非英语语种说话人识别方面,多语种预训练ASR编码器结合联合损失优化可显著提升效果。
点此查看论文截图






4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models
Authors:Wanhua Li, Renping Zhou, Jiawei Zhou, Yingwei Song, Johannes Herter, Minghan Qin, Gao Huang, Hanspeter Pfister
Learning 4D language fields to enable time-sensitive, open-ended language queries in dynamic scenes is essential for many real-world applications. While LangSplat successfully grounds CLIP features into 3D Gaussian representations, achieving precision and efficiency in 3D static scenes, it lacks the ability to handle dynamic 4D fields as CLIP, designed for static image-text tasks, cannot capture temporal dynamics in videos. Real-world environments are inherently dynamic, with object semantics evolving over time. Building a precise 4D language field necessitates obtaining pixel-aligned, object-wise video features, which current vision models struggle to achieve. To address these challenges, we propose 4D LangSplat, which learns 4D language fields to handle time-agnostic or time-sensitive open-vocabulary queries in dynamic scenes efficiently. 4D LangSplat bypasses learning the language field from vision features and instead learns directly from text generated from object-wise video captions via Multimodal Large Language Models (MLLMs). Specifically, we propose a multimodal object-wise video prompting method, consisting of visual and text prompts that guide MLLMs to generate detailed, temporally consistent, high-quality captions for objects throughout a video. These captions are encoded using a Large Language Model into high-quality sentence embeddings, which then serve as pixel-aligned, object-specific feature supervision, facilitating open-vocabulary text queries through shared embedding spaces. Recognizing that objects in 4D scenes exhibit smooth transitions across states, we further propose a status deformable network to model these continuous changes over time effectively. Our results across multiple benchmarks demonstrate that 4D LangSplat attains precise and efficient results for both time-sensitive and time-agnostic open-vocabulary queries.
学习4D语言字段以实现动态场景中的时间敏感和开放结束语言查询对于许多实际应用至关重要。虽然LangSplat成功地将CLIP特征转化为3D高斯表示,实现了在3D静态场景中的精度和效率,但它缺乏处理动态4D字段的能力,因为CLIP是为静态图像文本任务设计的,无法捕获视频中的时间动态。现实世界的环境本质上是动态的,物体语义会随时间演变。要建立精确的4D语言字段,必须获得像素对齐的、面向对象的视频特征,而当前视觉模型很难做到这一点。为了解决这些挑战,我们提出了4D LangSplat,它学习4D语言字段以高效地处理动态场景中的时间无关或时间敏感的开放词汇查询。4D LangSplat绕过从视觉特征学习语言字段,而是直接从通过多模态大型语言模型(MLLM)生成的面向对象的视频字幕中学习。具体来说,我们提出了一种多模态面向对象的视频提示方法,包括视觉和文本提示,引导MLLM为视频中的对象生成详细、时间一致、高质量的字幕。这些字幕使用大型语言模型进行编码,以生成高质量句子嵌入,然后作为像素对齐的、面向对象的特征监督,通过共享嵌入空间实现开放式文本查询。我们认识到4D场景中对象的状态转换是平滑的,因此进一步提出了状态可变形网络来有效地模拟这些随时间变化的连续变化。我们在多个基准测试上的结果证明,4D LangSplat对于时间敏感和时间无关的开放式查询都达到了精确和高效的结果。
论文及项目相关链接
PDF CVPR 2025. Project Page: https://4d-langsplat.github.io
摘要
学习4D语言字段以处理动态场景中的时间敏感和开放端语言查询对于许多实际应用至关重要。虽然LangSplat成功地将CLIP特性融入3D高斯表示,实现了在3D静态场景中的精确性和效率,但它无法处理动态的4D字段。现实世界的环境本质上是动态的,物体语义随时间演变。为了构建精确的4D语言字段,必须从视频中获得像素对齐的物体级特征,而当前视觉模型难以实现这一目标。为解决这些挑战,我们提出了4D LangSplat,它能够处理动态场景中的时间无关或时间敏感的开放词汇查询。4D LangSplat绕过从视觉特征学习语言字段,而是直接从由对象级视频字幕生成的多模态大型语言模型(MLLMs)中学习。我们提出了一种多模态对象级视频提示方法,包括视觉和文本提示,引导MLLMs为视频中的对象生成详细、时间连贯的高质量字幕。这些字幕使用大型语言模型编码成高质量句子嵌入,作为像素对齐的对象特定特征监督,通过共享嵌入空间实现开放词汇文本查询。认识到4D场景中对象的平滑状态转换,我们进一步提出了状态可变形网络来有效模拟这些随时间变化的连续变化。我们的多项基准测试结果证明,4D LangSplat对于时间敏感和时间无关的开放词汇查询均能达到精确和高效的结果。
关键见解
- 学习4D语言字段对于处理现实世界中动态场景的时间敏感和开放端语言查询至关重要。
- LangSplat在3D静态场景中表现良好,但无法处理动态的4D字段。
- 4D LangSplat通过直接学习从对象级视频字幕生成的多模态大型语言模型(MLLMs)来应对这一挑战。
- 提出了一种多模态对象级视频提示方法,包括视觉和文本提示,以生成高质量的、与时间相关的对象字幕。
- 使用大型语言模型将字幕编码成高质量句子嵌入,作为像素对齐的对象特定特征监督。
- 通过共享嵌入空间,可以实现开放词汇文本查询。
点此查看论文截图


On the Limitations of Vision-Language Models in Understanding Image Transforms
Authors:Ahmad Mustafa Anis, Hasnain Ali, Saquib Sarfraz
Vision Language Models (VLMs) have demonstrated significant potential in various downstream tasks, including Image/Video Generation, Visual Question Answering, Multimodal Chatbots, and Video Understanding. However, these models often struggle with basic image transformations. This paper investigates the image-level understanding of VLMs, specifically CLIP by OpenAI and SigLIP by Google. Our findings reveal that these models lack comprehension of multiple image-level augmentations. To facilitate this study, we created an augmented version of the Flickr8k dataset, pairing each image with a detailed description of the applied transformation. We further explore how this deficiency impacts downstream tasks, particularly in image editing, and evaluate the performance of state-of-the-art Image2Image models on simple transformations.
视觉语言模型(VLMs)在各种下游任务中显示出巨大的潜力,包括图像/视频生成、视觉问答、多模态聊天机器人和视频理解。然而,这些模型在基本的图像转换方面经常遇到困难。本文研究了VLMs的图像级理解,特别是OpenAI的CLIP和Google的SigLIP。我们的研究结果表明,这些模型缺乏对图像级增强的理解。为了促进这项研究,我们创建了Flickr8k数据集的增强版本,为每个图像提供所应用转换的详细描述。我们还进一步探讨了这种缺陷对下游任务的影响,特别是在图像编辑方面,并评估了最先进的Image2Image模型在简单转换上的性能。
论文及项目相关链接
PDF 8 pages, 15 images
Summary
视觉语言模型(VLMs)在下游任务中展现出巨大潜力,包括图像/视频生成、视觉问答、多模态聊天机器人和视频理解。然而,这些模型在基本图像转换方面存在困难。本文研究了VLMs的图像级理解,特别是OpenAI的CLIP和Google的SigLIP。研究发现,这些模型无法理解多种图像级增强。为了推进这项研究,我们创建了Flickr8k数据集的增强版本,为每张图像配备详细的转换描述。我们还探讨了这种缺陷对下游任务、尤其是图像编辑的影响,并评估了最新Image2Image模型在简单转换上的性能。
Key Takeaways
- 视觉语言模型(VLMs)在多个下游任务中表现出显著潜力。
- VLMs在基本图像转换方面存在挑战。
- 本文研究了VLMs的图像级理解,特别是CLIP和SigLIP模型。
- 这些模型无法理解多种图像级增强,表明其局限性。
- 为了推进研究,创建了一个配备详细转换描述的Flickr8k数据集增强版本。
- VLMs的缺陷对下游任务、尤其是图像编辑产生影响。
点此查看论文截图






