⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-11-27 更新
LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight
Authors:Yunze Man, Shihao Wang, Guowen Zhang, Johan Bjorck, Zhiqi Li, Liang-Yan Gui, Jim Fan, Jan Kautz, Yu-Xiong Wang, Zhiding Yu
To act in the world, a model must name what it sees and know where it is in 3D. Today’s vision-language models (VLMs) excel at open-ended 2D description and grounding, yet multi-object 3D detection remains largely missing from the VLM toolbox. We present LocateAnything3D, a VLM-native recipe that casts 3D detection as a next-token prediction problem. The key is a short, explicit Chain-of-Sight (CoS) sequence that mirrors how human reason from images: find an object in 2D, then infer its distance, size, and pose. The decoder first emits 2D detections as a visual chain-of-thought, then predicts 3D boxes under an easy-to-hard curriculum: across objects, a near-to-far order reduces early ambiguity and matches ego-centric utility; within each object, a center-from-camera, dimensions, and rotation factorization ranks information by stability and learnability. This VLM-native interface preserves open-vocabulary and visual-prompting capability without specialized heads. On the challenging Omni3D benchmark, our model achieves state-of-the-art results, with 49.89 AP_3D, surpassing the previous best by +15.51 absolute improvement even when the baseline is given ground-truth 2D boxes. It also generalizes zero-shot to held-out categories with strong robustness. By turning 3D detection into a disciplined next-token problem, LocateAnything3D offers a practical foundation for models to perceive in 3D.
要实现在现实世界中的行动,模型必须能够命名其所见并知道其在三维空间中的位置。目前的视觉语言模型(VLM)在开放式的二维描述和定位方面表现出色,但多目标三维检测在VLM工具箱中仍然缺失。我们提出了LocateAnything3D,这是一种基于VLM的原生方法,将三维检测转化为下一个词预测问题。关键在于一个简短明确的视线链(Chain-of-Sight,CoS)序列,该序列反映了人类从图像中进行推理的方式:首先在二维空间中找到一个物体,然后推断其距离、大小和姿态。解码器首先发出二维检测作为视觉思维链,然后在简单的课程中预测三维框:在不同物体之间,从近到远的顺序减少了早期的不确定性并匹配了以自我为中心的有用性;在每个物体内部,从中心到相机、尺寸和旋转分解的信息按照稳定性和可学习性进行排名。这种基于VLM的原生界面保留了开放词汇表和视觉提示功能,无需专业头部。在具有挑战性的Omni3D基准测试中,我们的模型取得了最先进的成果,以49.89的AP_3D得分位居榜首,即使在给基线提供真实二维框的情况下,也实现了+15.51的绝对改进。此外,该模型对未涵盖的类别进行了零样本推广,具有较强的稳健性。通过将三维检测转化为有纪律的下一个词问题,LocateAnything3D为模型在三维空间中的感知提供了实用的基础。
论文及项目相关链接
PDF Tech report. Project page: https://nvlabs.github.io/LocateAnything3D/
Summary
本文介绍了一种名为LocateAnything3D的3D检测模型。该模型将多目标3D检测问题转化为下一个词预测问题,并通过一种称为Chain-of-Sight(CoS)的明确序列来实现。该模型首先发出二维检测作为视觉思维链,然后按照从易到难的课程顺序预测三维框。在Omni3D基准测试上,该模型取得了最佳性能,即使给定真实二维框时也有显著提高。它能推广到未见类别并具有强大的鲁棒性。因此,LocateAnything3D为模型在三维空间中的感知提供了实用基础。
Key Takeaways
- LocateAnything3D是一个适用于视觉语言模型(VLM)的框架,可将多目标三维检测转化为下一个词预测问题。
- 该模型采用Chain-of-Sight(CoS)序列进行推理,首先进行二维检测作为视觉思维链的一部分。
- LocateAnything3D采用从易到难的课程策略进行预测三维框的训练,遵循一个由近至远的顺序,以及针对每个对象的中心从相机、尺寸和旋转因子的顺序。
- 在Omni3D基准测试上,LocateAnything3D模型实现了最佳性能,即使在给定真实二维框的情况下也实现了显著的绝对改进。
- 该模型具有强大的泛化能力和鲁棒性,能够推广到未见类别。
- LocateAnything3D保留了VLM的开放词汇和视觉提示功能,无需使用专门的头部结构。
点此查看论文截图
Diverse Video Generation with Determinantal Point Process-Guided Policy Optimization
Authors:Tahira Kazimi, Connor Dunlop, Pinar Yanardag
While recent text-to-video (T2V) diffusion models have achieved impressive quality and prompt alignment, they often produce low-diversity outputs when sampling multiple videos from a single text prompt. We tackle this challenge by formulating it as a set-level policy optimization problem, with the goal of training a policy that can cover the diverse range of plausible outcomes for a given prompt. To address this, we introduce DPP-GRPO, a novel framework for diverse video generation that combines Determinantal Point Processes (DPPs) and Group Relative Policy Optimization (GRPO) theories to enforce explicit reward on diverse generations. Our objective turns diversity into an explicit signal by imposing diminishing returns on redundant samples (via DPP) while supplies groupwise feedback over candidate sets (via GRPO). Our framework is plug-and-play and model-agnostic, and encourages diverse generations across visual appearance, camera motions, and scene structure without sacrificing prompt fidelity or perceptual quality. We implement our method on WAN and CogVideoX, and show that our method consistently improves video diversity on state-of-the-art benchmarks such as VBench, VideoScore, and human preference studies. Moreover, we release our code and a new benchmark dataset of 30,000 diverse prompts to support future research.
虽然最近的文本到视频(T2V)扩散模型在质量和即时对齐方面取得了令人印象深刻的成就,但它们在从单个文本提示中采样多个视频时通常会产生低多样性的输出。我们通过将其制定为集合级策略优化问题来解决这一挑战,目标是训练一个能够覆盖给定提示的各种可能结果的策略。为解决此问题,我们引入了DPP-GRPO,这是一个用于多样化视频生成的新型框架,结合了行列式点过程(DPPs)和组相对策略优化(GRPO)理论,以对多样化的生成强制执行明确的奖励。我们的目标是通过在冗余样本上产生递减收益(通过DPP)而对多样性施加明确的信号,同时为候选集提供组反馈(通过GRPO)。我们的框架即插即用,与模型无关,可在视觉外观、相机运动和场景结构方面鼓励多样化的生成,而不会牺牲提示保真度或感知质量。我们在WAN和CogVideoX上实施了我们的方法,并证明我们的方法在VBench、VideoScore和人类偏好研究等最新基准测试上始终提高了视频多样性。此外,我们发布了我们的代码和包含3万个多样提示的新基准数据集,以支持未来的研究。
论文及项目相关链接
PDF Project webpage: https://diverse-video.github.io/
Summary
本文提出了一种新的视频生成框架DPP-GRPO,旨在解决当前文本转视频(T2V)扩散模型在面对单一文本提示时输出多样性较低的问题。该框架结合了行列式点过程(DPPs)和组相对策略优化(GRPO)理论,通过给予多样生成物以显性奖励,将多样性转化为显性信号。该方法在视觉外观、相机运动和场景结构方面鼓励生成多样化的视频,同时不牺牲提示保真度或感知质量。在WAN和CogVideoX上的实验表明,该方法在VBench、VideoScore等主流基准测试以及人类偏好研究中持续提高了视频多样性。
Key Takeaways
- 文本转视频(T2V)扩散模型在生成视频时面临多样性不足的问题。
- 提出了一种新的视频生成框架DPP-GRPO,旨在提高模型的生成多样性。
- DPP-GRPO框架结合了行列式点过程(DPPs)和组相对策略优化(GRPO)理论。
- 该方法通过给予多样生成物以显性奖励,将多样性转化为显性信号。
- DPP-GRPO方法鼓励在视觉外观、相机运动和场景结构方面生成多样化的视频。
- 该方法在主流基准测试以及人类偏好研究中持续提高了视频多样性。
点此查看论文截图
Vision-Language Memory for Spatial Reasoning
Authors:Zuntao Liu, Yi Du, Taimeng Fu, Shaoshu Su, Cherie Ho, Chen Wang
Spatial reasoning is a critical capability for intelligent robots, yet current vision-language models (VLMs) still fall short of human-level performance in video-based spatial reasoning. This gap mainly stems from two challenges: a semantic-geometric misalignment that prevents consistent 3D understanding, and the absence of persistent memory to retain 3D representation and understanding over time. To address these limitations, we present VLM$^2$, a Vision-Language Model with persistent Memory for spatial reasoning with a view-consistent, 3D-aware representation purely from 2D video. Specifically, to enhance long-horizon reasoning, we incorporate a dual-memory module, consisting of a working memory that operates as a sliding window to focus on immediate context, and an episodic memory that consolidates and stores critical long-term information. This design enables efficient and long-horizon spatial reasoning with a fixed computational cost. Extensive experiments on multiple benchmarks show that VLM$^2$ achieves state-of-the-art performance among video-only models, significantly advancing the frontier of visual-spatial intelligence.
空间推理对于智能机器人来说是一项至关重要的能力,然而,当前的视觉语言模型(VLM)在基于视频的空间推理方面仍然达不到人类水平的性能。这一差距主要源于两个挑战:语义几何的不对齐,这阻碍了连贯的3D理解;以及缺乏持久记忆,无法长时间保留3D表示和理解。为了解决这些局限性,我们提出了VLM$^2$,这是一种具有持久记忆的空间推理视觉语言模型,通过纯粹的二维视频获得视角一致、具有三维意识的表示。具体来说,为了提高长期推理能力,我们融入了一个双内存模块,包括一个作为滑动窗口来关注即时上下文的工作内存,以及一个整合和存储关键长期信息的情景记忆。这种设计能够以固定的计算成本实现高效和长期的空推理。在多个基准测试上的广泛实验表明,VLM$^2$在仅使用视频模型的条件下达到了最先进的性能,显著地推动了视觉空间智能的边界。
论文及项目相关链接
Summary
空间推理能力是智能机器人的关键能力,但当前的视觉语言模型(VLM)在视频基的空间推理上仍达不到人类水平的性能。主要挑战在于语义和几何的不对齐,导致无法形成一致的3D理解,以及缺乏持久记忆,无法长时间保留3D表示和理解。为解决这些限制,我们提出了VLM$^2$,这是一种具有持久记忆的空间推理视觉语言模型。通过设计双记忆模块,包括工作记忆和情景记忆,使模型能够关注即时上下文并整合长期关键信息,从而实现高效和长期的空间推理。在多个基准测试上的实验表明,VLM$^2$在仅使用视频的情况下取得了最先进的性能,显著推进了视觉空间智能的边界。
Key Takeaways
- 空间推理能力是智能机器人的核心能力之一。
- 当前视觉语言模型(VLM)在视频基的空间推理上性能仍待提升。
- VLM的主要挑战在于语义和几何的不对齐以及缺乏持久记忆。
- VLM$^2$模型通过引入双记忆模块解决了这些挑战。
- 双记忆模块包括工作记忆和情景记忆,分别关注即时上下文和整合长期关键信息。
- VLM$^2$实现了高效和长期的空间推理,具有固定的计算成本。
点此查看论文截图
Latent Collaboration in Multi-Agent Systems
Authors:Jiaru Zou, Xiyuan Yang, Ruizhong Qiu, Gaotang Li, Katherine Tieu, Pan Lu, Ke Shen, Hanghang Tong, Yejin Choi, Jingrui He, James Zou, Mengdi Wang, Ling Yang
Multi-agent systems (MAS) extend large language models (LLMs) from independent single-model reasoning to coordinative system-level intelligence. While existing LLM agents depend on text-based mediation for reasoning and communication, we take a step forward by enabling models to collaborate directly within the continuous latent space. We introduce LatentMAS, an end-to-end training-free framework that enables pure latent collaboration among LLM agents. In LatentMAS, each agent first performs auto-regressive latent thoughts generation through last-layer hidden embeddings. A shared latent working memory then preserves and transfers each agent’s internal representations, ensuring lossless information exchange. We provide theoretical analyses establishing that LatentMAS attains higher expressiveness and lossless information preservation with substantially lower complexity than vanilla text-based MAS. In addition, empirical evaluations across 9 comprehensive benchmarks spanning math and science reasoning, commonsense understanding, and code generation show that LatentMAS consistently outperforms strong single-model and text-based MAS baselines, achieving up to 14.6% higher accuracy, reducing output token usage by 70.8%-83.7%, and providing 4x-4.3x faster end-to-end inference. These results demonstrate that our new latent collaboration framework enhances system-level reasoning quality while offering substantial efficiency gains without any additional training. Code and data are fully open-sourced at https://github.com/Gen-Verse/LatentMAS.
多智能体系统(MAS)将大型语言模型(LLM)从独立的单模型推理扩展到协同系统级智能。虽然现有的LLM智能体依赖于文本介导进行推理和通信,但我们通过使模型能够在连续的潜在空间内直接协作而迈出了一步。我们引入了LatentMAS,这是一种端到端无需训练框架,可实现LLM智能体之间的纯粹潜在协作。在LatentMAS中,每个智能体首先通过最后一层隐藏嵌入执行自动回归潜在思维生成。共享潜在工作内存随后保留并转移每个智能体的内部表示,确保无损的信息交换。我们提供理论分析,证明LatentMAS在表达性上更高,在信息无损保存方面复杂度更低,优于基于文本的原生MAS。此外,涵盖数学和科学推理、常识理解和代码生成等9项综合基准测试的实证评估表明,LatentMAS始终优于强大的单模型和基于文本的MAS基线,实现了高达14.6%的准确性提高,减少了70.8%-83.7%的输出令牌使用,并提供4倍至4.3倍的端到端推理速度。这些结果表明,我们新的潜在协作框架在提高系统级推理质量的同时,无需任何额外训练即可实现显著的效率提升。相关代码和数据已完全开源,可在https://github.com/Gen-Verse/LatentMAS找到。
论文及项目相关链接
PDF Project: https://github.com/Gen-Verse/LatentMAS
Summary
多智能体系统(MAS)将大型语言模型(LLM)从独立单模型推理扩展到协同系统级智能。现有LLM代理依赖于文本介导进行推理和通信,本研究则通过使模型直接在连续潜在空间内协作来突破这一局限。研究者们引入了LatentMAS,这是一种无需端到端训练的框架,能够实现LLM代理之间的纯粹潜在协作。每个代理通过最后隐藏层的嵌入生成自回归潜在思想,共享潜在工作内存保存并转移每个代理的内部表征,确保信息交换无损失。理论分析表明,LatentMAS比基于文本的传统MAS具有更高的表达性和信息保留性,同时复杂度更低。此外,跨涵盖数学和科学推理、常识理解和代码生成的九个综合基准测试的经验评估显示,LatentMAS始终优于强大的单模型基准和基于文本的MAS基准,准确率提高高达14.6%,输出令牌使用量减少70.8%-83.7%,端到端推理速度提高4-4.3倍。这一新框架在提升系统级推理质量的同时,也实现了显著效率提升,且无需额外训练。
Key Takeaways
- 多智能体系统(MAS)能够扩展大型语言模型(LLM)至系统级智能。
- 现有LLM代理主要依赖文本进行推理和通信,而LatentMAS框架则允许模型在潜在空间内直接协作。
- LatentMAS框架无需端到端训练,即可实现LLM代理间的纯粹潜在协作。
- 每个代理通过生成自回归潜在思想进行交互,确保了信息交换的无损性。
- 理论分析证实LatentMAS在信息表达与保留方面优于传统基于文本的MAS,且复杂度更低。
- 实证评估显示LatentMAS在多个基准测试中表现优异,包括数学和科学推理、常识理解和代码生成。
点此查看论文截图
Wanderland: Geometrically Grounded Simulation for Open-World Embodied AI
Authors:Xinhao Liu, Jiaqi Li, Youming Deng, Ruxin Chen, Yingjia Zhang, Yifei Ma, Li Guo, Yiming Li, Jing Zhang, Chen Feng
Reproducible closed-loop evaluation remains a major bottleneck in Embodied AI such as visual navigation. A promising path forward is high-fidelity simulation that combines photorealistic sensor rendering with geometrically grounded interaction in complex, open-world urban environments. Although recent video-3DGS methods ease open-world scene capturing, they are still unsuitable for benchmarking due to large visual and geometric sim-to-real gaps. To address these challenges, we introduce Wanderland, a real-to-sim framework that features multi-sensor capture, reliable reconstruction, accurate geometry, and robust view synthesis. Using this pipeline, we curate a diverse dataset of indoor-outdoor urban scenes and systematically demonstrate how image-only pipelines scale poorly, how geometry quality impacts novel view synthesis, and how all of these adversely affect navigation policy learning and evaluation reliability. Beyond serving as a trusted testbed for embodied navigation, Wanderland’s rich raw sensor data further allows benchmarking of 3D reconstruction and novel view synthesis models. Our work establishes a new foundation for reproducible research in open-world embodied AI. Project website is at https://ai4ce.github.io/wanderland/.
在嵌入式人工智能(如视觉导航)中,可重复闭环评估仍然是一个主要瓶颈。前景看好的一条道路是高保真模拟,它将逼真的传感器渲染与复杂开放世界城市环境中的几何交互相结合。尽管最近的视频-三维全球定位系统(video-3DGS)方法使开放世界场景捕获变得容易,但由于视觉和几何仿真与实际差距较大,它们仍然不适合作为基准测试。为了应对这些挑战,我们引入了Wanderland,这是一个从现实到模拟的框架,具有多传感器捕获、可靠重建、精确几何和稳健的视图合成等特点。使用这个管道,我们编制了室内外城市场景的多元数据集,系统地展示了只有图像管道扩展不佳的方式、几何质量对新颖视图合成的影响以及所有这些如何对导航策略的学习和评估可靠性产生不利影响。除了作为可靠的测试平台用于嵌入式导航外,Wanderland丰富的原始传感器数据还允许对三维重建和新颖视图合成模型进行基准测试。我们的工作为开放世界嵌入式人工智能的可重复研究建立了新的基础。项目网站位于https://ai4ce.github.io/wanderland/。
论文及项目相关链接
Summary
提出Wanderland框架,解决Embodied AI(如视觉导航)中可复现的闭环评估瓶颈问题。采用高保真模拟技术,结合逼真的传感器渲染和基于几何的交互,在复杂的开放世界城市环境中应用。引入Wanderland数据集,用于评估室内外的城市场景,并探讨了图像管道、几何质量对新型视图合成以及导航策略学习和评估可靠性的影响。除了作为可靠的测试平台外,Wanderland的丰富原始传感器数据还可用于评估三维重建和新型视图合成模型。为开放世界的Embodied AI研究提供了新基础。
Key Takeaways
- Wanderland框架解决了Embodied AI中的可复现的闭环评估瓶颈。
- 采用高保真模拟技术,结合了逼真的传感器渲染和基于几何的交互。
- Wanderland数据集用于评估室内外的城市场景。
- 探讨了图像管道、几何质量对新型视图合成的影响。
- 导航策略的学习和评估可靠性受到这些因素的不利影响。
- Wanderland不仅是一个可靠的测试平台,还提供了丰富的原始传感器数据,可用于评估三维重建和视图合成模型。
点此查看论文截图
Can Vibe Coding Beat Graduate CS Students? An LLM vs. Human Coding Tournament on Market-driven Strategic Planning
Authors:Panayiotis Danassis, Naman Goel
The rapid proliferation of Large Language Models (LLMs) has revolutionized AI-assisted code generation. This rapid development of LLMs has outpaced our ability to properly benchmark them. Prevailing benchmarks emphasize unit-test pass rates and syntactic correctness. Such metrics understate the difficulty of many real-world problems that require planning, optimization, and strategic interaction. We introduce a multi-agent reasoning-driven benchmark based on a real-world logistics optimization problem (Auction, Pickup, and Delivery Problem) that couples competitive auctions with capacity-constrained routing. The benchmark requires building agents that can (i) bid strategically under uncertainty and (ii) optimize planners that deliver tasks while maximizing profit. We evaluate 40 LLM-coded agents (by a wide range of state-of-the-art LLMs under multiple prompting methodologies, including vibe coding) against 17 human-coded agents developed before the advent of LLMs. Our results over 12 double all-play-all tournaments and $\sim 40$k matches demonstrate (i) a clear superiority of human(graduate students)-coded agents: the top 5 spots are consistently won by human-coded agents, (ii) the majority of LLM-coded agents (33 out of 40) are beaten by very simple baselines, and (iii) given the best human solution as an input and prompted to improve upon, the best performing LLM makes the solution significantly worse instead of improving it. Our results highlight a gap in LLMs’ ability to produce code that works competitively in the real-world, and motivate new evaluations that emphasize reasoning-driven code synthesis in real-world scenarios.
大型语言模型(LLM)的迅速增殖已经彻底改变了AI辅助的代码生成。LLM的快速发展已经超出了我们对其进行适当基准测试的能力。现有的基准测试强调单元测试通过率和语法正确性。这样的指标未能充分反映现实世界问题的难度,这些问题需要规划、优化和策略性交互。我们引入了一个基于现实世界物流优化问题(拍卖、取货和交付问题)的多智能体推理驱动的基准测试,该测试将竞争性拍卖与容量约束路由相结合。基准测试要求构建能够在不确定性条件下进行战略投标并优化计划以在完成交付任务的同时实现利润最大化的智能体。我们评估了由一系列最先进的LLM根据多种提示方法(包括振动编码)编写的40个智能体,以及与LLM出现之前开发的17个人类编码的智能体进行的对抗。我们在12场双循环全员对抗赛和~4万场比赛中得到的结果表明:(1)人类(研究生)编码的智能体的明显优势:前五名始终由人类编码的智能体占据;(2)大多数LLM编码的智能体(33个中的40个)被非常简单的基线所击败;(3)即使以最佳人类解决方案作为输入并提示进行改进,表现最佳的LLM反而使解决方案变得更糟,而没有改善。我们的结果突显了LLM生成能在现实世界中竞争工作的代码的能力上的差距,并强调了需要在现实世界的场景中强调推理驱动的代码合成的新评估方法。
论文及项目相关链接
Summary
大型语言模型(LLM)在AI辅助代码生成方面的快速发展,但现有的评估标准无法充分衡量其在真实世界问题中的表现。为此,研究引入了一个基于现实世界的物流优化问题的多智能体推理驱动基准测试,该测试要求智能体具备战略竞价和最大化利润的任务规划能力。通过对40个LLM编码智能体和17个人类编码智能体的评估,结果显示人类编码的智能体表现更优秀。尽管将最佳人类解决方案作为输入并提示LLM进行优化,但最好的LLM表现仍无法提升反而使之更糟。这揭示了LLM在现实世界竞争环境下的代码生成能力存在差距,并强调需要新的评估标准来重视推理驱动的代码合成在真实场景中的应用。
Key Takeaways
- 大型语言模型(LLM)在AI辅助代码生成领域有快速发展。
- 现有评估标准无法充分衡量LLM在真实世界问题中的表现。
- 引入了一个基于现实世界的物流优化问题的多智能体推理驱动基准测试。
- 该测试要求智能体具备战略竞价和优化的任务规划能力。
- 人类编码的智能体表现优于LLM编码的智能体。
- 最好的LLM无法改善最佳人类解决方案,反而使之更糟。
点此查看论文截图
MSTN: Fast and Efficient Multivariate Time Series Model
Authors:Sumit S Shevtekar, Chandresh K Maurya, Gourab Sil
Real-world time-series data is highly non stationary and complex in dynamics that operate across multiple timescales, ranging from fast, short-term changes to slow, long-term trends. Most existing models rely on fixed-scale structural priors, such as patch-based tokenization, fixed frequency transformations, or frozen backbone architectures. This often leads to over-regularization of temporal dynamics, which limits their ability to adaptively model the full spectrum of temporal variations and impairs their performance on unpredictable, Sudden, high-magnitude events. To address this, we introduce the Multi-scale Temporal Network (MSTN), a novel deep learning architecture founded on a hierarchical multi-scale and sequence modeling principle. The MSTN framework integrates: (i) a multi-scale convolutional encoder that constructs a hierarchical feature pyramid for local patterns (ii) a sequence modeling component for long-range temporal dependencies. We empirically validate this with BiLSTM and Transformer variants, establishing a flexible foundation for future architectural advancements. and (iii) a gated fusion mechanism augmented with squeeze-and-excitation (SE) and multi-head temporal attention (MHTA) for dynamic, context-aware feature integration. This design enables MSTN to adaptively model temporal patterns from milliseconds to long-range dependencies within a unified framework. Extensive evaluations across time-series long-horizon forecasting, imputation, classification and generalizability study demonstrate that MSTN achieves competitive state-of-the-art (SOTA) performance, showing improvements over contemporary approaches including EMTSF, LLM4TS, HiMTM, TIME-LLM, MTST, SOFTS, iTransformer, TimesNet, and PatchTST. In total, MSTN establishes new SOTA performance on 24 of 32 benchmark datasets, demonstrating its consistent performance across diverse temporal tasks.
现实世界的时间序列数据具有高度非平稳性和跨多个时间尺度的复杂动态,从快速、短期变化到缓慢、长期趋势。大多数现有模型依赖于固定尺度的结构先验,如基于补丁的令牌化、固定频率转换或冻结的骨干架构。这通常会导致对时间动态的过度规则化,限制了它们对全谱时间变化的适应性建模能力,并在不可预测的突发事件中表现不佳。为了解决这一问题,我们引入了多尺度时间网络(MSTN),这是一种基于分层多尺度和序列建模原则的新型深度学习架构。MSTN框架集成了:(i)一个多尺度卷积编码器,用于构建用于局部模式的分层特征金字塔;(ii)一个用于长期时间依赖关系的序列建模组件。我们通过BiLSTM和Transformer变体进行了实证验证,为未来架构进步奠定了灵活基础。(iii)一种带有挤压和激励(SE)和多头时间注意力(MHTA)的受控融合机制,用于动态、上下文感知的特征融合。这种设计使MSTN能够在统一框架内自适应地建模从毫秒级到长期依赖关系的时间模式。在时间序列长期预测、插补、分类和泛化研究的广泛评估中,MSTN实现了具有竞争力的最新技术性能,相对于当代方法如EMTSF、LLM4TS、HiMTM、TIME-LLM、MTST、SOFTS、iTransformer、TimesNet和PatchTST等表现出改进。总之,MSTN在32个基准数据集中的24个上建立了新的最新技术水平,证明了其在各种时间任务中的一致性能。
论文及项目相关链接
PDF 21 pages, 1 figure, 5 tables
Summary
本文提出一种基于多层次时序建模的多尺度时序网络(MSTN)架构,用于处理具有非平稳性和复杂动态特性的时间序列数据。MSTN通过构建特征金字塔和序列建模组件,能够自适应地建模从毫秒级到长期依赖的时序模式。在多个时间序列任务上的评估表明,MSTN取得了具有竞争力的最佳性能。
Key Takeaways
- 时间序列数据具有非平稳性和复杂动态特性,需要能够适应多种时间尺度的模型。
- 现有模型通常依赖于固定尺度的结构先验,这限制了它们对时间序列变化的适应性。
- MSTN是一种基于多层次时序建模的多尺度时序网络架构,通过构建特征金字塔和序列建模组件来处理时间序列数据。
- MSTN融合了多尺度卷积编码器、序列建模组件以及带有挤压激发(SE)和多头时序注意力(MHTA)的门控融合机制。
- MSTN能够自适应地建模从毫秒级到长期依赖的时序模式,为各种时间序列任务提供了统一的框架。
- 在多个基准数据集上的评估表明,MSTN在24个基准数据集中的32个数据集上取得了最佳性能。
点此查看论文截图
VQ-VA World: Towards High-Quality Visual Question-Visual Answering
Authors:Chenhui Gou, Zilong Chen, Zeyu Wang, Feng Li, Deyao Zhu, Zicheng Duan, Kunchang Li, Chaorui Deng, Hongyi Yuan, Haoqi Fan, Cihang Xie, Jianfei Cai, Hamid Rezatofighi
This paper studies Visual Question-Visual Answering (VQ-VA): generating an image, rather than text, in response to a visual question – an ability that has recently emerged in proprietary systems such as NanoBanana and GPT-Image. To also bring this capability to open-source models, we introduce VQ-VA World, a data-centric framework built around an agentic pipeline for large-scale, targeted data construction. Leveraging web-scale deployment, this pipeline crawls a massive amount of ~1.8M high-quality, interleaved image-text samples for model training. For evaluation, we further release IntelligentBench, a human-curated benchmark that systematically assesses VQ-VA along the aspects of world knowledge, design knowledge, and reasoning. Training with VQ-VA World data yields strong empirical gains: it helps LightFusion attain 53.06 on IntelligentBench, substantially surpassing the best prior open-source baselines (i.e., 7.78 from vanilla LightFusion; 1.94 from UniWorld-V1), and significantly narrowing the gap toward leading proprietary systems (e.g., 81.67 from NanoBanana; 82.64 from GPT-Image). By releasing the full suite of model weights, datasets, and pipelines, we hope to stimulate future research on VQ-VA.
本文研究了视觉问答(VQ-VA):在回答视觉问题时生成图像而非文本——这一能力最近已在专有系统(如NanoBanana和GPT-Image)中出现。为了将这种能力引入到开源模型中,我们推出了VQ-VA World,这是一个以数据为中心、围绕智能流水线构建的大型定向数据构建框架。通过大规模部署,该管道可以抓取大量高质量的混合图像文本样本,用于模型训练,样本数量约为180万。为了评估性能,我们还发布了IntelligentBench,这是一个人工制作的基准测试,系统地评估VQ-VA在常识知识、设计知识和推理方面的表现。使用VQ-VA World数据进行训练带来了强大的经验提升:它帮助LightFusion在IntelligentBench上达到了53.06分,大大超过了之前的最佳开源基准(即LightFusion的普通版本为7.78;UniWorld-V1为1.94),并显著缩小了与领先的专有系统之间的差距(例如NanoBanana为81.67;GPT-Image为82.64)。我们希望通过发布全套模型权重、数据集和流水线来刺激未来关于VQ-VA的研究。
论文及项目相关链接
Summary
本文介绍了视觉问答视觉回答(VQ-VA)领域的研究进展。为了将这一能力引入到开源模型中,提出了一种以数据为中心的方法VQ-VA World,并构建了一个大规模、有针对性的数据构建管道。利用大规模部署,该管道爬取了约180万高质量图像文本样本用于模型训练。同时,本文还发布了评估VQ-VA的智能基准测试IntelligentBench,包括世界知识、设计知识和推理等方面。使用VQ-VA World数据训练模型取得了显著进展,LightFusion模型在IntelligentBench上的得分达到53.06,远超之前的开源基准,并缩小了与领先专有系统的差距。本文公开了全套模型权重、数据集和管道,以刺激未来对VQ-VA的研究。
Key Takeaways
- VQ-VA领域正逐渐兴起,旨在通过生成图像而非文本来回答视觉问题。
- 提出了一种新的数据为中心的方法VQ-VA World,用于支持开源模型的视觉问答视觉回答能力。
- VQ-VA World利用大规模部署爬取高质量图像文本样本,数量约为180万。
- 发布了一个新的基准测试IntelligentBench,用于评估VQ-VA在多个方面的表现,包括世界知识、设计知识和推理等。
- 使用VQ-VA World数据训练的LightFusion模型在IntelligentBench上的得分显著提高,达到53.06。
- LightFusion的表现在很大程度上超过了先前的开源基准,并开始缩小与领先的专有系统之间的性能差距。
点此查看论文截图
A Reason-then-Describe Instruction Interpreter for Controllable Video Generation
Authors:Shengqiong Wu, Weicai Ye, Yuanxing Zhang, Jiahao Wang, Quande Liu, Xintao Wang, Pengfei Wan, Kun Gai, Hao Fei, Tat-Seng Chua
Diffusion Transformers have significantly improved video fidelity and temporal coherence, however, practical controllability remains limited. Concise, ambiguous, and compositionally complex user inputs contrast with the detailed prompts used in training, yielding an intent-output mismatch. We propose ReaDe, a universal, model-agnostic interpreter that converts raw instructions into precise, actionable specifications for downstream video generators. ReaDe follows a reason-then-describe paradigm: it first analyzes the user request to identify core requirements and resolve ambiguities, then produces detailed guidance that enables faithful, controllable generation. We train ReaDe via a two-stage optimization: (i) reasoning-augmented supervision imparts analytic parsing with stepwise traces and dense captions, and (ii) a multi-dimensional reward assigner enables stable, feedback-driven refinement for natural-style captions. Experiments across single- and multi-condition scenarios show consistent gains in instruction fidelity, caption accuracy, and downstream video quality, with strong generalization to reasoning-intensive and unseen inputs. ReaDe offers a practical route to aligning controllable video generation with accurately interpreted user intent. Project Page: https://sqwu.top/ReaDe/.
扩散Transformer已经显著提高了视频的真实性和时间连贯性,但在实际应用中的可控性仍然有限。简洁、模糊和组合复杂的用户输入与训练过程中使用的详细提示形成对比,导致意图与输出不匹配。我们提出了ReaDe,这是一种通用、模型不可知的解释器,可将原始指令转换为下游视频生成器的精确、可操作的规范。ReaDe遵循“先推理再描述”的模式:它首先分析用户请求以识别核心要求并解决模糊性,然后生成详细的指导,以实现忠实且可控的生成。我们通过两阶段优化训练ReaDe:(i)推理增强监督通过分步跟踪和密集字幕赋予解析能力;(ii)多维度奖励分配器可实现稳定、反馈驱动的精细调整,以生成自然风格字幕。在单条件和多条件场景的实验中,显示出在指令忠实度、字幕准确性和下游视频质量方面的一致提升,对需要大量推理和未见过的输入具有很强的泛化能力。ReaDe为可控视频生成与准确解释的用户意图对齐提供了实际途径。项目页面:https://sqwu.top/ReaDe/。
论文及项目相关链接
PDF 27 pages, 13 figures, 13 tables, Project Page: https://sqwu.top/ReaDe/
Summary
扩散转换器已显著改善视频质量和时间连贯性,但实际应用中的可控性仍然有限。用户输入的简洁性、模糊性和复杂的组合对比训练时使用的详细提示,导致意图与输出不匹配。我们提出ReaDe,一种通用、模型不可知的解释器,它将原始指令转化为下游视频生成器的精确、可操作规范。ReaDe遵循“先理解再描述”的模式:它首先分析用户需求以确定核心要求并解决模糊性,然后产生详细的指导,以实现忠实、可控的生成。我们通过两阶段优化训练ReaDe:(i)推理增强监督赋予分析解析逐步跟踪和密集字幕的能力,(ii)多维奖励分配器可实现稳定、反馈驱动的精细调整,以生成自然风格字幕。在单条件和多条件场景的实验中,显示出在指令忠实度、字幕准确性和下游视频质量方面的一致收益,并对需要推理的未知输入表现出强大的泛化能力。ReaDe为可控视频生成与准确解释用户意图的对齐提供了实用途径。项目页面:链接地址。
Key Takeaways
- 扩散转换器虽能提高视频质量和连贯性,但实践中的可控性仍有局限。
- 用户输入的简洁性、模糊性和复杂性导致意图与输出不匹配的问题。
- ReaDe是一个通用、模型不可知的解释器,能将用户指令转化为下游视频生成器的具体操作规范。
- ReaDe采用“先理解再描述”的模式,分析用户需求并解除模糊性,再产生详细的指导以实现可控的生成。
- ReaDe通过两阶段优化训练,包括推理增强监督和多维奖励分配器的使用。
- ReaDe在指令忠实度、字幕准确性和视频质量方面有明显提升,并对需要推理的未知输入有良好的泛化能力。
点此查看论文截图
PhysChoreo: Physics-Controllable Video Generation with Part-Aware Semantic Grounding
Authors:Haoze Zhang, Tianyu Huang, Zichen Wan, Xiaowei Jin, Hongzhi Zhang, Hui Li, Wangmeng Zuo
While recent video generation models have achieved significant visual fidelity, they often suffer from the lack of explicit physical controllability and plausibility. To address this, some recent studies attempted to guide the video generation with physics-based rendering. However, these methods face inherent challenges in accurately modeling complex physical properties and effectively control ling the resulting physical behavior over extended temporal sequences. In this work, we introduce PhysChoreo, a novel framework that can generate videos with diverse controllability and physical realism from a single image. Our method consists of two stages: first, it estimates the static initial physical properties of all objects in the image through part-aware physical property reconstruction. Then, through temporally instructed and physically editable simulation, it synthesizes high-quality videos with rich dynamic behaviors and physical realism. Experimental results show that PhysChoreo can generate videos with rich behaviors and physical realism, outperforming state-of-the-art methods on multiple evaluation metrics.
虽然最近的视频生成模型在视觉保真度上取得了显著的进展,但它们通常缺乏明确的物理可控性和合理性。为了解决这一问题,最近的一些研究尝试使用基于物理的渲染来引导视频生成。然而,这些方法在准确建模复杂的物理特性和有效控制长时间序列的物理行为方面面临固有的挑战。在这项工作中,我们引入了PhysChoreo,这是一种新型框架,可以从单张图像生成具有多种可控性和物理真实感的视频。我们的方法分为两个阶段:首先,通过部分感知的物理属性重建,估计图像中所有物体的静态初始物理属性。然后,通过时间指令和可编辑的物理模拟,合成高质量的视频,具有丰富动态行为和物理真实感。实验结果表明,PhysChoreo能够生成具有丰富行为和物理真实感的视频,并在多个评价指标上优于最先进的方法。
论文及项目相关链接
Summary
该研究提出了一种名为PhysChoreo的新型框架,可以从单一图像生成具有多样可控性和物理真实感的视频。它分为两个阶段:首先估计图像中所有物体的静态初始物理属性;然后通过时间指令和可编辑的物理模拟,合成高质量、动态丰富且物理真实的视频。实验结果表明,PhysChoreo在多个评价指标上优于现有技术。
Key Takeaways
- 近期视频生成模型虽视觉逼真度较高,但缺乏明确的物理可控性和可信度。
- 某些研究尝试使用基于物理的渲染来指导视频生成,但面临建模复杂物理属性和控制长期物理行为的挑战。
- 引入新型框架PhysChoreo,可从单一图像生成具有多样可控性和物理真实感的视频。
- PhysChoreo分为两个阶段:估计图像中物体的静态初始物理属性,然后通过时间指令和可编辑的物理模拟生成视频。
- PhysChoreo能合成高质量、动态丰富且物理真实的视频。
- 实验结果表明,PhysChoreo在多个评价指标上优于现有技术。
点此查看论文截图
Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward
Authors:Yuwei Niu, Weiyang Jin, Jiaqi Liao, Chaoran Feng, Peng Jin, Bin Lin, Zongjian Li, Bin Zhu, Weihao Yu, Li Yuan
Recent years have witnessed significant progress in Unified Multimodal Models, yet a fundamental question remains: Does understanding truly inform generation? To investigate this, we introduce UniSandbox, a decoupled evaluation framework paired with controlled, synthetic datasets to avoid data leakage and enable detailed analysis. Our findings reveal a significant understanding-generation gap, which is mainly reflected in two key dimensions: reasoning generation and knowledge transfer. Specifically, for reasoning generation tasks, we observe that explicit Chain-of-Thought (CoT) in the understanding module effectively bridges the gap, and further demonstrate that a self-training approach can successfully internalize this ability, enabling implicit reasoning during generation. Additionally, for knowledge transfer tasks, we find that CoT assists the generative process by helping retrieve newly learned knowledge, and also discover that query-based architectures inherently exhibit latent CoT-like properties that affect this transfer. UniSandbox provides preliminary insights for designing future unified architectures and training strategies that truly bridge the gap between understanding and generation. Code and data are available at https://github.com/PKU-YuanGroup/UniSandBox
近年来,统一多模态模型取得了显著进展,但一个基本问题仍然存在:理解是否真的指导生成?为了研究这个问题,我们引入了UniSandbox,这是一个解耦评估框架,配合受控合成数据集,以避免数据泄露并启用详细分析。我们的研究发现了一个显著的理解与生成之间的鸿沟,这主要体现在两个关键方面:推理生成和知识转移。具体来说,在推理生成任务中,我们发现理解模块中的显式思维链(CoT)有效地弥补了差距,并进一步证明自训练方法能够成功内化这种能力,从而在生成过程中实现隐性推理。另外,在知识转移任务中,我们发现CoT通过帮助检索新学习的知识来辅助生成过程,并且发现基于查询的架构本身就具有潜在的类似CoT的属性,这影响了知识的转移。UniSandbox为设计未来真正弥合理解与生成之间鸿沟的统一架构和训练策略提供了初步见解。代码和数据可在https://github.com/PKU-YuanGroup/UniSandBox找到。
论文及项目相关链接
摘要
近年来,统一跨模态模型取得了显著进展,但仍然存在一个基本问题:理解是否真的指导生成?为探究此问题,研究团队推出了UniSandbox评估框架,并配套控制合成数据集以避免数据泄露并启用详细分析。研究发现理解与生成之间存在显著差距,主要体现在推理生成和知识迁移两个方面。对于推理生成任务,理解模块中的显式Chain-of-Thought(CoT)能有效弥补这一差距,并且自训练方法能成功内化这种能力,实现生成过程中的隐性推理。对于知识迁移任务,CoT有助于生成过程中的知识检索,同时发现基于查询的架构本身就具有潜在的CoT属性影响知识迁移。UniSandbox为设计未来真正弥补理解与生成之间差距的统一架构和训练策略提供了初步见解。相关代码和数据集可通过https://github.com/PKU-YuanGroup/UniSandBox获取。
关键见解
- UniSandbox是一个用于评估统一跨模态模型的框架,旨在探究理解与生成之间的关系。
- 研究发现理解与生成之间存在显著差距,主要体现在推理生成和知识迁移方面。
- 显式Chain-of-Thought(CoT)在理解模块中能有效弥补推理生成的差距。
- 自训练方法能够成功内化理解过程中的隐性推理能力。
- CoT有助于知识迁移过程中的知识检索。
- 基于查询的架构具有潜在的CoT属性影响知识迁移。
点此查看论文截图
Effective Command-line Interface Fuzzing with Path-Aware Large Language Model Orchestration
Authors:Momoko Shiraishi, Yinzhi Cao, Takahiro Shinagawa
Command-line interface (CLI) fuzzing tests programs by mutating both command-line options and input file contents, thus enabling discovery of vulnerabilities that only manifest under specific option-input combinations. Prior works of CLI fuzzing face the challenges of generating semantics-rich option strings and input files, which cannot reach deeply embedded target functions. This often leads to a misdetection of such a deep vulnerability using existing CLI fuzzing techniques. In this paper, we design a novel Path-guided, Iterative LLM-Orchestrated Testing framework, called PILOT, to fuzz CLI applications. The key insight is to provide potential call paths to target functions as context to LLM so that it can better generate CLI option strings and input files. Then, PILOT iteratively repeats the process, and provides reached functions as additional context so that target functions are reached. Our evaluation on real-world CLI applications demonstrates that PILOT achieves higher coverage than state-of-the-art fuzzing approaches and discovers 51 zero-day vulnerabilities. We responsibly disclosed all the vulnerabilities to their developers and so far 41 have been confirmed by their developers with 33 being fixed and three assigned CVE identifiers.
命令行接口(CLI)模糊测试程序通过对命令行选项和输入文件内容进行变异,从而发现仅在特定选项-输入组合下才会出现的漏洞。之前的CLI模糊测试工作面临着生成语义丰富的选项字符串和输入文件的挑战,这些文件无法深入到目标函数。这往往导致使用现有的CLI模糊测试技术误检此类深层漏洞。在本文中,我们设计了一个新型的路径引导、迭代LLM协同测试框架,称为PILOT,用于模糊CLI应用程序。关键洞察力在于为LLM提供潜在函数调用路径作为上下文,以便其能更好地生成CLI选项字符串和输入文件。然后,PILOT通过迭代重复此过程,并提供已访问函数作为附加上下文,以便访问目标函数。我们对真实世界的CLI应用程序的评估表明,PILOT的覆盖率高于最新的模糊测试方法,并发现了51个零日漏洞。我们已负责任地向开发人员披露了所有漏洞,迄今为止,已有41个漏洞得到了开发人员的确认,其中33个已被修复,并分配了三个CVE标识符。
论文及项目相关链接
Summary
该文提出了一种名为PILOT的新型路径引导、迭代LLM协同测试框架,用于对命令行界面(CLI)应用程序进行模糊测试。该框架通过提供目标函数的潜在调用路径作为上下文,以生成更准确的命令行选项字符串和输入文件。PILOT重复此过程并提供已到达的函数作为附加上下文,以便到达目标函数。在真实世界的CLI应用程序评估中,PILOT实现了比最新模糊测试方法更高的覆盖率,并发现了51个零日漏洞。目前,已向开发者负责任地披露了所有漏洞,其中41个已得到开发者确认,33个已修复并分配了CVE标识符。
Key Takeaways
- PILOT是一个新型的路径引导、迭代LLM协同测试框架,用于CLI应用程序的模糊测试。
- PILOT通过提供目标函数的潜在调用路径作为上下文,以生成更准确的命令行选项字符串和输入文件。
- 该框架能够发现特定选项输入组合下的脆弱性,这是现有CLI模糊测试技术经常遗漏的。
- PILOT在真实世界的CLI应用程序评估中实现了较高的覆盖率。
- PILOT发现了51个零日漏洞,并已向开发者披露。
- 到目前为止,已有41个漏洞得到开发者确认,其中33个已修复。
点此查看论文截图
Extreme Ultraviolet Spectroscopy of Highly Charged Lu and Yb Ions for Nuclear Charge Radius Determination
Authors:Hunter Staiger, Endre Takacs, Steven A. Blundell, Naoki Kimura, Hiroyuki A. Sakaue, Ronald F. Garcia Ruiz, Witold Nazarewicz, Paul-Gerhard Reinhard, Chowdhury A. Faiyaz, Chihiro Suzuki, Dipti, István Angeli, Yuri Ralchenko, Izumi Murakami, Daiji Kato, Yuki Nagai, Ryuji Takaoka, Yoshiki Miya, Nobuyuki Nakamura
We report a high-precision determination of the natural-abundance-averaged nuclear charge-radius difference between Yb and Lu using extreme ultraviolet (EUV) spectroscopy of highly charged ions (HCIs). By measuring the $D_1$ transition energies in Na- and Mg-like charge states of Lu and Yb confined in the Tokyo electron-beam ion trap, we extract meV-level energy shifts that are directly sensitive to nuclear-size effects. Transition-energy differences obtained from these spectra are compared with state-of-the-art relativistic many-body perturbation theory, including a new treatment of Mg-like ions. We develop a generalized framework to propagate uncertainties arising from nuclear deformation and surface diffuseness and evaluate corresponding nuclear-sensitivity coefficients. Combining Na- and Mg-like results yields mutually consistent radius differences, demonstrating the robustness of both the experimental calibration and the theoretical predictions. To determine absolute isotopic radii, we perform a generalized least-squares optimization incorporating our HCI constraints together with optical-isotope-shift data and muonic-atom results. This analysis establishes that the $^{175}$Lu charge radius is smaller than that of $^{174}$Yb, restoring the expected odd-even staggering across the $N=94$ isotonic chain. Our recommended value, $R(^{175}\text{Lu}) = 5.291(11)$ fm, reduces the uncertainty of the Lu radius by a factor of three compared with the previous electron-scattering result and resolves a long-standing anomaly in rare-earth nuclear systematics. This work demonstrates that EUV spectroscopy of HCIs provides a powerful and broadly applicable method for precision nuclear-structure studies in heavy, deformed nuclei. The techniques developed here enable future investigations of isotonic and isoelectronic sequences, including radioactive nuclides and higher-$Z$ systems.
我们报告了一项使用极端紫外线(EUV)光谱的高度精确测定Yb和Lu之间的自然丰度平均核电荷半径差异的测量结果。我们通过测量东京电子束离子阱中Na和Mg类电荷态的Lu和Yb的$D_1$跃迁能量,提取出对核尺寸效应敏感的meV级别能量偏移。从这些光谱得到的跃迁能量差异与最新的相对论多体扰动理论进行了比较,包括对Mg类离子的新处理。我们建立了一个通用框架来传播由核变形和表面扩散引起的不确定性,并评估相应的核敏感性系数。Na和Mg类结果的结合产生了相互一致的半径差异,证明了实验校准和理论预测的稳定性。为了确定绝对同位素半径,我们执行了广义最小二乘优化,将我们的HCI约束与光学同位素位移数据和μ原子结果相结合。分析结果表明,$^{175}$Lu的电荷半径小于$^{174}$Yb的电荷半径,恢复了在$N=94$的同位链上的预期奇偶振荡。我们的推荐值$R(^{175}\text{Lu}) = 5.291(11)$ fm将Lu半径的不确定性降低了三分之一与前述电子散射的结果相比),并解决了长期存在的稀土核体系中的异常现象。这项工作表明,EUV光谱法对于精确研究重变形核的核结构是一种强大且广泛应用的方法。在这里开发的技术为未来的等质子和等电子序列研究提供了可能,包括放射性核素和更高Z的系统研究。
论文及项目相关链接
PDF 16 pages, 7 figures
摘要
利用极端紫外线光谱技术,对Yb和Lu的自然丰度平均核电荷半径差异进行了精确测定。通过在东京电子束离子阱中测量Lu和Yb的钠状和镁状电荷态的D1能级跃迁能量,获得直接对核尺寸效应敏感的毫电子伏特级别的能量位移。这些光谱获得的跃迁能量差异与最新的相对论多体扰动理论进行了比较,包括对镁状离子的新处理。开发了一个通用的框架来传播由核变形和表面扩散产生的不确定性,并评估相应的核敏感性系数。结合钠状和镁状的结果,得到了相互一致的半径差异,证明了实验校准和理论预测的稳定性。通过结合我们的HCI约束、光学同位素位移数据和 muonic原子结果,进行广义最小二乘优化,确定了绝对同位素半径。分析显示,$^{175}$Lu的电荷半径小于$^{174}$Yb,恢复了N=94同位链上的预期奇偶震荡。我们推荐的值$R(^{175}\text{Lu}) = 5.291(11)$ fm,将Lu半径的不确定性减少了三分之一,解决了稀土核系统长期存在的异常现象。这项工作表明,紫外光谱的HCI技术为精确研究重变形核的核结构提供了强大而普遍适用的方法。这里开发的技术为未来对同位素序列和等电子序列的研究、包括放射性核素和更高Z系统的研究提供了可能。
Key Takeaways
- 利用极端紫外线光谱技术精确测定了Yb和Lu的核电荷半径差异。
- 通过测量Lu和Yb的特定电荷态的D1能级跃迁能量,得到直接对核尺寸效应敏感的能级移动数据。
- 比较了实验数据与最新的相对论多体扰动理论,验证了实验与理论的一致性。
- 开发了考虑核变形和表面扩散不确定性的通用框架,并评估了核敏感性系数。
- 结合不同实验结果,得到相互一致的半径差异,验证了实验方法的稳健性。
- 通过综合分析多种数据,确定了$^{175}$Lu的电荷半径小于$^{174}$Yb,解决了稀土核系统长期存在的异常。
点此查看论文截图
Beyond Generation: Multi-Hop Reasoning for Factual Accuracy in Vision-Language Models
Authors:Shamima Hossain
Visual Language Models (VLMs) are powerful generative tools but often produce factually inaccurate outputs due to a lack of robust reasoning capabilities. While extensive research has been conducted on integrating external knowledge for reasoning in large language models (LLMs), such efforts remain underexplored in VLMs, where the challenge is compounded by the need to bridge multiple modalities seamlessly. This work introduces a framework for knowledge-guided reasoning in VLMs, leveraging structured knowledge graphs for multi-hop verification using image-captioning task to illustrate our framework. Our approach enables systematic reasoning across multiple steps, including visual entity recognition, knowledge graph traversal, and fact-based caption refinement. We evaluate the framework using hierarchical, triple-based and bullet-point based knowledge representations, analyzing their effectiveness in factual accuracy and logical inference. Empirical results show that our approach improves factual accuracy by approximately 31% on preliminary experiments on a curated dataset of mixtures from Google Landmarks v2, Conceptual captions and Coco captions revealing key insights into reasoning patterns and failure modes. This work demonstrates the potential of integrating external knowledge for advancing reasoning in VLMs, paving the way for more reliable and knowledgable multimodal systems.
视觉语言模型(VLMs)是强大的生成工具,但由于缺乏强大的推理能力,通常会产出事实上不准确的输出。虽然关于在大规模语言模型中融入外部知识以进行推理的研究已经广泛展开,但在VLMs领域对此的探索仍相对缺乏,加之无缝对接多种模式的需求使这一挑战变得更加复杂。本文介绍了在VLMs中进行知识导向推理的框架,利用结构化的知识图谱进行多跳验证,并采用图像描述任务来说明我们的框架。我们的方法使得能够在多个步骤中进行系统推理,包括视觉实体识别、知识图谱遍历和基于事实的标题优化。我们使用层次化、基于三元组和基于要点的方法来表示知识,分析它们在事实准确性和逻辑推断方面的有效性。实证结果表明,我们的方法在Google地标v2、概念性标题和可可标题的精选数据集上的初步实验中提高了大约31%的事实准确性,揭示了推理模式和失败模式的关键信息。本研究展示了在VLMs中整合外部知识推动其发展应用的潜力,为更可靠、更具知识的多媒体系统的发展奠定了基础。
论文及项目相关链接
PDF Accepted as poster at NewInML Workshop ICML, 2025
Summary
视觉语言模型(VLMs)在生成任务中展现出强大的能力,但由于缺乏稳健的推理能力,常常产生事实性错误输出。该研究引入了一个知识引导推理的框架,利用结构化的知识图谱进行多跳验证,并通过图像描述任务来阐述框架。该方法能够系统地进行多步骤推理,包括视觉实体识别、知识图谱遍历和基于事实的标题优化。使用层次化、三元组和要点化的知识表示方法评估该框架,分析其在实际准确性和逻辑推断方面的有效性。初步实验结果表明,该方法提高了大约31%的事实准确性。
Key Takeaways
- VLMs在生成任务中表现出强大的能力,但缺乏稳健的推理能力,导致事实性错误输出。
- 研究引入了知识引导推理的框架,利用结构化的知识图谱进行多跳验证。
- 该方法通过图像描述任务系统地处理多步骤推理,包括视觉实体识别、知识图谱遍历和基于事实的标题优化。
- 使用了层次化、三元组和要点化的知识表示方法评估框架的有效性。
- 初步实验表明,该方法提高了大约31%的事实准确性。
- 该研究揭示了推理模式和失败模式的关键洞察。
点此查看论文截图
AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs
Authors:Kuniaki Saito, Risa Shinoda, Shohei Tanaka, Tosho Hirasawa, Fumio Okura, Yoshitaka Ushiku
Assessing image-text alignment models such as CLIP is crucial for bridging visual and linguistic representations. Yet existing benchmarks rely on rule-based perturbations or short captions, limiting their ability to measure fine-grained alignment. We introduce AlignBench, a benchmark that provides a new indicator of image-text alignment by evaluating detailed image-caption pairs generated by diverse image-to-text and text-to-image models. Each sentence is annotated for correctness, enabling direct assessment of VLMs as alignment evaluators. Benchmarking a wide range of decoder-based VLMs reveals three key findings: (i) CLIP-based models, even those tailored for compositional reasoning, remain nearly blind; (ii) detectors systematically over-score early sentences; and (iii) they show strong self-preference, favoring their own outputs and harming detection performance. Our project page will be available at https://dahlian00.github.io/AlignBench/.
评估图像文本对齐模型(如CLIP)对于弥合视觉和语言表示至关重要。然而,现有的基准测试依赖于基于规则的扰动或简短标题,这限制了它们衡量精细对齐的能力。我们引入了AlignBench基准测试,它通过评估由多种图像到文本和文本到图像模型生成的详细图像标题对,提供图像文本对齐的新指标。每个句子都经过正确性注释,能够直接评估VLM作为对齐评估器的性能。对一系列基于解码器的VLM基准测试揭示了三个关键发现:(i)即使针对组合推理定制的CLIP模型,仍然近乎失明;(ii)检测器系统性地高估了早期句子的得分;(iii)它们表现出强烈的自我偏好,偏爱自己的输出并损害检测性能。我们的项目页面将在https://dahlian00.github.io/AlignBench/上提供。
论文及项目相关链接
PDF Project Page: https://dahlian00.github.io/AlignBench/
Summary:
评估图像文本对齐模型(如CLIP)对于实现视觉和语言学表征的融合至关重要。但现有基准测试主要依赖于基于规则的干扰或简短字幕,这限制了其衡量精细对齐的能力。我们推出了AlignBench,这是一个通过评估由多种图像到文本和文本到图像模型生成的各种详细的图像字幕对来衡量图像文本对齐的新指标。每个句子都经过正确性标注,能够直接评估视觉语言模型的对齐评估能力。对一系列基于解码器的视觉语言模型的基准测试揭示了三个关键发现:(i)即使针对组合推理进行定制的CLIP模型仍然近乎盲目;(ii)检测器系统性地高估了早期句子;(iii)它们表现出强烈的自我偏好,偏爱自己的输出并损害检测性能。我们的项目页面将在https://dahlian00.github.io/AlignBench/上提供。
Key Takeaways:
- 评估图像文本对齐模型对于视觉和语言学表征的融合至关重要。
- 现有基准测试在衡量图像文本精细对齐方面存在局限性。
- AlignBench通过详细的图像字幕对来衡量图像文本对齐,并提供新的评价指标。
- 对一系列视觉语言模型的基准测试揭示了CLIP模型的局限性,即使针对组合推理定制也是如此。
- 检测器系统性地高估了早期句子的重要性。
- 视觉语言模型表现出强烈的自我偏好,这可能影响其对图像文本的准确评估。
点此查看论文截图
Universe of Thoughts: Enabling Creative Reasoning with Large Language Models
Authors:Yuto Suzuki, Farnoush Banaei-Kashani
Reasoning based on Large Language Models (LLMs) has garnered increasing attention due to outstanding performance of these models in mathematical and complex logical tasks. Beginning with the Chain-of-Thought (CoT) prompting technique, numerous reasoning methods have emerged that decompose problems into smaller, sequential steps (or thoughts). However, existing reasoning models focus on conventional problem-solving and do not necessarily generate creative solutions by ``creative reasoning’’. In domains where the solution space is expansive and conventional solutions are suboptimal, such as drug discovery or business strategization, creative reasoning to discover innovative solutions is crucial. To address this gap, first we introduce a computational framework for creative reasoning inspired by established cognitive science principles. With this framework, we propose three core creative reasoning paradigms, namely, \textit{combinational}, \textit{exploratory}, and \textit{transformative} reasoning, where each offers specific directions for systematic exploration of the universe of thoughts to generate creative solutions. Next, to materialize this framework using LLMs, we introduce the \textit{Universe of Thoughts} (or \textit{UoT}, for short), a novel set of methods to implement the aforementioned three creative processes. Finally, we introduce three novel tasks that necessitate creative problem-solving, along with an evaluation benchmark to assess creativity from three orthogonal perspectives: feasibility as constraint, and utility and novelty as metrics. With a comparative analysis against the state-of-the-art (SOTA) reasoning techniques as well as representative commercial models with reasoning capability, we show that UoT demonstrates superior performance in creative reasoning.
基于大型语言模型(LLM)的推理已引起越来越多的关注,因为这些模型在数学和复杂逻辑任务中的出色表现。最初采用“思维链”(CoT)提示技术,出现了许多推理方法,将问题分解为更小、连续的步骤(或思维)。然而,现有的推理模型主要关注于传统的问题解决,并不一定能通过“创造性推理”产生创造性的解决方案。在解决方案空间广阔且传统解决方案不够理想的环境中,如药物发现或业务策略制定,通过创造性推理来发现创新解决方案至关重要。
为了弥补这一空白,我们首先借鉴认知科学的原则,引入了一个用于创造性推理的计算框架。在该框架下,我们提出了三种核心创造性推理范式,即组合推理、探索性推理和变革性推理,每种范式都提供了特定方向,以系统地探索思维宇宙,从而产生创造性解决方案。
接下来,为了使用LLM实现该框架,我们引入了“思维宇宙”(或简称UoT)这一新方法集,以实施上述三种创造性过程。最后,我们引入了三种需要创造性解决问题的新任务,以及一个评估创造力的基准测试,从三个正交的角度:可行性作为约束条件,以及实用性和新颖性作为指标来评估创造力。通过与最新推理技术以及具有推理能力的代表性商业模型的比较分析,我们证明UoT在创造性推理方面表现出卓越的性能。
论文及项目相关链接
Summary
大型语言模型(LLM)的推理能力因其在数学和复杂逻辑任务中的出色表现而受到越来越多的关注。当前出现的许多推理方法,如链式思维(CoT)技术,能够将问题分解为更小、有序的步骤。然而,现有的推理模型主要关注常规问题解决,并不一定能通过“创造性推理”来发现创新解决方案。在解决方案空间广阔且常规解决方案不够理想(如药物发现或业务策略制定)的领域中,创造性推理至关重要。为此,本文借鉴认知科学原则,提出了一个计算创造性推理的框架,并设计了三种核心创造性推理模式,即组合推理、探索性推理和变革性推理。为了利用大型语言模型实现这一框架,本文提出了“思维宇宙”(UoT)方法集。通过与传统最新技术和具有推理能力的商业模型对比,本文展示了UoT在创造性推理方面的优越性。
Key Takeaways
- 大型语言模型(LLM)的推理能力备受关注,尤其在数学和复杂逻辑任务中表现突出。
- 当前推理方法多侧重于问题的分解,但缺乏创造性推理来发现创新解决方案。
- 在解决方案空间广阔的领域,如药物发现和业务策略制定,创造性推理尤为重要。
- 本文提出了一个计算创造性推理的框架,包括三种核心创造性推理模式:组合、探索和变革性推理。
- 为了在大型语言模型中实现创造性推理,提出了“思维宇宙”(UoT)方法集。
- 与传统最新技术和商业模型相比,UoT在创造性推理方面表现出优越性。
点此查看论文截图
DRAFT-RL: Multi-Agent Chain-of-Draft Reasoning for Reinforcement Learning-Enhanced LLMs
Authors:Yuanhao Li, Mingshan Liu, Hongbo Wang, Yiding Zhang, Yifei Ma, Wei Tan
Large Language Models (LLMs) have shown impressive capabilities in multi-step reasoning and problem-solving.Recent works introduce multi-agent reflection frameworks where multiple LLM agents critique and refine each other’s outputs using reinforcement learning (RL). However, these approaches often rely on single-shot responses and lack structural diversity in reasoning exploration. In this paper, we propose DRAFT-RL, a novel framework that integrates Chain-of-Draft (CoD) reasoning into multi-agent RL training. Instead of generating single responses, each agent produces multiple drafts per query, which are then evaluated by peer agents and a learned reward model to identify the most promising trajectory. These selected drafts are used to refine future reasoning strategies through actor-critic learning.DRAFT-RL enables explicit multi-path exploration, peer-guided reflection, and reward-aligned selection, resulting in more robust and interpretable LLM agent behavior. We evaluate our method on complex reasoning tasks including code synthesis, symbolic math, and knowledge-intensive QA,demonstrating that DRAFT-RL outperforms existing reflective and RL-based agents by significant margins in both accuracy and convergence speed
大型语言模型(LLM)在多步推理和问题解决方面展现了令人印象深刻的能力。最近的研究引入了多智能体反思框架,其中多个LLM智能体使用强化学习(RL)相互批评和精炼彼此的输出。然而,这些方法通常依赖于单轮响应,在推理探索中缺乏结构多样性。在本文中,我们提出了DRAFT-RL,这是一种将Chain-of-Draft(CoD)推理集成到多智能体RL训练中的新型框架。不同于生成单一响应,每个智能体针对每个查询生成多个草稿,然后通过同行智能体和学到的奖励模型对其进行评估,以找出最有前途的轨迹。这些选定的草稿通过行动-批评学习用于精炼未来的推理策略。DRAFT-RL实现了明确的多路径探索、同行引导反思和奖励对齐选择,导致LLM智能体的行为更加稳健和可解释。我们在包括代码合成、符号数学和知识密集型问答等复杂推理任务上评估了我们的方法,证明DRAFT-RL在准确性和收敛速度方面显著优于现有的反思和基于RL的智能体。
论文及项目相关链接
Summary
大型语言模型(LLMs)在多步推理和问题解决方面展现出令人印象深刻的能力。最近的研究引入了多智能体反思框架,其中多个LLM智能体使用强化学习(RL)相互评价和修正输出。然而,这些方法常依赖于单轮回应,缺乏结构性的多样化推理探索。本文提出一个新的框架——DRAFT-RL,它将草稿链(CoD)推理集成到多智能体RL训练中。每个智能体不仅生成单个回应,而且针对每个查询生成多个草稿,通过同行智能体和学到的奖励模型评估这些草稿以选择最佳路径。这些选定的草稿用于通过actor-critic学习优化未来的推理策略。DRAFT-RL实现了明确的多元路径探索、同行引导反思和奖励对齐选择,导致LLM智能体的行为更加稳健和可解释。在代码合成、符号数学和知识密集型问答等复杂推理任务上,我们的方法表现出显著的优势,在准确性和收敛速度上均优于现有的反思和RL智能体。
Key Takeaways
- LLMs已展现出强大的多步推理和问题解决能力。
- 现有多智能体反思框架常依赖单轮回应,缺乏结构化多样性。
- DRAFT-RL框架结合了草稿链推理和多智能体强化学习。
- 每个智能体生成多个草稿,通过同行评估和奖励模型选择最佳路径。
- 选定的草稿用于优化未来的推理策略,通过actor-critic学习。
- DRAFT-RL实现了多元路径探索、同行引导反思和奖励对齐选择。
点此查看论文截图
The Curious Case of Analogies: Investigating Analogical Reasoning in Large Language Models
Authors:Taewhoo Lee, Minju Song, Chanwoong Yoon, Jungwoo Park, Jaewoo Kang
Analogical reasoning is at the core of human cognition, serving as an important foundation for a variety of intellectual activities. While prior work has shown that LLMs can represent task patterns and surface-level concepts, it remains unclear whether these models can encode high-level relational concepts and apply them to novel situations through structured comparisons. In this work, we explore this fundamental aspect using proportional and story analogies, and identify three key findings. First, LLMs effectively encode the underlying relationships between analogous entities; both attributive and relational information propagate through mid-upper layers in correct cases, whereas reasoning failures reflect missing relational information within these layers. Second, unlike humans, LLMs often struggle not only when relational information is missing, but also when attempting to apply it to new entities. In such cases, strategically patching hidden representations at critical token positions can facilitate information transfer to a certain extent. Lastly, successful analogical reasoning in LLMs is marked by strong structural alignment between analogous situations, whereas failures often reflect degraded or misplaced alignment. Overall, our findings reveal that LLMs exhibit emerging but limited capabilities in encoding and applying high-level relational concepts, highlighting both parallels and gaps with human cognition.
类比推理是人类认知的核心,为各种智力活动提供重要基础。虽然之前的研究已经表明,大型语言模型可以表示任务模式和表面级概念,但尚不清楚这些模型是否能够通过结构化比较编码高级关系概念并将其应用于新情况。在这项研究中,我们使用比例和故事类比来探索这一基本方面,并识别出三个关键发现。首先,大型语言模型有效地编码了类似实体之间的潜在关系;在正确的情况下,属性和关系信息会在中上层传播,而推理失败则反映了这些层次中缺失的关系信息。其次,与人类不同,大型语言模型不仅在关系信息缺失时遇到困难,而且在尝试将其应用于新实体时也会遇到困难。在这种情况下,在关键令牌位置修补隐藏表示可以在一定程度上促进信息传递。最后,大型语言模型中的成功类比推理标志着类似情况之间的强大结构对齐,而失败往往反映了对齐的退化或错位。总的来说,我们的研究结果表明,大型语言模型在编码和应用高级关系概念方面呈现出新兴但有限的能力,这既体现了与人类认知的相似之处,也突显了差异。
论文及项目相关链接
PDF AAAI 2026
Summary
大型语言模型(LLMs)在类比推理方面展现出编码和应用高级关系概念的能力,但仍存在局限性。模型能有效编码类似实体间的关系信息,但缺乏将关系信息应用到新实体的能力。通过结构性对齐可以改善模型的表现。整体而言,LLMs的类比推理能力与人类有相似之处但也有待提升。
Key Takeaways
- LLMs能够编码类似实体间的关系信息,并在正确情况下将属性与关系信息传播至中层和上层。
- 当缺乏关系信息时,LLMs的推理能力会受到影响。
- 与人类不同,LLMs在尝试将关系信息应用于新实体时常常遇到困难。
- 通过在关键令牌位置修补隐藏表征,可以一定程度上促进信息转移。
- 成功的类比推理在LLMs中表现为类似情境的结构性对齐。
- 失败的情况通常反映出结构对齐的退化或错位。
点此查看论文截图
ArtiBench and ArtiBrain: Benchmarking Generalizable Vision-Language Articulated Object Manipulation
Authors:Yuhan Wu, Tiantian Wei, Shuo Wang, ZhiChao Wang, Yanyong Zhang, Daniel Cremers, Yan Xia
Interactive articulated manipulation requires long-horizon, multi-step interactions with appliances while maintaining physical consistency. Existing vision-language and diffusion-based policies struggle to generalize across parts, instances, and categories. We first introduce ArtiBench, a five-level benchmark covering kitchen, storage, office, and tool environments. ArtiBench enables structured evaluation from cross-part and cross-instance variation to long-horizon multi-object tasks, revealing the core generalization challenges of articulated object manipulation. Building on this benchmark, we propose ArtiBrain, a modular framework that unifies high-level reasoning with adaptive low-level control. ArtiBrain uses a VLM-based Task Reasoner (GPT-4.1) to decompose and validate subgoals, and employs a Hybrid Controller that combines geometry-aware keyframe execution with affordance-guided diffusion for precise and interpretable manipulation. An Affordance Memory Bank continually accumulates successful execution episodes and propagates part-level actionable affordances to unseen articulated parts and configurations. Extensive experiments on ArtiBench show that our ArtiBrain significantly outperforms state-of-the-art multimodal and diffusion-based methods in robustness and generalization. Code and dataset will be released upon acceptance.
交互式关节操控需要长期、多步骤与设备的互动,同时保持物理一致性。现有的视觉语言政策和扩散政策很难在部分、实例和类别之间进行推广。我们首先推出了ArtiBench,这是一个涵盖厨房、存储、办公室和工具环境的五个级别的基准测试。ArtiBench能够实现对跨部分和跨实例变化的结构化评估,以及长期多目标任务,揭示了关节对象操作的核心推广挑战。基于此基准测试,我们提出了ArtiBrain,这是一个模块化框架,能够将高级推理与自适应低级控制统一起来。ArtiBrain使用基于VLM的任务推理器(GPT-4.1)来分解和验证子目标,并采用混合控制器,结合几何感知的关键帧执行和基于功能的扩散,实现精确和可解释的操控。功能记忆库不断累积成功的执行片段,并将部分级别的可操作功能传播到看不见的关节部分和配置中。在ArtiBench上的广泛实验表明,我们的ArtiBrain在稳健性和泛化方面显著优于最新的多模态和基于扩散的方法。论文通过后,我们将公开代码和数据集。
论文及项目相关链接
Summary
本文介绍了针对互动型物体操作所提出的ArtiBench基准测试和ArtiBrain框架。ArtiBench测试分为五个层次,覆盖厨房、储物、办公室和工具等多个环境,能够结构化地评估跨部件、跨实例以及长周期多物体任务的通用性挑战。而ArtiBrain框架结合了高级推理和自适应低级控制,使用VLM任务推理器分解和验证子目标,采用混合控制器结合几何感知关键帧执行和基于功能的扩散技术,以实现精确和可解释的操作。此外,它还包含一个功能记忆库,可以不断积累成功的执行片段,并将部分级别的可操作功能推广到未见过的部件和配置中。在ArtiBench上的实验表明,ArtiBrain在稳健性和通用性方面显著优于现有的多模态和基于扩散的方法。
Key Takeaways
- ArtiBench作为一个新的基准测试,分为五个层次,涵盖了多种环境,用于评估互动型物体操作的通用性挑战。
- ArtiBench能够结构化地评价跨部件、跨实例以及长周期多物体任务的性能。
- ArtiBrain框架结合了高级推理和自适应低级控制,使用VLM任务推理器进行子目标的分解和验证。
- ArtiBrain采用混合控制器,结合了几何感知关键帧执行和基于功能的扩散技术,实现精确和可解释的操作。
- ArtiBrain包含一个功能记忆库,能够积累成功的执行片段,并将部分级别的可操作功能推广到未见过的部件和配置中。
- ArtiBrain在ArtiBench上的实验表现优于现有的多模态和基于扩散的方法,在稳健性和通用性方面有明显提升。
- 代码和数据集将在接受后发布。