⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-11-21 更新
In-N-On: Scaling Egocentric Manipulation with in-the-wild and on-task Data
Authors:Xiongyi Cai, Ri-Zhao Qiu, Geng Chen, Lai Wei, Isabella Liu, Tianshu Huang, Xuxin Cheng, Xiaolong Wang
Egocentric videos are a valuable and scalable data source to learn manipulation policies. However, due to significant data heterogeneity, most existing approaches utilize human data for simple pre-training, which does not unlock its full potential. This paper first provides a scalable recipe for collecting and using egocentric data by categorizing human data into two categories: in-the-wild and on-task alongside with systematic analysis on how to use the data. We first curate a dataset, PHSD, which contains over 1,000 hours of diverse in-the-wild egocentric data and over 20 hours of on-task data directly aligned to the target manipulation tasks. This enables learning a large egocentric language-conditioned flow matching policy, Human0. With domain adaptation techniques, Human0 minimizes the gap between humans and humanoids. Empirically, we show Human0 achieves several novel properties from scaling human data, including language following of instructions from only human data, few-shot learning, and improved robustness using on-task data. Project website: https://xiongyicai.github.io/In-N-On/
以自我为中心的视频是学习操作策略的有价值且可扩展的数据来源。然而,由于数据存在大量异质性,大多数现有方法仅使用人类数据进行简单预训练,这并没有充分发挥其全部潜力。本文首先通过将人数据分为两大类:野生数据和任务内数据,提供了一套收集和使用以自我为中心数据的可扩展方案,并进行了如何使用这些数据进行的系统分析。我们首先整理了一个数据集PHSD,其中包含超过1000小时的各种野生以自我为中心的数据和超过20小时直接与目标操作任务对齐的任务内数据。这使得我们能够学习一项大型的语言条件流匹配策略Human0。借助域适应技术,Human0缩小了人类与人形机器人的差距。从实证来看,我们展示了Human0通过扩展人类数据实现了若干新颖的特性,包括仅从人类数据中遵循指令的语言跟随能力、小样本学习能力和使用任务内数据提高的稳健性。项目网站地址为:https://xiongyicai.github.io/In-N-On/
论文及项目相关链接
PDF Project webpage: https://xiongyicai.github.io/In-N-On/
Summary
大规模人类视角视频数据对于学习操控策略具有重要价值。然而,由于数据存在大量异质性,现有方法仅利用人类数据进行简单预训练,未能充分发挥其价值。本文提供了一套收集和利用大规模人类视角数据的方案,将人类数据分为两类:自然场景数据和任务相关数据,并进行了如何使用这些数据的系统性分析。通过构建包含超过一千小时的自然场景数据和超过二十小时的任务相关数据集PHSD,实现了大规模的人类视角语言条件下的流量匹配策略Human0。利用域适应技术,Human0缩小了人类与机器人之间的差距。实验表明,Human0从扩展的人类数据中实现了多项新颖功能,包括仅依赖人类数据的语言指令遵循、小样例学习和利用任务相关数据提高鲁棒性。
Key Takeaways
- 利用大规模人类视角视频数据学习操控策略具有价值。
- 数据存在大量异质性,简单预训练无法充分发挥其价值。
- 将人类数据分为自然场景数据和任务相关数据两类。
- 构建数据集PHSD包含超过一千小时的自然场景数据和超过二十小时的任务相关数据。
- 实现了大规模的人类视角语言条件下的流量匹配策略Human0。
- 利用域适应技术缩小了人类与机器人之间的差距。
点此查看论文截图
From Qubits to Couplings: A Hybrid Quantum Machine Learning Framework for LHC Physics
Authors:Marwan Ait Haddou, Mohamed Belfkir, Salah Eddine El Harrauss
In this paper, we propose a new Hybrid Quantum Machine Learning (HyQML) framework to improve the sensitivity of double Higgs boson searches in the $HH \to b\bar{b}γγ$ final state at $\sqrt{s}$ = 13.6 TeV. The proposed model combines parameterized quantum circuits with a classical neural network meta-model, enabling event-level features to be embedded in a quantum feature space while maintaining the optimization stability of classical learning. The hybrid model outperforms both a state-of-the-art XGBoost model and a purely quantum implementation by a factor of two, achieving an expected 95% CL upper limit on the non-resonant double Higgs boson production cross-section of $1.9\timesσ_{\text{SM}}$ and $2.1\timesσ_{\text{SM}}$ under background normalization uncertainties of 10% and 50%, respectively. In addition, expected constraints on the Higgs boson self-coupling $κ_λ$ and quartic vector-boson-Higgs coupling $κ_{2V}$ are found to be improved compared to the classical and purely quantum models.
本文提出了一种新的混合量子机器学习(HyQML)框架,旨在提高在$\sqrt{s}$ = 13.6 TeV条件下,双希格斯玻色子搜索在$HH \to b\bar{b}γγ$最终态的灵敏度。该模型结合了参数化量子电路和经典神经网络元模型,能够在量子特征空间中嵌入事件级特征,同时保持经典学习的优化稳定性。混合模型在性能上优于最先进的XGBoost模型和纯量子实现模型,实现非共振双希格斯玻色子产生截面95% CL上限的预期值,在背景归一化不确定性分别为1 结 合时下 融 混合 模 的 在 $λ 兆 s间 g 且 快 明 果 中较 优于 传统 模 型 和 纯 量 子 模 型 。 模 型 能在$σ_{\text{SM}}$的1.9倍和$σ_{\text{SM}}$的2.1倍之间,在背景归一化不确定性分别为10%和50%的情况下取得良好表现。此外,与经典和纯量子模型相比,对希格斯玻色子自耦合$κ_λ$和四次矢量玻色子-希格斯耦合$κ_{2V}$的预期约束也有所改善。
论文及项目相关链接
PDF 30 pages, 10 figures
Summary
高性能的混合式量子机器学习(HyQML)框架被提出,用于提升在双希格斯玻色子搜索中的灵敏度。该框架结合了参数化量子电路和经典神经网络元模型,将事件级特征嵌入量子特征空间,同时保持经典学习的优化稳定性。HyQML框架在性能上优于最新的XGBoost模型和纯量子实现,在背景标准化不确定性为10%和50%的情况下,预计的非谐振双希格斯玻色子生产截面的95% CL上限分别为1.9倍和2.1倍的标准模型预期值。此外,与经典和纯量子模型相比,对希格斯玻色子自耦合和四次向量玻色子-希格斯耦合的预期约束有所改进。
Key Takeaways
- 提出了一种新的Hybrid Quantum Machine Learning (HyQML) 框架,旨在提高在双希格斯玻色子搜索中的灵敏度。
- 该框架结合了参数化量子电路和经典神经网络元模型,实现了事件级特征到量子特征空间的嵌入。
- HyQML框架在性能上超越了现有的XGBoost模型和纯量子实现。
- 在不同的背景标准化不确定性下,HyQML框架对非谐振双希格斯玻色子生产截面的预测有着严格的95% CL上限。
- 与经典和纯量子模型相比,HyQML框架在对希格斯玻色子自耦合和四次向量玻色子-希格斯耦合的预测约束方面有所改进。
- 该框架能够维持经典学习的优化稳定性,同时利用量子计算的优势。
点此查看论文截图
Meta-Black-Box Optimization with Bi-Space Landscape Analysis and Dual-Control Mechanism for SAEA
Authors:Yukun Du, Haiyue Yu, Xiaotong Xie, Yan Zheng, Lixin Zhan, Yudong Du, Chongshuang Hu, Boxuan Wang, Jiang Jiang
Surrogate-Assisted Evolutionary Algorithms (SAEAs) are widely used for expensive Black-Box Optimization. However, their reliance on rigid, manually designed components such as infill criteria and evolutionary strategies during the search process limits their flexibility across tasks. To address these limitations, we propose Dual-Control Bi-Space Surrogate-Assisted Evolutionary Algorithm (DB-SAEA), a Meta-Black-Box Optimization (MetaBBO) framework tailored for multi-objective problems. DB-SAEA learns a meta-policy that jointly regulates candidate generation and infill criterion selection, enabling dual control. The bi-space Exploratory Landscape Analysis (ELA) module in DB-SAEA adopts an attention-based architecture to capture optimization states from both true and surrogate evaluation spaces, while ensuring scalability across problem dimensions, population sizes, and objectives. Additionally, we integrate TabPFN as the surrogate model for accurate and efficient prediction with uncertainty estimation. The framework is trained via reinforcement learning, leveraging parallel sampling and centralized training to enhance efficiency and transferability across tasks. Experimental results demonstrate that DB-SAEA not only outperforms state-of-the-art baselines across diverse benchmarks, but also exhibits strong zero-shot transfer to unseen tasks with higher-dimensional settings. This work introduces the first MetaBBO framework with dual-level control over SAEAs and a bi-space ELA that captures surrogate model information.
代理辅助进化算法(SAEAs)广泛应用于昂贵的黑箱优化。然而,它们在搜索过程中依赖于刚性、手动设计的组件,如填充标准和进化策略,这限制了它们在任务中的灵活性。为了解决这些局限性,我们提出了双控制双空间代理辅助进化算法(DB-SAEA),这是一种针对多目标问题的MetaBBO框架。DB-SAEA学习一种元策略,联合调控候选生成和填充标准选择,实现双重控制。DB-SAEA中的双空间探索景观分析(ELA)模块采用基于注意力的架构,从真实和代理评估空间中捕获优化状态,同时确保跨问题维度、群体大小和目标的可扩展性。此外,我们整合TabPFN作为代理模型,进行准确高效的预测,同时估计不确定性。该框架通过强化学习进行训练,利用并行采样和集中训练来提高效率和跨任务的迁移能力。实验结果表明,DB-SAEA不仅在多种基准测试中优于最新基线,而且在更高维度设置中的未知任务上表现出强大的零镜头迁移能力。这项工作推出了首个具有对SAEAs进行双重控制和捕获代理模型信息的双空间ELA的MetaBBO框架。
论文及项目相关链接
Summary
基于双空间探索景观分析的二元控制代进化算法框架DB-SAEA(Surrogate-Assisted Evolutionary Algorithm),它通过meta-policy控制候选生成和填坑准则选择来突破现有算法的局限性。引入并行采样和集中训练策略来提高效率与任务迁移能力,对多维问题的表现优秀,可灵活应对各种任务和具有强大的零预设任务迁移能力。
Key Takeaways
- DB-SAEA是首个实现SAEAs双重控制的MetaBBO框架。它利用meta-policy对候选生成和填坑准则进行选择,增强了算法的灵活性。
- DB-SAEA中的双空间探索景观分析模块结合了真实和代理评估空间的信息,采用注意力机制确保跨问题维度、种群规模和目标的可扩展性。
- 采用TabPFN作为代理模型,实现准确、高效的预测与不确定性估计。
- 强化学习用于训练DB-SAEA框架,通过并行采样和集中训练提高效率和任务迁移能力。
点此查看论文截图
Convergence and Sketching-Based Efficient Computation of Neural Tangent Kernel Weights in Physics-Based Loss
Authors:Max Hirsch, Federico Pichi
In multi-objective optimization, multiple loss terms are weighted and added together to form a single objective. These weights are chosen to properly balance the competing losses according to some meta-goal. For example, in physics-informed neural networks (PINNs), these weights are often adaptively chosen to improve the network’s generalization error. A popular choice of adaptive weights is based on the neural tangent kernel (NTK) of the PINN, which describes the evolution of the network in predictor space during training. The convergence of such an adaptive weighting algorithm is not clear a priori. Moreover, these NTK-based weights would be updated frequently during training, further increasing the computational burden of the learning process. In this paper, we prove that under appropriate conditions, gradient descent enhanced with adaptive NTK-based weights is convergent in a suitable sense. We then address the problem of computational efficiency by developing a randomized algorithm inspired by a predictor-corrector approach and matrix sketching, which produces unbiased estimates of the NTK up to an arbitrarily small discretization error. Finally, we provide numerical experiments to support our theoretical findings and to show the efficacy of our randomized algorithm. Code Availability: https://github.com/maxhirsch/Efficient-NTK
在多目标优化中,多个损失项会被加权并相加,以形成一个单一的目标。这些权重是根据某些元目标选择来适当平衡相互竞争损失。例如,在物理信息神经网络(PINN)中,这些权重通常会被自适应选择,以提高网络的泛化误差。一种流行的自适应权重选择方法基于PINN的神经切线核(NTK),它描述了训练过程中网络在预测空间中的演变。这种自适应加权算法的收敛性在事先并不清楚。此外,这些基于NTK的权重在训练过程中会频繁更新,进一步增加学习过程计算负担。在本文中,我们证明了在适当条件下,通过增强自适应NTK基权重的梯度下降在合适意义上具有收敛性。然后,我们通过一个受预测校正方法和矩阵草图启发的随机算法来解决计算效率问题,该算法可以产生NTK的无偏估计,其离散误差可以任意小。最后,我们通过数值实验来支持我们的理论发现并展示我们的随机算法的有效性。代码公开于:[https://github.com/maxhirsch/Efficient-NTK
论文及项目相关链接
Summary
多目标优化中,通过加权多个损失项并相加形成单一目标。在物理信息神经网络(PINNs)中,常采用基于神经网络坦切核(NTK)的自适应权重来改善网络泛化误差。本文证明了在适当条件下,结合自适应NTK权重的梯度下降法是收敛的。为解决计算效率问题,本文采用了一种基于预测校正方法和矩阵素描的随机算法,可得到NTK的无偏估计。
Key Takeaways
- 多目标优化中,通过加权多个损失项来实现单一目标优化,权重用于平衡竞争损失以实现元目标。
- 物理信息神经网络(PINNs)中,常使用基于神经网络坦切核(NTK)的自适应权重来改善网络泛化性能。
- 本文证明了梯度下降法结合自适应NTK权重的收敛性。
- 为提高计算效率,提出了一种基于预测校正方法和矩阵素描的随机算法来估计NTK。
- 该随机算法可以产生对NTK的无偏估计,且存在任意小的离散误差。
- 本文提供了数值实验来支持其理论发现,并展示了随机算法的有效性。
点此查看论文截图
Know Your Intent: An Autonomous Multi-Perspective LLM Agent Framework for DeFi User Transaction Intent Mining
Authors:Qian’ang Mao, Yuxuan Zhang, Jiaman Chen, Wenjun Zhou, Jiaqi Yan
As Decentralized Finance (DeFi) develops, understanding user intent behind DeFi transactions is crucial yet challenging due to complex smart contract interactions, multifaceted on-/off-chain factors, and opaque hex logs. Existing methods lack deep semantic insight. To address this, we propose the Transaction Intent Mining (TIM) framework. TIM leverages a DeFi intent taxonomy built on grounded theory and a multi-agent Large Language Model (LLM) system to robustly infer user intents. A Meta-Level Planner dynamically coordinates domain experts to decompose multiple perspective-specific intent analyses into solvable subtasks. Question Solvers handle the tasks with multi-modal on/off-chain data. While a Cognitive Evaluator mitigates LLM hallucinations and ensures verifiability. Experiments show that TIM significantly outperforms machine learning models, single LLMs, and single Agent baselines. We also analyze core challenges in intent inference. This work helps provide a more reliable understanding of user motivations in DeFi, offering context-aware explanations for complex blockchain activity.
随着去中心化金融(DeFi)的发展,理解DeFi交易背后的用户意图至关重要,但同时也面临诸多挑战,其中包括复杂的智能合约交互、多层面的链上链下因素以及不透明的hex日志。现有方法缺乏深度语义洞察。为解决此问题,我们提出交易意图挖掘(TIM)框架。TIM利用基于扎实理论和多智能体的大型语言模型(LLM)系统构建了一个DeFi意图分类体系,以稳健地推断用户意图。元级规划器动态协调领域专家将多个特定角度的意图分析分解为可解决的子任务。问题求解器利用多模态链上链下数据完成任务。而认知评估器则减轻LLM的幻觉效应并确保可验证性。实验表明,TIM在机器学习模型、单一LLM和单一智能体基线等方面表现优异。我们还分析了意图推断中的核心挑战。这项工作有助于更可靠地理解用户在DeFi中的动机,为复杂的区块链活动提供情境感知的解释。
论文及项目相关链接
PDF Written in 2025 Q1
Summary
提出的Transaction Intent Mining(TIM)框架利用基于扎根理论和多智能体的大型语言模型(LLM)系统,构建了一个DeFi意图分类法,能够稳健地推断用户意图。框架包括元级规划器、问题求解器和认知评估器三个关键组件,分别负责分解任务、处理任务和验证评估。TIM显著优于现有方法,有助于更可靠地理解用户在DeFi中的动机。
Key Takeaways
- TIM框架解决了DeFi交易中理解用户意图的挑战,包括复杂的智能合约交互、多方面的链内外因素和模糊的日志信息。
- TIM利用基于扎根理论的DeFi意图分类法来构建用户意图模型。
- TIM使用多智能体LLM系统来推断用户意图,增强了框架的稳健性。
- 元级规划器负责分解任务,问题求解器处理任务,认知评估器则验证评估结果,三者协同工作。
- TIM显著优于机器学习模型、单一LLM和单一Agent基准测试。
- TIM为理解用户在DeFi中的动机提供了更可靠的方式,有助于解释复杂的区块链活动。
点此查看论文截图
LLM-MemCluster: Empowering Large Language Models with Dynamic Memory for Text Clustering
Authors:Yuanjie Zhu, Liangwei Yang, Ke Xu, Weizhi Zhang, Zihe Song, Jindong Wang, Philip S. Yu
Large Language Models (LLMs) are reshaping unsupervised learning by offering an unprecedented ability to perform text clustering based on their deep semantic understanding. However, their direct application is fundamentally limited by a lack of stateful memory for iterative refinement and the difficulty of managing cluster granularity. As a result, existing methods often rely on complex pipelines with external modules, sacrificing a truly end-to-end approach. We introduce LLM-MemCluster, a novel framework that reconceptualizes clustering as a fully LLM-native task. It leverages a Dynamic Memory to instill state awareness and a Dual-Prompt Strategy to enable the model to reason about and determine the number of clusters. Evaluated on several benchmark datasets, our tuning-free framework significantly and consistently outperforms strong baselines. LLM-MemCluster presents an effective, interpretable, and truly end-to-end paradigm for LLM-based text clustering.
大型语言模型(LLMs)通过基于深度语义理解的文本聚类能力,正在重塑无监督学习。然而,其直接应用受到缺乏迭代优化的状态记忆和难以管理聚类粒度的根本限制。因此,现有方法通常依赖于具有外部模块的复杂管道,牺牲了真正的端到端方法。我们引入了LLM-MemCluster,这是一个重新构建聚类的全新框架,作为完全基于LLM的任务。它利用动态内存来灌输状态意识,并使用双提示策略使模型能够推理并确定聚类的数量。在几个基准数据集上进行评估,我们的无需调整参数的框架显著且持续地超越了强大的基线。LLM-MemCluster为基于LLM的文本聚类提供了一种有效、可解释和真正的端到端范式。
论文及项目相关链接
Summary
大型语言模型(LLMs)通过深度语义理解进行文本聚类,重塑了无监督学习。然而,由于缺少迭代改进的状态记忆和管理集群粒度的困难,其直接应用存在根本性限制。我们推出LLM-MemCluster框架,重新定义集群为一个完全由LLM主导的任务。它利用动态记忆实现状态感知,并用双提示策略使模型能够推理并确定集群数量。在多个基准数据集上评估,我们的无需调整参数的框架持续且显著优于强大基线。LLM-MemCluster为基于LLM的文本聚类提供了有效、可解释和真正的端到端范式。
Key Takeaways
- 大型语言模型(LLMs)通过深度语义理解进行文本聚类,重塑无监督学习。
- LLMs直接应用于文本聚类存在状态记忆和管理集群粒度的挑战。
- LLM-MemCluster框架将文本聚类定义为完全由LLM主导的任务。
- LLM-MemCluster利用动态记忆实现状态感知,并用双提示策略确定集群数量。
- LLM-MemCluster框架在多个基准数据集上表现优异,持续且显著优于其他方法。
- LLM-MemCluster提供了基于LLM的文本聚类的有效、可解释和真正的端到端范式。
点此查看论文截图
C2F-Space: Coarse-to-Fine Space Grounding for Spatial Instructions using Vision-Language Models
Authors:Nayoung Oh, Dohyun Kim, Junhyeong Bang, Rohan Paul, Daehyung Park
Space grounding refers to localizing a set of spatial references described in natural language instructions. Traditional methods often fail to account for complex reasoning – such as distance, geometry, and inter-object relationships – while vision-language models (VLMs), despite strong reasoning abilities, struggle to produce a fine-grained region of outputs. To overcome these limitations, we propose C2F-Space, a novel coarse-to-fine space-grounding framework that (i) estimates an approximated yet spatially consistent region using a VLM, then (ii) refines the region to align with the local environment through superpixelization. For the coarse estimation, we design a grid-based visual-grounding prompt with a propose-validate strategy, maximizing VLM’s spatial understanding and yielding physically and semantically valid canonical region (i.e., ellipses). For the refinement, we locally adapt the region to surrounding environment without over-relaxed to free space. We construct a new space-grounding benchmark and compare C2F-Space with five state-of-the-art baselines using success rate and intersection-over-union. Our C2F-Space significantly outperforms all baselines. Our ablation study confirms the effectiveness of each module in the two-step process and their synergistic effect of the combined framework. We finally demonstrate the applicability of C2F-Space to simulated robotic pick-and-place tasks.
空间定位是指定位自然语言指令中描述的一组空间参考。传统方法往往无法处理复杂的推理,例如距离、几何和对象之间的关系,而视觉语言模型(VLM)尽管具有很强的推理能力,但在产生精细输出区域时却遇到困难。为了克服这些局限性,我们提出了C2F-Space,这是一种新型粗到细的空间定位框架,它(i)使用VLM估计一个粗略但空间上一致的区域,然后(ii)通过超像素化使该区域与局部环境对齐。对于粗略估计,我们设计了一种基于网格的视觉定位提示,采用提出-验证策略,最大限度地提高VLM的空间理解能力,并产生物理和语义上有效的规范区域(即椭圆)。对于细化,我们局部调整区域以适应周围环境,而不会过于放松到自由空间。我们建立了一个新的空间定位基准,并使用成功率和交集比比较了C2F-Space与五种最新技术基线。我们的C2F-Space显著优于所有基线。我们的消融研究证实了两步过程中每个模块的有效性以及它们协同作用的综合框架的协同作用。最后,我们展示了C2F-Space在模拟的机器人拾取和放置任务中的应用。
论文及项目相关链接
PDF 16 pages, 12 figures
Summary
该文本介绍了一种名为C2F-Space的新型粗到细的空间定位框架,该框架旨在解决自然语言指令中的空间参考定位问题。它通过两步过程实现:首先使用视觉语言模型(VLM)进行粗略估算,然后通过超像素化对区域进行细化,以与局部环境对齐。该框架在新型空间定位基准测试上的表现显著优于其他五个最先进的基础线模型,并进行了模拟机器人拾取和放置任务以验证其实用性。
Key Takeaways
- C2F-Space是一种粗到细的空间定位框架,用于解决自然语言指令中的空间参考定位问题。
- 框架包含两个主要步骤:使用视觉语言模型(VLM)进行粗略估算,然后通过超像素化对区域进行细化。
- 框架设计了一种基于网格的视觉定位提示,采用提出-验证策略,最大化VLM的空间理解,并产生物理和语义上有效的规范区域(即椭圆)。
- 框架能够局部适应周围环境,而不会过度放松到自由空间。
- C2F-Space在新型空间定位基准测试上的表现显著优于其他五个最先进的基础线模型。
- 框架的成功率通过消融研究得到了验证,证明了每个模块在两步过程中的有效性以及它们之间的协同作用。
点此查看论文截图
IndicGEC: Powerful Models, or a Measurement Mirage?
Authors:Sowmya Vajjala
In this paper, we report the results of the TeamNRC’s participation in the BHASHA-Task 1 Grammatical Error Correction shared task https://github.com/BHASHA-Workshop/IndicGEC2025/ for 5 Indian languages. Our approach, focusing on zero/few-shot prompting of language models of varying sizes (4B to large proprietary models) achieved a Rank 4 in Telugu and Rank 2 in Hindi with GLEU scores of 83.78 and 84.31 respectively. In this paper, we extend the experiments to the other three languages of the shared task - Tamil, Malayalam and Bangla, and take a closer look at the data quality and evaluation metric used. Our results primarily highlight the potential of small language models, and summarize the concerns related to creating good quality datasets and appropriate metrics for this task that are suitable for Indian language scripts.
本文报道了TeamNRC参与BHASHA-Task 1语法错误修正共享任务的结果。我们采用的方法侧重于对各种规模的模型(从4B到大型专有模型)进行零次或多次提示,在泰卢固语和印地语中分别以GLEU得分83.78和84.31的成绩排名第4和第2。在这篇论文中,我们将实验扩展到共享任务中的其他三种语言——泰米尔语、马拉雅拉姆语和孟加拉语,并仔细观察了数据质量和所使用的评估指标。我们的结果主要强调了小型语言模型的潜力,并总结了创建高质量数据集和适合印度语言脚本的相关任务的适当指标所存在的相关问题和担忧。
论文及项目相关链接
PDF Technical report
Summary
团队NRC参与了BHASHA-Task 1的五种印度语言的语法错误修正共享任务。通过侧重于零/少样本提示不同大小的语言模型(从4B到大型专有模型),在泰卢固语和印地语中分别排名第4和第2,GLEU评分分别为83.78和84.31。该论文还扩展了其他三种共享语言实验,深入探讨了数据质量和评估指标的使用情况。主要强调了小型语言模型的潜力,并总结了创建适合印度语言的高质量数据集和适当的评估指标的关注点。
Key Takeaways
- TeamNRC参与了在五种印度语言上的语法错误修正任务。
- 通过使用零/少样本提示方法,在不同大小的语言模型上取得了良好效果。
- 在泰卢固语和印地语中分别排名第4和第2,GLEU评分较高。
- 论文扩展了其他三种语言的实验,并深入探讨了数据质量和评估指标。
- 结果主要突出了小型语言模型的潜力。
- 论文强调了创建适合印度语言的高质量数据集的重要性。
点此查看论文截图
Learning Where, What and How to Transfer: A Multi-Role Reinforcement Learning Approach for Evolutionary Multitasking
Authors:Jiajun Zhan, Zeyuan Ma, Yue-Jiao Gong, Kay Chen Tan
Evolutionary multitasking (EMT) algorithms typically require tailored designs for knowledge transfer, in order to assure convergence and optimality in multitask optimization. In this paper, we explore designing a systematic and generalizable knowledge transfer policy through Reinforcement Learning. We first identify three major challenges: determining the task to transfer (where), the knowledge to be transferred (what) and the mechanism for the transfer (how). To address these challenges, we formulate a multi-role RL system where three (groups of) policy networks act as specialized agents: a task routing agent incorporates an attention-based similarity recognition module to determine source-target transfer pairs via attention scores; a knowledge control agent determines the proportion of elite solutions to transfer; and a group of strategy adaptation agents control transfer strength by dynamically controlling hyper-parameters in the underlying EMT framework. Through pre-training all network modules end-to-end over an augmented multitask problem distribution, a generalizable meta-policy is obtained. Comprehensive validation experiments show state-of-the-art performance of our method against representative baselines. Further in-depth analysis not only reveals the rationale behind our proposal but also provide insightful interpretations on what the system have learned.
进化多任务(EMT)算法通常需要针对知识转移进行定制设计,以确保多任务优化中的收敛性和最优性。在本文中,我们探索通过强化学习设计系统化且可推广的知识转移策略。我们首先确定了三大挑战:确定要转移的任务(哪里)、要转移的知识(什么)和转移的机制(如何)。为了解决这些挑战,我们制定了一个多角色强化学习系统,其中三个(组)政策网络充当专业代理:任务路由代理采用基于注意力的相似性识别模块,通过注意力分数确定源-目标转移对;知识控制代理确定要转移的精英解决方案的比例;一组策略适应代理通过动态控制EMT框架中的超参数来控制转移强度。通过端到端地对增强的多任务问题分布进行所有网络模块的预训练,获得了一个通用的元策略。综合验证实验表明,我们的方法在对代表性基准测试上达到了最先进的性能。进一步的深入分析不仅揭示了我们的提案背后的原理,而且提供了关于系统所学内容的深刻解释。
论文及项目相关链接
Summary
本文探索了通过强化学习设计系统化、可推广的知识转移策略,以解决进化多任务(EMT)算法中的知识转移问题。文章提出了三大挑战,即确定转移任务(哪里)、要转移的知识(什么)和转移机制(如何)。为应对这些挑战,文章提出了一个多角色强化学习系统,其中包含三个(组)策略网络,分别作为专门代理来解决上述问题。通过在一个增强的多任务问题分布上对所有网络模块进行端到端的预训练,获得了一个可推广的元策略。综合验证实验表明,该方法在代表性基线方法上表现出卓越的性能。进一步深入的分析不仅揭示了本文提案的合理性,还提供了关于系统学习内容的深刻解释。
Key Takeaways
- 本文探索了强化学习在进化多任务(EMT)算法中的知识转移策略设计。
- 提出了确定转移任务、要转移的知识和转移机制的三大挑战。
- 设计了一个多角色强化学习系统,包含任务路由代理、知识控制代理和策略适应代理三个专门网络。
- 通过端到端的预训练,获得了一个可推广的元策略。
- 综合验证实验表明该方法在性能上优于代表性基线。
- 深入的分析揭示了提案的合理性,并对系统学习内容提供了深刻解释。
点此查看论文截图
Insert In Style: A Zero-Shot Generative Framework for Harmonious Cross-Domain Object Composition
Authors:Raghu Vamsi Chittersu, Yuvraj Singh Rathore, Pranav Adlinge, Kunal Swami
Reference-based object composition methods fail when inserting real-world objects into stylized domains. This under-explored problem is currently split between practical “blenders” that lack generative fidelity and “generators” that require impractical, per-subject online finetuning. In this work, we introduce Insert In Style, the first zero-shot generative framework that is both practical and high-fidelity. Our core contribution is a unified framework with two key innovations: (i) a novel multi-stage training protocol that disentangles representations for identity, style, and composition, and (ii) a specialized masked-attention architecture that surgically enforces this disentanglement during generation. This approach prevents the concept interference common in general-purpose, unified-attention models. Our framework is trained on a new 100k sample dataset, curated from a novel data pipeline. This pipeline couples large-scale generation with a rigorous, two-stage filtering process to ensure both high-fidelity semantic identity and style coherence. Unlike prior work, our model is truly zero-shot and requires no text prompts. We also introduce a new public benchmark for stylized composition. We demonstrate state-of-the-art performance, significantly outperforming existing methods on both identity and style metrics, a result strongly corroborated by user studies.
基于参考的对象组合方法在将现实世界对象插入到风格化领域时会出现问题。这个尚未被充分探索的问题目前分为实用的“混合器”缺乏生成保真度以及需要不切实际、针对每个主题的在线精细调整的“生成器”。在这项工作中,我们引入了Insert In Style,这是第一个既实用又高度逼真的零样本生成框架。我们的核心贡献是一个统一的框架,具有两项关键创新:首先是新颖的多阶段训练协议,它解开身份、风格和组合的表示;其次是专用的掩模注意力架构,它在生成过程中强制实施这种分离。这种方法避免了通用统一注意力模型中常见的概念干扰。我们的框架是在一个新的10万样本数据集上训练的,该数据集是通过新的数据管道精心挑选的。该管道将大规模生成与严格的两个阶段过滤过程相结合,以确保高保真语义身份和风格连贯性。不同于以前的工作,我们的模型真正实现了零样本,无需文本提示。我们还引入了一个新的公共风格化组合基准测试。我们展示了最先进的性能,在身份和风格指标上都显著优于现有方法,这一结果得到了用户研究的强烈支持。
论文及项目相关链接
Summary
该论文解决了插入现实世界对象到风格化领域时的难题,提出了一种名为Insert In Style的零样本生成框架。该框架具有实用性和高保真度,通过两个阶段进行训练,包括身份、风格和组成表示的分离以及专用的掩膜注意力架构来实现概念干扰的预防。使用新型数据集和严格的两阶段过滤流程进行训练,确保高保真语义身份和风格一致性。无需文本提示即可实现真正的零样本生成,并引入新的风格化组合公共基准测试,在身份和风格指标上均表现出卓越性能。
Key Takeaways
- Insert In Style是首个解决插入现实世界对象到风格化领域的零样本生成框架,兼具实用性和高保真度。
- 框架的核心贡献在于一个两阶段训练协议,实现了身份、风格和组成表示的分离。
- 采用掩膜注意力架构来预防概念干扰,适用于通用集成注意力模型。
- 使用新型数据集进行训练,该数据集通过两阶段过滤流程确保高保真语义身份和风格一致性。
- 模型无需文本提示即可实现真正的零样本生成。
- 引入新的公共基准测试用于评估风格化组合的性能。
点此查看论文截图
HISE-KT: Synergizing Heterogeneous Information Networks and LLMs for Explainable Knowledge Tracing with Meta-Path Optimization
Authors:Zhiyi Duan, Zixing Shi, Hongyu Yuan, Qi Wang
Knowledge Tracing (KT) aims to mine students’ evolving knowledge states and predict their future question-answering performance. Existing methods based on heterogeneous information networks (HINs) are prone to introducing noises due to manual or random selection of meta-paths and lack necessary quality assessment of meta-path instances. Conversely, recent large language models (LLMs)-based methods ignore the rich information across students, and both paradigms struggle to deliver consistently accurate and evidence-based explanations. To address these issues, we propose an innovative framework, HIN-LLM Synergistic Enhanced Knowledge Tracing (HISE-KT), which seamlessly integrates HINs with LLMs. HISE-KT first builds a multi-relationship HIN containing diverse node types to capture the structural relations through multiple meta-paths. The LLM is then employed to intelligently score and filter meta-path instances and retain high-quality paths, pioneering automated meta-path quality assessment. Inspired by educational psychology principles, a similar student retrieval mechanism based on meta-paths is designed to provide a more valuable context for prediction. Finally, HISE-KT uses a structured prompt to integrate the target student’s history with the retrieved similar trajectories, enabling the LLM to generate not only accurate predictions but also evidence-backed, explainable analysis reports. Experiments on four public datasets show that HISE-KT outperforms existing KT baselines in both prediction performance and interpretability.
知识追踪(KT)旨在挖掘学生不断变化的知识状态,并预测他们未来的问答表现。现有基于异质信息网络(HINs)的方法容易因手动或随机选择元路径而引入噪声,并且缺乏对元路径实例的必要质量评估。相反,最近基于大型语言模型(LLMs)的方法忽略了学生之间的丰富信息,这两种范式都难以提供一致准确、有证据支持的解释。为了解决这些问题,我们提出了一种创新框架,即HIN-LLM协同增强知识追踪(HISE-KT),该框架无缝集成了HINs和LLMs。HISE-KT首先构建了一个包含多种节点类型的多关系HIN,通过多个元路径捕捉结构关系。然后采用LLM智能评分和过滤元路径实例,保留高质量路径,率先实现自动化元路径质量评估。受教育心理学原理的启发,基于元路径设计了一种相似学生检索机制,为预测提供更有价值的上下文。最后,HISE-KT使用结构化提示来整合目标学生的历史记录与检索到的相似轨迹,使LLM不仅能够生成准确的预测,而且能够生成有证据支持的可解释分析报告。在四个公共数据集上的实验表明,HISE-KT在预测性能和可解释性方面都优于现有的KT基线。
论文及项目相关链接
Summary
本文介绍了知识追踪(KT)的目标和方法。现有的基于异质信息网络(HINs)的方法容易受到手动或随机选择元路径而引入噪声的影响,缺乏元路径实例的质量评估。而基于大型语言模型(LLMs)的方法忽视了学生之间的丰富信息,两种范式在提供准确和基于证据的解释方面都遇到困难。为解决这些问题,本文提出一种创新的框架HISE-KT,无缝集成HINs和LLMs。HISE-KT首先构建包含多种节点类型的多关系HIN,捕捉通过多个元路径的结构关系。然后采用LLM智能评分和过滤元路径实例,保留高质量路径,开创性地实现自动元路径质量评估。最后,HISE-KT使用结构化提示整合目标学生的历史与相似的轨迹,使LLM能够生成既准确预测又提供基于证据的解释分析报告。实验表明,HISE-KT在预测性能和可解释性方面都优于现有的KT基线。
Key Takeaways
- 知识追踪(KT)旨在挖掘学生的知识状态并预测其未来的问答表现。
- 现有基于异质信息网络(HINs)的方法易引入噪声,缺乏元路径实例的质量评估。
- 大型语言模型(LLMs)的方法忽视了学生间的丰富信息,难以提供准确和基于证据的解释。
- HISE-KT框架无缝集成HINs和LLMs,提高知识追踪的预测性能和解释性。
- HISE-KT构建多关系HIN,捕捉多个元路径的结构关系。
- LLM智能评分和过滤元路径实例,保留高质量路径,实现自动元路径质量评估。
点此查看论文截图
FaultDiffusion: Few-Shot Fault Time Series Generation with Diffusion Model
Authors:Yi Xu, Zhigang Chen, Rui Wang, Yangfan Li, Fengxiao Tang, Ming Zhao, Jiaqi Liu
In industrial equipment monitoring, fault diagnosis is critical for ensuring system reliability and enabling predictive maintenance. However, the scarcity of fault data, due to the rarity of fault events and the high cost of data annotation, significantly hinders data-driven approaches. Existing time-series generation models, optimized for abundant normal data, struggle to capture fault distributions in few-shot scenarios, producing samples that lack authenticity and diversity due to the large domain gap and high intra-class variability of faults. To address this, we propose a novel few-shot fault time-series generation framework based on diffusion models. Our approach employs a positive-negative difference adapter, leveraging pre-trained normal data distributions to model the discrepancies between normal and fault domains for accurate fault synthesis. Additionally, a diversity loss is introduced to prevent mode collapse, encouraging the generation of diverse fault samples through inter-sample difference regularization. Experimental results demonstrate that our model significantly outperforms traditional methods in authenticity and diversity, achieving state-of-the-art performance on key benchmarks.
在工业自动化设备的监控中,故障诊断对确保系统可靠性和实现预测性维护至关重要。然而,由于故障事件稀少和数据标注的高成本,故障数据的稀缺性严重阻碍了数据驱动的方法的应用。现有的时间序列生成模型,针对大量正常数据进行了优化,在少数场景下的故障分布捕捉方面存在困难。由于故障领域的巨大差异和故障的高类内变化,这些模型产生的样本缺乏真实性和多样性。为解决此问题,我们提出了一种基于扩散模型的新型少数故障时间序列生成框架。我们的方法采用正负差异适配器,利用预训练的正常数据分布来建模正常和故障领域之间的差异,以实现准确的故障合成。此外,引入多样性损失来防止模式崩溃,通过样本间差异正则化鼓励生成多样化的故障样本。实验结果表明,我们的模型在真实性和多样性方面显著优于传统方法,并在关键基准测试中达到了最先进的性能。
论文及项目相关链接
PDF 4 figures, 5 tables ,8 pages
Summary
本文提出一种基于扩散模型的新型少样本故障时间序列生成框架,解决了工业设备监测中故障数据稀缺的问题。该框架通过正负差异适配器利用预训练的正常数据分布来建模正常和故障域之间的差异,进行准确的故障合成。同时,引入多样性损失来防止模式崩溃,并通过样本间差异正则化鼓励生成多样化的故障样本。实验结果表明,该模型在真实性和多样性方面显著优于传统方法,并在关键基准测试中达到最新水平。
Key Takeaways
- 现有时间序列生成模型在少样本场景下难以捕捉故障分布。
- 提出的基于扩散模型的新型框架利用正常数据分布建模正常与故障域的差异。
- 正负差异适配器用于准确合成故障样本。
- 引入多样性损失来防止模式崩溃并鼓励生成多样化故障样本。
- 模型在真实性和多样性方面表现优越,达到最新性能水平。
- 该方法对于确保系统可靠性和预测性维护至关重要。
点此查看论文截图
X-WIN: Building Chest Radiograph World Model via Predictive Sensing
Authors:Zefan Yang, Ge Wang, James Hendler, Mannudeep K. Kalra, Pingkun Yan
Chest X-ray radiography (CXR) is an essential medical imaging technique for disease diagnosis. However, as 2D projectional images, CXRs are limited by structural superposition and hence fail to capture 3D anatomies. This limitation makes representation learning and disease diagnosis challenging. To address this challenge, we propose a novel CXR world model named X-WIN, which distills volumetric knowledge from chest computed tomography (CT) by learning to predict its 2D projections in latent space. The core idea is that a world model with internalized knowledge of 3D anatomical structure can predict CXRs under various transformations in 3D space. During projection prediction, we introduce an affinity-guided contrastive alignment loss that leverages mutual similarities to capture rich, correlated information across projections from the same volume. To improve model adaptability, we incorporate real CXRs into training through masked image modeling and employ a domain classifier to encourage statistically similar representations for real and simulated CXRs. Comprehensive experiments show that X-WIN outperforms existing foundation models on diverse downstream tasks using linear probing and few-shot fine-tuning. X-WIN also demonstrates the ability to render 2D projections for reconstructing a 3D CT volume.
胸部X射线摄影(CXR)是疾病诊断的重要医学成像技术。然而,作为二维投影图像,CXR受到结构叠加的限制,无法捕捉三维结构。这一局限性使得表示学习和疾病诊断充满挑战。为了应对这一挑战,我们提出了一种新型的CXR世界模型X-WIN,它通过学习预测潜在空间中胸部计算机断层扫描(CT)的二维投影来提炼体积知识。核心思想是一个具有内部化的三维解剖结构知识的世界模型,可以预测在不同三维空间变换下的CXRs。在投影预测过程中,我们引入了一种基于亲和度的对比对齐损失,利用相互相似性来捕获来自同一体积的投影之间的丰富相关信息。为了提高模型的适应性,我们通过遮罩图像建模将真实CXR纳入训练,并使用域分类器来鼓励真实和模拟CXR的统计表示相似。综合实验表明,X-WIN在采用线性探测和少量微调的情况下,在多种下游任务上的性能优于现有基础模型。此外,X-WIN还展示了生成用于重建三维CT体积的二维投影的能力。
论文及项目相关链接
Summary
CXR(胸部X射线放射摄影)是疾病诊断的重要医学成像技术,但因其为二维投影图像,存在结构叠加的限制,难以捕捉三维解剖结构,使得表征学习和疾病诊断面临挑战。为解决这个问题,本文提出了一种名为X-WIN的新型CXR世界模型,通过学习预测三维胸部计算机断层扫描(CT)的二维投影来提炼体积知识。模型核心思想是具有内部化三维解剖结构知识的世界模型,可以预测在各种三维空间变换下的CXRs。在投影预测过程中,引入基于亲和度的对比对齐损失,利用相互相似性来捕获来自同一体积的投影之间的丰富关联信息。为提高模型适应性,通过掩盖图像建模将真实CXR纳入训练,并采用域分类器鼓励真实和模拟CXRs的统计表示相似。实验表明,X-WIN在多种下游任务上优于现有基础模型,具备通过线性探测和少量样本微调进行渲染的能力,还能重建三维CT体积的二维投影。
Key Takeaways
- CXR作为二维投影图像,存在结构叠加限制,难以捕捉三维解剖结构,影响疾病诊断的准确度。
- 提出了一种新型的CXR世界模型X-WIN,能够通过学习预测三维CT的二维投影来提炼体积知识。
- X-WIN模型核心在于预测不同三维空间变换下的CXRs,具有更强的表征学习能力。
- 引入基于亲和度的对比对齐损失,提高模型在投影预测方面的性能。
- 通过掩盖图像建模和域分类器的方法,提高模型的适应性和泛化能力。
- 实验表明X-WIN在多种下游任务上表现优异,具备线性探测和少量样本微调的能力。
点此查看论文截图
Do Large Language Models (LLMs) Understand Chronology?
Authors:Pattaraphon Kenny Wongchamcharoen, Paul Glasserman
Large language models (LLMs) are increasingly used in finance and economics, where prompt-based attempts against look-ahead bias implicitly assume that models understand chronology. We test this fundamental question with a series of chronological ordering tasks with increasing complexities over facts the model already knows from pre-training. Our tasks cover (1) chronological ordering, (2) conditional sorting (filter, then order), and (3) anachronism detection. We evaluate GPT-4.1, Claude-3.7 Sonnet, with and without Extended Thinking (ET), and GPT-5 across multiple reasoning-effort settings. Across models, Exact match rate drops sharply as sequences lengthen even while rank correlations stay high as LLMs largely preserve local order but struggle to maintain a single globally consistent timeline. In conditional sorting, most failures stem from the filtering step rather than the ordering step, but GPT-5 and Claude-3.7 Sonnet with Extended Thinking outshine normal models significantly. Lastly, anachronism detection is found to be the easiest task for the LLMs but performance still declines with increasingly overlapping timelines or entities. Overall, our main contribution is showing that allocating explicit reasoning budget helps with chronological ordering with GPT-5 at medium/high reasoning effort achieving flawless ordering at all lengths and perfect conditional sorting (both self-filtered and given-subset), whereas low/minimal effort degrades with longer lists, mirroring earlier models. Our findings delineate limits of current LLMs on chronological tasks, providing insights into task complexity, and demonstrate scenarios in which reasoning helps. These patterns are important for the real-time application of LLMs in finance. We release all code and evaluation templates to support full reproducibility.
大型语言模型(LLM)在金融和经济领域的应用越来越广泛,其中基于提示的对抗前瞻偏差的尝试隐含地假设模型能够理解时间顺序。我们通过一系列时间顺序任务来测试这个基本问题,这些任务的复杂度逐渐增加,基于模型在预训练时已经知道的事实。我们的任务包括(1)时间顺序排列,(2)条件排序(先过滤,然后排序),以及(3)年代错误检测。我们评估了GPT-4.1、Claude-3.7 Sonnet在启用和未启用扩展思考(ET)的情况下,以及GPT-5在不同推理努力程度下的表现。
论文及项目相关链接
PDF Version 2: corrected footnote and added code repository link. Extended version of our work presented at the AAAI-26 AI4TS Workshop (poster) and AAAI-26 Student Abstract Program (oral)
Summary
大型语言模型在金融经济学领域的应用中,存在对时间顺序理解的假设。本研究通过一系列按难度递增的时间顺序任务测试模型对此理解的能力。研究内容包括(1)时间顺序排序,(2)条件排序(先筛选后排序),以及(3)年代错误检测。评估了GPT-4.1、Claude-3.7 Sonnet(带扩展思考)以及GPT-5在不同推理难度下的表现。发现即使序列长度增加,精确匹配率急剧下降,但排名相关性仍然保持高位。条件排序中的大多数错误源于筛选步骤而非排序步骤,但GPT-5和带扩展思考的Claude-3.7 Sonnet表现显著优于常规模型。年代错误检测是LLMs最容易完成的任务,但随着时间线或实体的重叠程度增加,性能仍然会下降。总体而言,本研究的主要贡献是显示分配明确的推理预算有助于时间顺序排序,GPT-5在中等/高推理努力下可在所有长度上实现完美排序和条件筛选(包括自我筛选和给定子集),而低/最小努力程度在较长列表上会出现退化现象。本研究的结果揭示了当前LLM在时间顺序任务上的局限性,并为任务复杂性提供了见解,展示了推理有助于的场景。这些模式对于LLM在金融领域的实时应用具有重要意义。
Key Takeaways
- 大型语言模型在金融经济学领域的应用需要理解时间顺序。
- 通过一系列时间顺序任务评估了不同LLM模型的表现。
- 随着序列长度的增加,模型的精确匹配率下降,但排名相关性保持高位。
- 条件排序中的错误主要源于筛选步骤。
- GPT-5和带扩展思考的Claude-3.7 Sonnet在条件排序任务上表现优异。
- 年代错误检测是LLMs最容易完成的任务,但随着时间线或实体的重叠,性能会下降。
- 分配明确的推理预算有助于时间顺序排序任务,GPT-5在中等推理努力下表现最佳。
点此查看论文截图
Point Cloud Quantization through Multimodal Prompting for 3D Understanding
Authors:Hongxuan Li, Wencheng Zhu, Huiying Xu, Xinzhong Zhu, Pengfei Zhu
Vector quantization has emerged as a powerful tool in large-scale multimodal models, unifying heterogeneous representations through discrete token encoding. However, its effectiveness hinges on robust codebook design. Current prototype-based approaches relying on trainable vectors or clustered centroids fall short in representativeness and interpretability, even as multimodal alignment demonstrates its promise in vision-language models. To address these limitations, we propose a simple multimodal prompting-driven quantization framework for point cloud analysis. Our methodology is built upon two core insights: 1) Text embeddings from pre-trained models inherently encode visual semantics through many-to-one contrastive alignment, naturally serving as robust prototype priors; and 2) Multimodal prompts enable adaptive refinement of these prototypes, effectively mitigating vision-language semantic gaps. The framework introduces a dual-constrained quantization space, enforced by compactness and separation regularization, which seamlessly integrates visual and prototype features, resulting in hybrid representations that jointly encode geometric and semantic information. Furthermore, we employ Gumbel-Softmax relaxation to achieve differentiable discretization while maintaining quantization sparsity. Extensive experiments on the ModelNet40 and ScanObjectNN datasets clearly demonstrate the superior effectiveness of the proposed method.
向量量化在大规模多模态模型中已成为一种强大的工具,通过离散令牌编码统一了异质表示。然而,其有效性取决于稳健的代码本设计。当前基于原型的方法依赖于可训练向量或聚类质心,在代表性和解释性方面存在不足,尽管如此,多模态对齐在视觉语言模型中显示出其潜力。为了解决这些局限性,我们提出了一种用于点云分析的多模态提示驱动量化框架。我们的方法建立在两个核心见解之上:1)来自预训练模型的文本嵌入通过多对一对比对齐固有地编码视觉语义,自然地作为稳健的原型先验;2)多模态提示能够自适应地细化这些原型,有效地缓解视觉语言语义差距。该框架引入了一个双约束量化空间,通过紧凑性和分离正则化来强制实施,无缝集成了视觉和原型特征,从而产生混合表示,联合编码几何和语义信息。此外,我们采用Gumbel-Softmax松弛技术实现可微分的离散化,同时保持量化的稀疏性。在ModelNet40和ScanObjectNN数据集上的大量实验清楚地证明了所提方法的卓越有效性。
论文及项目相关链接
PDF Accepted by AAAI 2026. 11 pages, 7 figures
Summary
向量量化在多模态模型中展现出强大的实力,通过离散令牌编码统一了异质表示。本文提出一种简单、多模态提示驱动的点云分析量化框架,解决了现有原型基础方法代表性不足和解释性不强的问题。框架基于两大核心观点,即文本嵌入自然编码视觉语义作为稳健原型先验和多模态提示自适应优化这些原型。通过引入双约束量化空间,结合视觉和原型特征,形成混合表示,同时采用Gumbel-Softmax松弛实现可微分的离散化并保持量化稀疏性。在ModelNet40和ScanObjectNN数据集上的实验证明了该方法的有效性。
Key Takeaways
- 向量量化已成为多模态模型中的有力工具,通过离散令牌编码统一异质表示。
- 现有原型基础方法在代表性和解释性方面存在局限性。
- 本文提出一种简单、多模态提示驱动的量化框架,用于点云分析。
- 文本嵌入自然编码视觉语义作为稳健原型先验。
- 多模态提示自适应优化原型,有效缓解视觉语言语义鸿沟。
- 引入双约束量化空间,结合视觉和原型特征,形成混合表示。
点此查看论文截图
EPSegFZ: Efficient Point Cloud Semantic Segmentation for Few- and Zero-Shot Scenarios with Language Guidance
Authors:Jiahui Wang, Haiyue Zhu, Haoren Guo, Abdullah Al Mamun, Cheng Xiang, Tong Heng Lee
Recent approaches for few-shot 3D point cloud semantic segmentation typically require a two-stage learning process, i.e., a pre-training stage followed by a few-shot training stage. While effective, these methods face overreliance on pre-training, which hinders model flexibility and adaptability. Some models tried to avoid pre-training yet failed to capture ample information. In addition, current approaches focus on visual information in the support set and neglect or do not fully exploit other useful data, such as textual annotations. This inadequate utilization of support information impairs the performance of the model and restricts its zero-shot ability. To address these limitations, we present a novel pre-training-free network, named Efficient Point Cloud Semantic Segmentation for Few- and Zero-shot scenarios. Our EPSegFZ incorporates three key components. A Prototype-Enhanced Registers Attention (ProERA) module and a Dual Relative Positional Encoding (DRPE)-based cross-attention mechanism for improved feature extraction and accurate query-prototype correspondence construction without pre-training. A Language-Guided Prototype Embedding (LGPE) module that effectively leverages textual information from the support set to improve few-shot performance and enable zero-shot inference. Extensive experiments show that our method outperforms the state-of-the-art method by 5.68% and 3.82% on the S3DIS and ScanNet benchmarks, respectively.
针对少样本3D点云语义分割的最新方法通常需要两阶段学习过程,即预训练阶段后跟少数样本训练阶段。虽然这些方法有效,但它们过于依赖预训练,阻碍了模型的灵活性和适应性。一些模型试图避免预训练,但未能捕获充足的信息。此外,当前的方法主要关注支持集中的视觉信息,而忽视或未充分利用其他有用数据,如文本注释。这种对支持信息的不充分利用影响了模型的性能,并限制了其零样本能力。为了解决这些局限性,我们提出了一种新型无预训练网络,名为“Efficient Point Cloud Semantic Segmentation for Few- and Zero-shot scenarios”(高效点云语义分割用于少样本和零样本场景)。我们的EPSegFZ包含三个关键组件。首先是Prototype-Enhanced Registers Attention(ProERA)模块和基于Dual Relative Positional Encoding(DRPE)的交叉注意力机制,用于改进特征提取和准确的查询原型对应关系的构建,无需预训练。其次是Language-Guided Prototype Embedding(LGPE)模块,该模块有效利用支持集中的文本信息,以提高少样本性能并实现零样本推理。大量实验表明,我们的方法在S3DIS和ScanNet基准测试上的表现优于最新方法,分别提高了5.68%和3.82%。
论文及项目相关链接
PDF AAAI 2026
Summary
本文介绍了一种无需预训练的高效点云语义分割网络,名为EPSegFZ。该网络通过引入ProERA模块和DRPE交叉注意力机制提高特征提取能力,构建准确的查询原型对应关系,同时利用支持集中的文本信息,提高少样本性能并实现零样本推理。在S3DIS和ScanNet基准测试上,该方法优于现有技术,分别提高了5.68%和3.82%。
Key Takeaways
- 现有方法需要复杂的两阶段学习过程,包括预训练和少量样本训练,缺乏灵活性和适应性。
- 一些模型试图避免预训练,但未能捕获足够的信息。
- 当前方法过于依赖视觉信息,忽略了其他有用的数据,如文本注释。
- 提出的EPSegFZ网络通过引入ProERA模块和DRPE交叉注意力机制,提高了特征提取能力,无需预训练。
- EPSegFZ利用语言引导原型嵌入(LGPE)模块,有效结合支持集中的文本信息,提升少样本性能并实现零样本推理。
- EPSegFZ在S3DIS和ScanNet基准测试上表现优异,相比现有技术有显著提升。
点此查看论文截图
AGENet: Adaptive Edge-aware Geodesic Distance Learning for Few-Shot Medical Image Segmentation
Authors:Ziyuan Gao
Medical image segmentation requires large annotated datasets, creating a significant bottleneck for clinical applications. While few-shot segmentation methods can learn from minimal examples, existing approaches demonstrate suboptimal performance in precise boundary delineation for medical images, particularly when anatomically similar regions appear without sufficient spatial context. We propose AGENet (Adaptive Geodesic Edge-aware Network), a novel framework that incorporates spatial relationships through edge-aware geodesic distance learning. Our key insight is that medical structures follow predictable geometric patterns that can guide prototype extraction even with limited training data. Unlike methods relying on complex architectural components or heavy neural networks, our approach leverages computationally lightweight geometric modeling. The framework combines three main components: (1) An edge-aware geodesic distance learning module that respects anatomical boundaries through iterative Fast Marching refinement, (2) adaptive prototype extraction that captures both global structure and local boundary details via spatially-weighted aggregation, and (3) adaptive parameter learning that automatically adjusts to different organ characteristics. Extensive experiments across diverse medical imaging datasets demonstrate improvements over state-of-the-art methods. Notably, our method reduces boundary errors compared to existing approaches while maintaining computational efficiency, making it highly suitable for clinical applications requiring precise segmentation with limited annotated data.
医学影像分割需要大量的标注数据集,这成为临床应用的一个重大瓶颈。尽管少数镜头分割方法可以从极少量的样本中学习,但现有的方法在医学影像的精确边界划分上表现并不理想,特别是在出现解剖相似区域而没有足够的空间上下文的情况下。我们提出了AGENet(自适应测地线边缘感知网络),这是一个新的框架,通过边缘感知测地线距离学习融入空间关系。我们的关键见解是,医学结构遵循可预测的几何模式,即使在有限的训练数据下,也能引导原型提取。与其他依赖复杂组件或重型神经网络的方法不同,我们的方法利用计算轻量型的几何建模。该框架结合了三个主要组件:(1)边缘感知测地线距离学习模块,通过迭代快速行进细化来尊重解剖边界;(2)自适应原型提取,通过空间加权聚合捕捉全局结构和局部边界细节;(3)自适应参数学习,可自动适应不同的器官特征。在多种医学影像数据集上的广泛实验表明,我们的方法较最新的方法有所改善。值得注意的是,与现有方法相比,我们的方法在减少边界误差的同时保持了计算效率,使其成为在需要精确分割且标注数据有限的临床应用中非常合适的选择。
论文及项目相关链接
PDF Accepted for publication in WACV 2026 (Round 2)
Summary
医疗图像分割需要大规模标注数据集,这成为临床应用中的瓶颈。针对这一问题,本文提出了一种新型框架AGENet(自适应测地线边缘感知网络),它通过边缘感知测地线距离学习技术来融合空间关系。文章主要观点是医学结构遵循可预测的几何模式,即使训练数据有限,也能引导原型提取。不同其他依赖复杂架构或大型神经网络的方法,AGENet采用计算轻量级的几何建模。该框架包含三个主要部分:尊重解剖边界的边缘感知测地线距离学习模块、通过空间加权聚合捕捉全局结构和局部边界细节的自适应原型提取以及自动适应不同器官特性的自适应参数学习。在多个医学图像数据集上的实验表明,与现有技术相比,本文的方法在减少边界误差的同时保持了计算效率,特别适用于需要精确分割和有限标注数据的临床应用。
Key Takeaways
- 医疗图像分割面临大规模标注数据集的瓶颈。
- AGENet框架通过边缘感知测地线距离学习技术融合空间关系。
- 医学结构遵循可预测的几何模式,引导原型提取。
- AGENet采用计算轻量级的几何建模,包含三个主要部分。
- 尊重解剖边界的边缘感知测地线距离学习模块。
- 自适应原型提取捕捉全局结构和局部边界细节。
点此查看论文截图
Boosting In-Silicon Directed Evolution with Fine-Tuned Protein Language Model and Tree Search
Authors:Yaodong Yang, Yang Wang, Jinpeng Li, Pei Guo, Da Han, Guangyong Chen, Pheng-Ann Heng
Protein evolution through amino acid sequence mutations is a cornerstone of life sciences. While current in-silicon directed evolution algorithms largely focus on designing heuristic search strategies, they overlook how to integrate the transformative protein language models, which encode rich evolutionary patterns, with reinforcement learning to learn to directly evolve proteins. To bridge this gap, we propose AlphaDE, a novel framework to optimize protein sequences by harnessing the innovative paradigms of large language models such as fine-tuning and test-time inference. First, AlphaDE fine-tunes pretrained protein language models using masked language modeling on homologous protein sequences to activate the evolutionary plausibility for the interested protein class. Second, AlphaDE introduces test-time inference based on Monte Carlo tree search, which effectively evolves proteins with evolutionary guidance from the fine-tuned protein language model. Extensive benchmark experiments show that AlphaDE remarkably outperforms previous state-of-the-art methods even with few-shot fine-tuning. A further case study demonstrates that AlphaDE supports condensing the protein sequence space of avGFP through computational evolution.
蛋白质通过氨基酸序列突变进行进化是生命科学的核心。当前,硅基定向进化算法主要关注启发式搜索策略的设计,却忽略了如何结合包含丰富进化模式的蛋白质语言模型与强化学习,来学习直接进化蛋白质。为了弥补这一空白,我们提出了AlphaDE,这是一个利用大型语言模型(如微调与测试时推理)的创新范式来优化蛋白质序列的新型框架。首先,AlphaDE使用同源蛋白质序列的掩码语言建模对预训练的蛋白质语言模型进行微调,以激活所关注蛋白质类别的进化可能性。其次,AlphaDE引入了基于蒙特卡罗树搜索的测试时推理,有效地在来自微调后的蛋白质语言模型的进化指导下进化蛋白质。大量的基准实验表明,即使在少数镜头微调的情况下,AlphaDE也显著优于之前的最先进方法。进一步的案例研究证明,AlphaDE支持通过计算进化凝聚avGFP的蛋白质序列空间。
论文及项目相关链接
PDF working in progress, 26 pages, 6 figures, 16 tables, updated with more baselines and related works
Summary
蛋白质序列通过氨基酸突变进化是生命科学的核心领域之一。当前基于芯片的定向进化算法主要关注启发式搜索策略的设计,忽视了如何整合富含进化模式的蛋白质语言模型与强化学习,以直接进化蛋白质。为了弥补这一空白,我们提出了AlphaDE这一新型框架,利用大型语言模型的精细调整与测试时间推断等创新理念来优化蛋白质序列。AlphaDE首先通过同源蛋白质序列的掩码语言建模对预训练的蛋白质语言模型进行微调,以激活目标蛋白质类别的进化可能性。然后,AlphaDE引入基于蒙特卡洛树搜索的测试时间推断,有效地在蛋白质语言模型的指导下进化蛋白质。基准测试实验表明,即使在微调样本量很少的情况下,AlphaDE也能显著超越当前最先进的算法。进一步的案例研究表明,AlphaDE支持通过计算进化凝聚avGFP的蛋白质序列空间。
Key Takeaways
- AlphaDE是一个新型框架,结合了大型语言模型和强化学习来优化蛋白质序列进化。
- AlphaDE通过微调预训练的蛋白质语言模型,激活目标蛋白质类别的进化可能性。
- AlphaDE引入测试时间推断,基于蒙特卡洛树搜索有效进化蛋白质。
- AlphaDE在基准测试中表现优异,即使少量样本也能超越现有最先进的算法。
- AlphaDE支持通过计算进化凝聚蛋白质序列空间,以avGFP为例进行了展示。
- 当前定向进化算法主要关注启发式搜索策略,而AlphaDE则强调了蛋白质语言模型与强化学习的结合。
点此查看论文截图
Commonality in Few: Few-Shot Multimodal Anomaly Detection via Hypergraph-Enhanced Memory
Authors:Yuxuan Lin, Hanjing Yan, Xuan Tong, Yang Chang, Huanzhen Wang, Ziheng Zhou, Shuyong Gao, Yan Wang, Wenqiang Zhang
Few-shot multimodal industrial anomaly detection is a critical yet underexplored task, offering the ability to quickly adapt to complex industrial scenarios. In few-shot settings, insufficient training samples often fail to cover the diverse patterns present in test samples. This challenge can be mitigated by extracting structural commonality from a small number of training samples. In this paper, we propose a novel few-shot unsupervised multimodal industrial anomaly detection method based on structural commonality, CIF (Commonality In Few). To extract intra-class structural information, we employ hypergraphs, which are capable of modeling higher-order correlations, to capture the structural commonality within training samples, and use a memory bank to store this intra-class structural prior. Firstly, we design a semantic-aware hypergraph construction module tailored for single-semantic industrial images, from which we extract common structures to guide the construction of the memory bank. Secondly, we use a training-free hypergraph message passing module to update the visual features of test samples, reducing the distribution gap between test features and features in the memory bank. We further propose a hyperedge-guided memory search module, which utilizes structural information to assist the memory search process and reduce the false positive rate. Experimental results on the MVTec 3D-AD dataset and the Eyecandies dataset show that our method outperforms the state-of-the-art (SOTA) methods in few-shot settings. Code is available at https://github.com/Sunny5250/CIF.
少样本多模态工业异常检测是一项至关重要但尚未得到充分探索的任务,它具备快速适应复杂工业场景的能力。在少样本设置下,训练样本的不足往往无法覆盖测试样本中存在的各种模式。通过从少量训练样本中提取结构共性,可以缓解这一挑战。在本文中,我们提出了一种基于结构共性、名为CIF(少样本共性)的新型少样本无监督多模态工业异常检测方法。为了提取类内结构信息,我们采用超图来建模高阶关联,以捕捉训练样本中的结构共性,并使用记忆库来存储此类类内结构先验。首先,我们设计了一个针对单语义工业图像的语义感知超图构建模块,从中提取公共结构来引导记忆库的构建。其次,我们采用无需训练的超图消息传递模块来更新测试样本的视觉特征,缩小测试特征与记忆库中特征之间的分布差距。我们进一步提出了超边引导的记忆搜索模块,利用结构信息来辅助记忆搜索过程并降低误报率。在MVTec 3D-AD数据集和Eyecandies数据集上的实验结果表明,我们的方法在少样本设置上优于最新技术方法。代码可在https://github.com/Sunny5250/CIF处获取。
论文及项目相关链接
PDF Accepted by AAAI 2026
Summary
本文提出一种基于结构共性(CIF)的少样本无监督多模态工业异常检测方法。该方法利用超图捕捉训练样本的结构共性,并用内存库存储此类结构先验。此外,它还利用无训练超图消息传递模块更新测试样本的视觉特征,并借助超边引导内存搜索模块来缩小分布差距,降低误报率。在MVTec 3D-AD和Eyecandies数据集上的实验表明,该方法在少样本环境下优于现有技术。
Key Takeaways
- 提出一种基于结构共性的少样本无监督多模态工业异常检测方法。
- 使用超图建模训练样本的结构共性并存储结构先验。
- 通过无训练超图消息传递模块更新测试样本的视觉特征。
- 利用超边引导内存搜索模块缩小分布差距并降低误报率。
- 在MVTec 3D-AD和Eyecandies数据集上的实验验证了该方法的有效性。
- 该方法通过提取结构共性,成功解决了少样本环境下训练样本无法覆盖测试样本多样性的问题。
点此查看论文截图
Model Merging Improves Zero-Shot Generalization in Bioacoustic Foundation Models
Authors:Davide Marincione, Donato Crisostomi, Roberto Dessi, Emanuele Rodolà, Emanuele Rossi
Foundation models capable of generalizing across species and tasks represent a promising new frontier in bioacoustics, with NatureLM being one of the most prominent examples. While its domain-specific fine-tuning yields strong performance on bioacoustic benchmarks, we observe that it also introduces trade-offs in instruction-following flexibility. For instance, NatureLM achieves high accuracy when prompted for either the common or scientific name individually, but its accuracy drops significantly when both are requested in a single prompt. We address this by applying a simple model merging strategy that interpolates NatureLM with its base language model, recovering instruction-following capabilities with minimal loss of domain expertise. Finally, we show that the merged model exhibits markedly stronger zero-shot generalization, achieving over a 200% relative improvement and setting a new state-of-the-art in closed-set zero-shot classification of unseen species.
基础模型能够在跨物种和任务中进行推广,是生物声学领域一个充满希望的新前沿,NatureLM是最突出的例子之一。虽然其在特定领域的微调在生物声学基准测试中表现出卓越的性能,但我们观察到它也产生了指令遵循灵活性的权衡。例如,当被提示使用通用名或学名时,NatureLM可以单独实现高准确性,但当两者都在一个提示中请求时,其准确性会显著降低。我们通过应用简单的模型合并策略来解决这个问题,该策略将NatureLM与其基础语言模型进行插值,以最小的领域专业知识损失恢复指令遵循能力。最后,我们展示了合并模型表现出显著的零样本泛化能力,实现了超过200%的相对改进,并在未见物种的封闭集零样本分类中创造了新的技术状态。
论文及项目相关链接
Summary
自然LM(NatureLM)是生物声学领域通用模型的一个突出例子,它在特定领域微调后能在生物声学基准测试上表现出强大的性能。然而,它在遵循指令的灵活性方面存在权衡。当被要求同时提供常见名称和科学名称时,其准确性会显著下降。通过采用简单的模型合并策略,即将自然LM与其基础语言模型进行插值,我们在保持领域专业知识的同时恢复了指令遵循能力。合并后的模型展现出出色的零样本泛化能力,在未见物种的封闭集零样本分类任务上实现了超过200%的相对改进,并创造了新的最先进的性能记录。
Key Takeaways
- 自然LM是生物声学领域的一个通用模型,特定领域的微调使其能够在基准测试中表现出强大的性能。
- 自然LM在同时处理常见名称和科学名称时存在准确性问题。
- 通过采用简单的模型合并策略,可以恢复模型的指令遵循能力,同时保持其领域专业知识。
- 合并后的模型表现出强大的零样本泛化能力。
- 合并后的模型在未见物种的封闭集零样本分类任务上实现了显著的性能改进。
- 自然LM的改进为生物声学领域带来了新的最先进的性能记录。