⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-11-06 更新
Assessing the value of Geo-Foundational Models for Flood Inundation Mapping: Benchmarking models for Sentinel-1, Sentinel-2, and Planetscope for end-users
Authors:Saurabh Kaushik, Lalit Maurya, Elizabeth Tellman, ZhiJie Zhang
Geo-Foundational Models (GFMs) enable fast and reliable extraction of spatiotemporal information from satellite imagery, improving flood inundation mapping by leveraging location and time embeddings. Despite their potential, it remains unclear whether GFMs outperform traditional models like U-Net. A systematic comparison across sensors and data availability scenarios is still lacking, which is an essential step to guide end-users in model selection. To address this, we evaluate three GFMs, Prithvi 2.0, Clay V1.5, DOFA, and UViT (a Prithvi variant), against TransNorm, U-Net, and Attention U-Net using PlanetScope, Sentinel-1, and Sentinel-2. We observe competitive performance among all GFMs, with only 2-5% variation between the best and worst models across sensors. Clay outperforms others on PlanetScope (0.79 mIoU) and Sentinel-2 (0.70), while Prithvi leads on Sentinel-1 (0.57). In leave-one-region-out cross-validation across five regions, Clay shows slightly better performance across all sensors (mIoU: 0.72(0.04), 0.66(0.07), 0.51(0.08)) compared to Prithvi (0.70(0.05), 0.64(0.09), 0.49(0.13)) and DOFA (0.67(0.07), 0.64(0.04), 0.49(0.09)) for PlanetScope, Sentinel-2, and Sentinel-1, respectively. Across all 19 sites, leave-one-region-out cross-validation reveals a 4% improvement by Clay compared to U-Net. Visual inspection highlights Clay’s superior ability to retain fine details. Few-shot experiments show Clay achieves 0.64 mIoU on PlanetScope with just five training images, outperforming Prithvi (0.24) and DOFA (0.35). In terms of computational time, Clay is a better choice due to its smaller model size (26M parameters), making it ~3x faster than Prithvi (650M) and 2x faster than DOFA (410M). Contrary to previous findings, our results suggest GFMs offer small to moderate improvements in flood mapping accuracy at lower computational cost and labeling effort compared to traditional U-Net.
地理基础模型(GFMs)能够从卫星图像中快速可靠地提取时空信息,利用位置和时间嵌入技术改进洪水淹没地图绘制。尽管其潜力巨大,但尚不清楚GFMs是否优于传统模型(如U-Net)。跨传感器和数据可用性的系统比较仍是一个缺失的环节,这是引导最终用户进行模型选择的关键步骤。为了解决这个问题,我们评估了三种GFMs(Prithvi 2.0、Clay V1.5、DOFA和UViT(Prithvi的一个变体))与TransNorm、U-Net和Attention U-Net在PlanetScope、Sentinel-1和Sentinel-2上的表现。我们发现所有GFMs都表现出竞争力,传感器之间最佳和最差模型之间的差异只有2-5%。Clay在PlanetScope(0.79 mIoU)和Sentinel-2(0.70)上的表现优于其他模型,而Prithvi在Sentinel-1上表现最佳(0.57)。在五地区的留一地区外出交叉验证中,Clay在所有传感器上的表现略好于Prithvi和DOFA(对于PlanetScope、Sentinel-2和Sentinel-1的mIoU分别为:0.72(0.04)、0.66(0.07)、0.51(0.08)、相较于Prithvi的0.70(0.05)、0.64(0.09)、以及DOFA的0.67(0.07)、在所有19个地点中进行的交叉验证表明,与U-Net相比,Clay改进了约百分之四的视觉检查。突显Clay保留细节的能力更胜一筹。少数案例研究表明,仅在五个训练图像的情况下,Clay在PlanetScope上实现达到6IoU)为在卫星影像中实现洪水精细化提取等复杂场景下的机器学习提供了更多的可能性和可行性分析方向。与传统的U-Net相比,我们的结果表明GFMs能够以较低的计算成本和标注工作量提供微小至中等的洪水映射精度改进。
论文及项目相关链接
Summary:
基于地理基础模型(GFMs)能够利用卫星图像的时间和地点嵌入信息,实现洪水淹没地图的快速可靠提取。通过与传统模型如U-Net的比较,GFMs在洪水映射准确性上提供小幅至中等的改进,并降低了计算成本和标注工作量。
Key Takeaways:
- GFMs在洪水淹没地图制作中具有快速可靠提取时空信息的能力。
- 目前尚缺乏关于GFMs与传统模型如U-Net在多种传感器和数据可用情况下的系统比较。
- 在不同传感器和区域进行的测试中,Clay在洪水映射方面表现出较好的性能。
- Few-shot实验表明,Clay在仅使用少量训练图像的情况下仍能保持较高的性能。
- 与其他GFMs和U-Net相比,Clay具有较小的模型尺寸和更快的计算速度。
- GFMs在洪水映射准确性上提供小幅至中等的改进,并降低了计算成本和标注工作量。
- 结果表明,GFMs在洪水地图制作中具有潜力,尤其是在数据有限的情况下。
点此查看论文截图
Bayesian Natural Gradient Fine-Tuning of CLIP Models via Kalman Filtering
Authors:Hossein Abdi, Mingfei Sun, Wei Pan
Vision-language pre-trained models, such as CLIP, have established new benchmarks in multimodal data mining. In such models, few-shot fine-tuning is a major challenge to achieve optimal performance on both in-distribution (ID) and out-of-distribution (OOD) datasets, especially when labeled data is scarce. Most existing fine-tuning approaches rely on first-order gradient-based optimizers, which typically suffer from slow convergence, sensitivity to step-size hyperparameters, and poor generalization in OOD settings. In contrast, second-order methods utilize local curvature information of the loss landscape to adjust the update step size. This is particularly beneficial for CLIP models, whose non-convex loss functions often contain sharp critical points. In such cases, natural gradient direction can offer more substantial and efficient per-iteration updates when fine-tuning with limited data. Natural Gradient Descent (NGD) is obtained by preconditioning the standard gradient with the inverse Fisher Information Matrix (FIM), which is computationally expensive for large models. To address this, we propose a Bayesian approximation of NGD using a Kalman filter for CLIP models. Our method combines the benefits of second-order optimization with Bayesian inference, which enhances generalization while providing uncertainty quantification. Extensive experiments conducted on diverse image classification datasets demonstrate that our algorithm consistently achieves superior–or comparable–ID performance and improved OOD robustness compared to state-of-the-art baselines. To the best of our knowledge, this work represents the first successful application of Kalman filtering to fine-tuning CLIP-based models, which enables more robust and efficient learning in vision-language tasks.
视觉语言预训练模型,如CLIP,已经在多模态数据挖掘中建立了新的基准。在这种模型中,小样本微调是在分布内(ID)和分布外(OOD)数据集上实现最佳性能的重大挑战,尤其是在标签数据稀缺的情况下。大多数现有的微调方法依赖于一阶基于梯度的优化器,通常存在收敛速度慢、对步长超参数敏感以及在OOD设置中的泛化能力差的问题。相比之下,二阶方法利用损失景观的局部曲率信息来调整更新步长。这对于CLIP模型特别有益,其非凸损失函数通常包含尖锐的临界点。在这种情况下,当使用有限数据进行微调时,自然梯度方向可以提供更实质和更有效的每次迭代更新。自然梯度下降(NGD)是通过用逆费雪信息矩阵(FIM)对标准梯度进行预处理而得到的,这对于大型模型来说计算成本很高。为了解决这一问题,我们提出了一种基于卡尔曼滤波的NGD的贝叶斯近似方法,用于CLIP模型。我们的方法结合了二阶优化和贝叶斯推断的优点,提高了泛化能力,同时提供了不确定性量化。在多种图像分类数据集上进行的广泛实验表明,与最先进的基线相比,我们的算法始终实现了更优越或相当的表现,在ID性能上有所提高,并且在OOD设置中表现出更强的稳健性。据我们所知,这项工作是将卡尔曼滤波首次成功应用于基于CLIP的模型的微调,为视觉语言任务提供了更稳健和高效的学习能力。
论文及项目相关链接
Summary
基于CLIP的视觉语言预训练模型在多模态数据挖掘中树立了新标准。针对该模型在少量样本微调时面临挑战,尤其是在数据稀缺的场景下如何在保持内部分布性能的同时优化在外部分布的性能,现有的大多数微调方法依赖一阶梯度优化器,这往往导致收敛缓慢、对步长超参数敏感以及在超出设计场景的通用化不良的问题。相对而言,二阶方法通过使用损失地貌的局部曲率信息调整更新步长特别有利于CLIP模型。本研究将自然梯度方向融入CLIP模型的微调过程中,尤其是利用逆Fisher信息矩阵作为自然梯度下降的前置条件以改善模型训练,计算效率大大提高。本文提出了一种结合二阶优化与贝叶斯推断的Kalman滤波近似自然梯度下降方法用于CLIP模型的方法。广泛的实验数据表明,相比于最新的算法,我们的方法在所有案例中保持了更高的稳定性或更好的表现能力。最重要的是我们的研究成果开创性地将卡尔曼滤波应用于CLIP模型的微调,为视觉语言任务提供了更为稳健和高效的学习途径。简而言之,我们的研究在提升CLIP模型的泛化能力和鲁棒性方面取得了显著成效。
Key Takeaways
- CLIP和其他视觉语言预训练模型在多模态数据挖掘中表现优异,但在少量样本微调时面临挑战。
- 一阶梯度优化器在微调过程中存在收敛缓慢、对超参数敏感以及在新场景下泛化能力弱的问题。
- 二阶方法利用损失地貌的局部曲率信息调整更新步长,对CLIP模型特别有利。
- 自然梯度下降通过逆Fisher信息矩阵前置条件改善模型训练效率。
- 提出结合二阶优化与贝叶斯推断的Kalman滤波近似自然梯度下降新方法应用于CLIP模型微调,大幅提升了模型的泛化能力和鲁棒性。相较于当前顶尖技术有着更佳的性能表现。该方法创新地将卡尔曼滤波引入CLIP模型的微调过程中,为后续视觉语言任务的研究提供了新视角和新方法。
点此查看论文截图
Real-time Continual Learning on Intel Loihi 2
Authors:Elvin Hajizada, Danielle Rager, Timothy Shea, Leobardo Campos-Macias, Andreas Wild, Eyke Hüllermeier, Yulia Sandamirskaya, Mike Davies
AI systems on edge devices face a critical challenge in open-world environments: adapting when data distributions shift and novel classes emerge. While offline training dominates current paradigms, online continual learning (OCL)–where models learn incrementally from non-stationary streams without catastrophic forgetting–remains challenging in power-constrained settings. We present a neuromorphic solution called CLP-SNN: a spiking neural network architecture for Continually Learning Prototypes and its implementation on Intel’s Loihi 2 chip. Our approach introduces three innovations: (1) event-driven and spatiotemporally sparse local learning, (2) a self-normalizing three-factor learning rule maintaining weight normalization, and (3) integrated neurogenesis and metaplasticity for capacity expansion and forgetting mitigation. On OpenLORIS few-shot learning experiments, CLP-SNN achieves accuracy competitive with replay methods while being rehearsal-free. CLP-SNN delivers transformative efficiency gains: 70\times faster (0.33ms vs 23.2ms), and 5,600\times more energy efficient (0.05mJ vs 281mJ) than the best alternative OCL on edge GPU. This demonstrates that co-designed brain-inspired algorithms and neuromorphic hardware can break traditional accuracy-efficiency trade-offs for future edge AI systems.
边缘设备上的AI系统在开放世界环境中面临一个关键挑战:当数据分布发生变化并且出现新型类别时,如何适应这些变化。虽然离线训练是目前的主流范式,但在能源受限的环境中,持续在线学习(OCL)——模型从非平稳数据流中逐步学习而不会发生灾难性遗忘——仍然具有挑战性。我们提出了一种名为CLP-SNN的神经形态解决方案:一种用于持续学习原型的脉冲神经网络架构及其在英特尔Loihi 2芯片上的实现。我们的方法引入了三项创新:(1)事件驱动和时空稀疏局部学习,(2)维持权重标准化的自归一化三因素学习规则,以及(3)集成神经发生和突触可塑性以进行容量扩展和缓解遗忘。在OpenLORIS的少量学习实验中,CLP-SNN的准确率与回放方法相当,且无需回放。CLP-SNN提供了变革性的效率增益:比边缘GPU上最佳的替代OCL快70倍(0.33毫秒对23.2毫秒),并且能效高5600倍(0.05毫焦对281毫焦)。这证明了协同设计的脑启发算法和神经形态硬件可以打破传统的精度-效率权衡,为未来边缘AI系统的发展开辟道路。
论文及项目相关链接
Summary
基于边缘设备的AI系统在开放环境中面临数据分布变化和新兴类别挑战时,需要适应新数据。当前主流是离线训练,但在线持续学习(OCL)在有限的资源环境中依然颇具挑战。本文提出了一种名为CLP-SNN的神经形态解决方案,旨在持续学习原型并实现基于英特尔Loihi 2芯片的原型架构实施。引入三大创新点包括:事件驱动、时空稀疏的本地学习,自我正常化的三因素学习规则及维持权重等化机制集成神经元发生及可塑性功能来增强系统扩展和减少遗忘。在OpenLORIS少样本学习实验中,CLP-SNN的准确率与回放方法相当且无需回放。CLP-SNN实现了显著效率提升,相较于最佳替代方案在边缘GPU上的运行速度提升了70倍(0.33毫秒对比至23.2毫秒),能耗提升达到至更出色的表现。证明了联合设计的脑启发式算法和神经形态硬件能为未来边缘AI系统打破传统的准确度与效率的权衡挑战。总的来说,神经形态算法的使用可实现更好的实时反应能力及性能效率优化,使其成为人工智能领域中很有潜力的应用方向。未来该技术在智能机器人、智能穿戴设备等领域有广阔的应用前景。此外,其在芯片上直接实现的特性也将极大推动人工智能的发展与应用。通过此研究可以看出神经形态计算为人工智能的发展开启了新的篇章。总之,这一创新方案为未来边缘AI系统发展开辟了新路径。总的来说非常值得期待。希望这项技术可以更快地得到推广和应用在实际领域上大放异彩!通过应用这项技术能够在智能穿戴设备和机器人等领域产生广泛的实际应用价值并实现革命性的进步突破提升实际应用性能实现更多应用场景的发展提升智能穿戴设备机器人等的智能水平为人们带来更加便捷的生活体验改变整个行业的竞争格局和市场生态格局朝着更加智能化自动化的方向发展前进促进整个社会经济的持续发展和进步改善人们的生活质量实现人工智能技术的真正价值实现未来的智能化社会变革等等更多精彩的应用前景。值得期待和关注!本文总结如下:该文介绍了一种新型的基于神经形态计算的AI系统解决方案——CLP-SNN。通过该方案在边缘设备上实现了在线持续学习原型,实现了高效率和高准确率的机器学习模型在开放环境中的适应性改进。该方案具有广泛的应用前景和潜力,有望推动人工智能技术的进一步发展和应用推广。同时,该方案也展示了未来边缘AI系统的可能发展方向和挑战。未来该方案有望在智能机器人、智能穿戴设备等领域发挥重要作用推动人工智能技术的普及和发展改变整个行业的竞争格局和市场生态格局等等更多精彩的突破创新值得关注和期待。文中介绍的方案结合了脑启发式算法和神经形态硬件的运用大大提高了机器学习模型的性能和创新程度具备广泛的研究价值和发展前景让我们对未来的发展充满了期待。此次技术的创新与发展是人工智能技术不断前进的一大推动力未来的研究可以更加深入地探索这一领域发掘更多的潜力为人类社会的科技进步和发展贡献力量展现出更加广阔的发展前景和发展空间令人期待未来的发展趋势和技术突破将为我们的生活带来更多的便利和创新性应用!值得关注!本文提出一种基于神经形态计算的AI系统方案用于解决边缘设备在开放环境下持续学习的问题实现高效准确的机器学习模型适应性改进。通过引入事件驱动时空稀疏学习自我正常化的三因素学习规则等创新点实现持续学习原型并且具有较高的性能和效率展现出广泛的应用前景和挑战意义激发了我们对未来边缘AI系统发展的期待关注此项技术的发展能够给我们社会带来更多创新变革的价值并展现出广阔的应用前景值得我们进一步研究和探索为人工智能技术的发展贡献力量推动科技进步!该方案成功解决了传统机器学习算法面临的一系列问题为人工智能的发展带来了全新的机遇和挑战展现出其强大的潜力和应用价值为我们打开了全新的科技大门让人们对未来充满信心充满了无限期待!未来的发展趋势令人瞩目这项技术将继续引领科技前沿的发展潮流不断突破新的技术瓶颈展现出更加广阔的发展空间和无限的创新潜力推动人类社会不断向前发展!让我们共同期待这项技术未来的发展吧!
Key Takeaways
- AI系统在边缘设备面临开放环境下的数据分布变化和新兴类别挑战时存在适应难题。
点此查看论文截图
Privacy Preserving Ordinal-Meta Learning with VLMs for Fine-Grained Fruit Quality Prediction
Authors:Riddhi Jain, Manasi Patwardhan, Aayush Mishra, Parijat Deshpande, Beena Rai
To effectively manage the wastage of perishable fruits, it is crucial to accurately predict their freshness or shelf life using non-invasive methods that rely on visual data. In this regard, deep learning techniques can offer a viable solution. However, obtaining fine-grained fruit freshness labels from experts is costly, leading to a scarcity of data. Closed proprietary Vision Language Models (VLMs), such as Gemini, have demonstrated strong performance in fruit freshness detection task in both zero-shot and few-shot settings. Nonetheless, food retail organizations are unable to utilize these proprietary models due to concerns related to data privacy, while existing open-source VLMs yield sub-optimal performance for the task. Fine-tuning these open-source models with limited data fails to achieve the performance levels of proprietary models. In this work, we introduce a Model-Agnostic Ordinal Meta-Learning (MAOML) algorithm, designed to train smaller VLMs. This approach utilizes meta-learning to address data sparsity and leverages label ordinality, thereby achieving state-of-the-art performance in the fruit freshness classification task under both zero-shot and few-shot settings. Our method achieves an industry-standard accuracy of 92.71%, averaged across all fruits. Keywords: Fruit Quality Prediction, Vision Language Models, Meta Learning, Ordinal Regression
针对易腐水果的浪费问题,使用非侵入性方法(依赖于视觉数据)准确预测其新鲜度或保质期至关重要。在这方面,深度学习技术可以提供可行的解决方案。然而,从专家那里获取精细的水果新鲜度标签成本高昂,导致数据稀缺。封闭的专有视觉语言模型(如Gemini)在零样本和少样本环境中均显示出在水果新鲜度检测任务中的强大性能。然而,由于与数据隐私相关的担忧,食品零售组织无法利用这些专有模型,而现有的开源视觉语言模型在该任务上的表现并不理想。使用有限数据对这些开源模型进行微调也无法达到专有模型的性能水平。在这项工作中,我们引入了一种模型无关的序数元学习(MAOML)算法,旨在训练较小的视觉语言模型。该方法利用元学习来解决数据稀疏问题,并利用标签序数,从而在零样本和少样本环境下在水果新鲜度分类任务中实现最先进的性能。我们的方法在所有水果上的平均行业标准准确率为92.71%。
论文及项目相关链接
PDF 9 pages, 1 figure, 4 tables
Summary
本文探讨了使用非侵入性视觉数据预测易腐水果新鲜度的重要性,并指出深度学习技术为解决此问题提供了可行方案。由于从专家那里获取精细的水果新鲜度标签成本高昂,导致数据稀缺。虽然封闭的专有视觉语言模型(如Gemini)在零样本和少样本环境下表现出强大的水果新鲜度检测性能,但由于数据隐私担忧,食品零售组织无法利用这些模型。同时,现有开源VLMs的性能并不理想。本研究提出了一种模型无关的序数元学习(MAOML)算法,用于训练较小的VLMs。该算法利用元学习和标签序数来解决数据稀疏问题,在水果新鲜度分类任务中实现了零样本和少样本环境下的最新性能。该方法平均准确率为92.71%,达到行业领先水平。
Key Takeaways
- 非侵入性方法利用视觉数据预测水果新鲜度至关重要。
- 深度学习技术在水果新鲜度预测中具有可行性。
- 获取精细的水果新鲜度标签成本高昂,导致数据稀缺。
- 封闭的专有视觉语言模型(如Gemini)在水果新鲜度检测方面表现出强大的性能。
- 食品零售组织因数据隐私担忧无法利用专有模型。
- 现有开源VLMs在水果新鲜度分类任务中的性能不佳。
点此查看论文截图
Learning Intractable Multimodal Policies with Reparameterization and Diversity Regularization
Authors:Ziqi Wang, Jiashun Liu, Ling Pan
Traditional continuous deep reinforcement learning (RL) algorithms employ deterministic or unimodal Gaussian actors, which cannot express complex multimodal decision distributions. This limitation can hinder their performance in diversity-critical scenarios. There have been some attempts to design online multimodal RL algorithms based on diffusion or amortized actors. However, these actors are intractable, making existing methods struggle with balancing performance, decision diversity, and efficiency simultaneously. To overcome this challenge, we first reformulate existing intractable multimodal actors within a unified framework, and prove that they can be directly optimized by policy gradient via reparameterization. Then, we propose a distance-based diversity regularization that does not explicitly require decision probabilities. We identify two diversity-critical domains, namely multi-goal achieving and generative RL, to demonstrate the advantages of multimodal policies and our method, particularly in terms of few-shot robustness. In conventional MuJoCo benchmarks, our algorithm also shows competitive performance. Moreover, our experiments highlight that the amortized actor is a promising policy model class with strong multimodal expressivity and high performance. Our code is available at https://github.com/PneuC/DrAC
传统的连续深度强化学习(RL)算法采用确定性或单峰高斯行动者,无法表达复杂的多峰决策分布。这一局限性可能会阻碍它们在关键多样性场景中的性能。虽然有一些基于扩散或摊销行动者的在线多峰RL算法的设计尝试,但这些行动者难以处理,使得现有方法在性能、决策多样性和效率之间很难达到平衡。为了克服这一挑战,我们首先在一个统一的框架内重新表述现有的难以处理的多峰行动者,并证明它们可以通过再参数化直接由政策梯度进行优化。然后,我们提出了一种基于距离的多样性正则化方法,它不需要明确决策概率。我们确定了两个关键多样性的领域,即多目标实现和生成RL,以展示多峰政策和我们的方法(特别是在少量镜头下的稳健性)的优势。在常规的MuJoCo基准测试中,我们的算法也显示出具有竞争力的性能。此外,我们的实验还强调,摊销行动者是一个具有强大多峰表达能力和高性能的有前途的政策模型类别。我们的代码可在 https://github.com/PneuC/DrAC 找到。
论文及项目相关链接
PDF NeurIPS 2025
Summary
传统连续深度强化学习算法采用确定性或单峰高斯行为者,无法表达复杂的多元决策分布。在关键多样化场景中,这限制了其性能。尽管有一些基于扩散或摊销行为者的在线多元RL算法尝试,但这些行为者难以处理,使得现有方法在性能、决策多样性和效率之间难以平衡。本研究通过统一框架重新制定现有难以处理的多模态行为者,并证明可通过参数化直接优化政策梯度。提出一种基于距离多样性正则化方法,无需明确决策概率。在多目标达成和生成RL两个多样性关键领域中验证了多模态策略及本方法的优势,特别是在小样本稳健性方面。在常规MuJoCo基准测试中,本算法表现出竞争力。实验显示摊销行为者是一个具有强大多元表达力和高性能的潜力政策模型类别。
Key Takeaways
- 传统连续深度强化学习算法使用确定性或单峰高斯行为者,存在表达复杂多元决策分布的局限性。
- 在多样化场景中,该局限性会影响算法性能。
- 有在线多元RL算法的尝试基于难以处理的行为者(如扩散或摊销行为者),使得平衡性能、决策多样性和效率变得困难。
- 本研究通过统一框架重新制定多元行为者,并证明可通过参数化直接优化政策梯度。
- 提出一种基于距离多样性正则化的方法,无需明确决策概率,提高算法性能。
- 在多目标达成和生成RL领域的实验验证了多模态策略的优势,特别是在小样本稳健性方面。
点此查看论文截图
Speech-DRAME: A Framework for Human-Aligned Benchmarks in Speech Role-Play
Authors:Jiatong Shi, Jionghao Han, Yichen Lu, Santiago Pascual, Pengfei Wu, Chenye Cui, Shinji Watanabe, Chao Weng, Cong Zhou
Role-play has become a key testbed for generative models, expanding from text-only dialogue to multimodal interaction. Extending role-play to speech captures prosody, emotion, and delivery, but also poses new evaluation challenges. Current pipelines often use audio large language models (ALLMs) as zero-shot judges, which miss paralinguistic cues, collapse multiple aspects into coarse scores, and rely on synthetic speech references that fail to reflect real-world roles. We present Speech-DRAME, a unified framework that contributes at three levels: (i) Speech-DRAME-EvalBench, an evaluation benchmark with bilingual human-annotated data and protocols for training and testing speech evaluation models (SEMs), (ii) DRAME-Eval, a fine-tuned evaluation model, which substantially outperforms zero-shot and few-shot ALLMs, and (iii) Speech-DRAME-RoleBench, a speech role-play benchmark that leverages DRAME-Eval as an automatic judge to compare speech foundation models (SFMs). Speech-DRAME distinguishes between two complementary evaluation strategies: Archetype Evaluation, a top-down approach measuring adherence to broad role archetypes, and Realism Evaluation, a bottom-up approach grounded in real human speech that emphasizes nuanced role quality. Compared to zero-shot ALLM judges, DRAME-Eval achieves stronger agreement with human ratings (Pearson correlation from 0.480 to 0.629 in archetypes, and 0.390 to 0.625 in realism). By integrating transparent benchmark resources, modeling approaches, and system-level evaluation, Speech-DRAME provides the first comprehensive, reproducible foundation for assessing spoken role-play.
角色扮演已经成为生成模型的关键测试平台,从单纯的文本对话扩展到多模式交互。将角色扮演扩展到语音捕捉了语调、情感和传达,但也带来了新的评估挑战。当前管道经常使用音频大型语言模型(ALLM)作为零样本评估器,这会遗漏副语言线索,将多个方面合并为粗略分数,并且依赖于无法反映真实世界角色的合成语音参考。我们提出了Speech-DRAME,一个贡献了三个层次的统一框架:首先是Speech-DRAME-EvalBench,这是一个评估基准,包含双语人类注释数据和用于训练和测试语音评估模型(SEM)的协议;其次是DRAME-Eval,一个经过精细调整的评估模型,它显著优于零样本和少样本的ALLM;最后是Speech-DRAME-RoleBench,一个语音角色扮演基准,利用DRAME-Eval作为自动裁判来比较语音基础模型(SFM)。Speech-DRAME区分了两种互补的评估策略:原型评估,这是一种自上而下的方法,测量对广泛角色原型的遵循程度;和现实主义评估,这是一种自下而上的方法,基于真实的人类语音,强调细微的角色质量。与零样本ALLM评委相比,DRAME-Eval与人类评分达成更强的共识(在原型中,Pearson相关系数从0.480提高到0.629;在现实主义中,从0.390提高到0.625)。通过整合透明的基准资源、建模方法和系统级评估,Speech-DRAME为评估口语角色扮演提供了第一个全面、可复制的基石。
论文及项目相关链接
PDF 67 pages
摘要
基于生成模型的角色扮演已经从纯文本对话扩展到多媒体交互领域。然而,当扩展到语音捕捉时,对语调、情感和表达的捕捉会带来新的挑战。当前评估方法通常使用零样本的音频大型语言模型(ALLM)作为评估器,但存在忽略非语言线索、将多个方面合并为粗略分数以及依赖无法反映真实世界角色的合成语音参考等问题。本文提出了Speech-DRAME框架,在三个层面上做出贡献:(一)Speech-DRAME-EvalBench评估基准,包含双语人类注释数据和用于训练和测试语音评估模型(SEM)的协议;(二)经过精细训练的DRAME-Eval评估模型,大幅优于零样本和少样本的ALLM;(三)Speech-DRAME-RoleBench语音角色扮演基准,利用DRAME-Eval作为自动评估器来比较语音基础模型(SFM)。Speech-DRAME区分了两种互补的评估策略:原型评估(自上而下衡量对角色原型的遵循程度)和现实性评估(自下而上以真实人类语音为基础,强调角色质量的细微差别)。相较于零样本的ALLM评估器,DRAME-Eval与人类评分的相关性更高(原型相关度从0.48提升到0.629,现实性相关度从0.39提升到0.625)。通过整合透明的基准资源、建模方法和系统级评估,Speech-DRAME为评估口语角色扮演提供了首个全面、可复制的基础。
关键见解
- 角色扮演已成为生成模型的关键测试平台,已从文本扩展到多媒体交互。
- 语音角色扮演的评估面临新的挑战,需要捕捉语调、情感和表达。
- 当前评估方法主要使用零样本的ALLM,存在忽略非语言线索和合成语音参考不真实的问题。
- 提出了Speech-DRAME框架,包括评估基准、精细训练的评估模型和语音角色扮演基准。
- Speech-DRAME区分了两种评估策略:原型评估和现实性评估。
- DRAME-Eval评估模型与人类的评分一致性较高,相比零样本的ALLM有显著改善。
- Speech-DRAME框架为口语角色扮演的评估提供了全面、可复制的基础。
点此查看论文截图
FEval-TTC: Fair Evaluation Protocol for Test-Time Compute
Authors:Pavel Rumiantsev, Soumyasundar Pal, Yingxue Zhang, Mark Coates
The performance of Large Language Models (LLMs) and the associated dollar costs of API calls can fluctuate over time, potentially invalidating conclusions drawn in prior research. To address this, we propose a Fair Evaluation protocol for Test-Time Compute (FEval-TTC), designed to ensure consistent assessment of test-time compute (TTC) methods, regardless of such fluctuations. FEval-TTC focuses on the evaluation of TTC methods that utilize underlying Chains-of-Thought (CoT). It supports evaluations across multiple LLMs on a diverse set of mathematical and commonsense reasoning datasets. The few-shot prompting and answer extraction processes are standardized across datasets, reducing both time and monetary overhead for researchers. Furthermore, we provide a cost modelling procedure that estimates both the token and dollar cost per query, facilitating equitable comparisons of prevalent TTC methods. We open-source FEval-TTC for public use at https://github.com/networkslab/feval_ttc .
大型语言模型(LLM)的性能以及API调用相关的美元成本随时间可能产生波动,这可能会使之前研究中得出的结论失效。为了解决这个问题,我们提出了面向测试时间计算(TTC)的公平评估协议(FEval-TTC),旨在确保对测试时间计算方法的一致评估,无论波动如何。FEval-TTC专注于评估利用底层思维链(CoT)的TTC方法。它支持在多个数学和常识推理数据集上对不同的大型语言模型进行评估。各个数据集中的小样本提示和答案提取流程实现了标准化,减少了研究人员的时间和金钱开销。此外,我们提供了一项成本建模程序,该程序可以估算每个查询的令牌和美元成本,促进公平的TTC方法比较。我们在https://github.com/networkslab/feval_ttc上公开了FEval-TTC供公众使用。
论文及项目相关链接
Summary
该文本主要介绍了针对大型语言模型测试时间计算(TTC)方法的公平评估协议FEval-TTC。FEval-TTC旨在确保在不同时间下对TTC方法的一致性评价,减少由于大型语言模型性能及API调用成本波动带来的影响。它通过标准化少样本提示和答案抽取过程,支持跨多个大型语言模型和多种数学与常识推理数据集的评价。此外,FEval-TTC还提供成本建模程序,估算每个查询的令牌和美元成本,以促进对各种流行TTC方法的公平比较。FEval-TTC已在网络上开源供公众使用。
Key Takeaways
- FEval-TTC是为了解决大型语言模型性能波动和API调用成本变化带来的问题而设计的测试时间计算公平评估协议。
- 该协议支持跨多个大型语言模型和多种数学与常识推理数据集的评价。
- FEval-TTC通过标准化少样本提示和答案抽取过程来确保评价的一致性。
- 它提供了一个成本建模程序,可以估算每个查询的令牌和美元成本。
- FEval-TTC有助于促进对各种流行测试时间计算方法的公平比较。
- 该协议旨在减少研究者在评价大型语言模型时的时间和金钱成本。
点此查看论文截图
ZoFia: Zero-Shot Fake News Detection with Entity-Guided Retrieval and Multi-LLM Interaction
Authors:Lvhua Wu, Xuefeng Jiang, Sheng Sun, Tian Wen, Yuwei Wang, Min Liu
The rapid spread of fake news threatens social stability and public trust, rendering its detection an imperative research priority. Although large language models (LLMs) excel at numerous natural language processing tasks with their remarkable contextual understanding and extensive prior knowledge, the time-bounded knowledge coverage and tendency for generating hallucination content reduce their reliability when handling fast-evolving news streams. Furthermore, models trained on existing static datasets also often lack the generalization needed for emerging news topics. To address these challenges, we propose ZoFia, a novel two-stage zero-shot fake news detection framework. First, we introduce Hierarchical Salience to quantify the importance of entities in the news content, and propose the SC-MMR algorithm to effectively select an informative and diverse set of keywords that serve as queries for retrieving up-to-date external evidence. Subsequently, a multi LLM interactive system, in which each agent assumes a distinct role, performs multi-view collaborative analysis and adversarial debate over the news text and its related information, and finally produces an interpretable and robust judgment. Comprehensive experiments on two public datasets demonstrate that ZoFia obviously outperforms existing zero-shot baselines and most of few-shot methods. Our codes will be open-sourced to facilitate related communities.
虚假新闻的快速传播威胁社会稳定和公众信任,因此其检测成为迫切的研究重点。尽管大型语言模型(LLM)凭借出色的上下文理解和广泛的前期知识,在众多的自然语言处理任务中表现出色,但其知识覆盖的时间限制和产生幻觉内容的倾向,在处理快速演变的新闻流时降低了其可靠性。此外,在现有静态数据集上训练的模型通常缺乏新兴新闻话题所需的泛化能力。为了应对这些挑战,我们提出了ZoFia,这是一个新的两阶段零样本虚假新闻检测框架。首先,我们引入分层显著性来量化新闻内容中实体的重要性,并提出SC-MMR算法有效地选择一组有信息量和多样性的关键词,作为检索最新外部证据的查询。然后,一个多LLM交互系统,其中的每个代理扮演不同的角色,对新闻文本及其相关信息进行多视角协作分析和对抗性辩论,并最终做出可解释和稳健的判断。在两个公共数据集上的综合实验表明,ZoFia明显优于现有的零样本基准线和多数少样本方法。我们的代码将开源,以便相关社区使用。
论文及项目相关链接
Summary
这篇文本探讨的是假新闻对社会稳定和公众信任造成的威胁及其检测的重要性。针对大型语言模型在处理快速变化的新闻流时面临的挑战,如时间受限的知识覆盖和产生幻觉内容的倾向,提出了一个名为ZoFia的两阶段零样本假新闻检测框架。通过引入分层显著性来衡量新闻内容中实体的重要性,并利用SC-MMR算法有效地选择了有信息量且多样化的关键词集作为查询来检索最新的外部证据。此外,还提出了一个多大型语言模型交互系统,该系统内的每个代理都扮演不同的角色,对新闻文本和相关信息进行多视角协同分析和对抗性辩论,最终得出可解释性和稳健性的判断。实验表明,ZoFia明显优于现有的零样本基线以及大多数少样本方法。
Key Takeaways
- 假新闻对社会稳定和公众信任构成威胁,检测假新闻是一项重要的研究任务。
- 大型语言模型在快速变化的新闻流处理中存在挑战,如时间受限的知识覆盖和生成幻觉内容的倾向。
- 提出了一种名为ZoFia的两阶段零样本假新闻检测框架,旨在解决上述问题。
- ZoFia通过引入分层显著性来量化新闻内容中实体的重要性,并利用SC-MMR算法选择关键词进行外部证据检索。
- 多大型语言模型交互系统用于对新闻文本和相关信息进行多视角协同分析和对抗性辩论。
- 实验表明,ZoFia在公共数据集上的表现优于现有的零样本基线和大多数少样本方法。
点此查看论文截图
None To Optima in Few Shots: Bayesian Optimization with MDP Priors
Authors:Diantong Li, Kyunghyun Cho, Chong Liu
Bayesian Optimization (BO) is an efficient tool for optimizing black-box functions, but its theoretical guarantees typically hold in the asymptotic regime. In many critical real-world applications such as drug discovery or materials design, where each evaluation can be very costly and time-consuming, BO becomes impractical for many evaluations. In this paper, we introduce the Procedure-inFormed BO (ProfBO) algorithm, which solves black-box optimization with remarkably few function evaluations. At the heart of our algorithmic design are Markov Decision Process (MDP) priors that model optimization trajectories from related source tasks, thereby capturing procedural knowledge on efficient optimization. We embed these MDP priors into a prior-fitted neural network and employ model-agnostic meta-learning for fast adaptation to new target tasks. Experiments on real-world Covid and Cancer benchmarks and hyperparameter tuning tasks demonstrate that ProfBO consistently outperforms state-of-the-art methods by achieving high-quality solutions with significantly fewer evaluations, making it ready for practical deployment.
贝叶斯优化(BO)是优化黑箱函数的有效工具,但其理论保证通常在渐近情况下才成立。在许多关键的实际应用中,如药物发现或材料设计,每次评估都可能非常昂贵和耗时,因此BO对于许多评估来说变得不切实际。在本文中,我们介绍了过程信息贝叶斯优化(ProfBO)算法,该算法解决了黑箱优化问题,并且函数评估次数大大减少。算法设计的核心在于马尔可夫决策过程(MDP)先验,它模拟了来自相关源任务的优化轨迹,从而捕获了关于高效优化的过程知识。我们将这些MDP先验嵌入到先验拟合神经网络中,并采用模型无关的元学习来快速适应新的目标任务。在现实世界的新冠病毒和癌症基准测试以及超参数调整任务上的实验表明,ProfBO始终优于最新方法,通过显著减少评估次数来实现高质量的解决方案,为实际部署做好准备。
论文及项目相关链接
摘要
贝叶斯优化(BO)是优化黑箱函数的工具,但其理论保证通常在渐近状态下成立。在现实世界的许多关键应用中,如药物发现或材料设计,每次评估都非常昂贵且耗时,BO很难进行多次评估。本文介绍了Procedure-inFormed BO(ProfBO)算法,该算法解决了黑箱优化问题,并具有非常少的函数评估次数。算法设计的核心是马尔可夫决策过程(MDP)先验,它模拟了来自相关源任务的优化轨迹,从而捕获了高效的优化过程知识。我们将这些MDP先验嵌入到先验拟合神经网络中,并利用模型无关的元学习快速适应新的目标任务。在现实世界的新冠肺炎、癌症基准测试和超参数调整任务上的实验表明,ProfBO始终优于最先进的方法,通过显著较少的评估次数实现高质量的解决方案,为实际应用部署做好准备。
关键见解
- 贝叶斯优化(BO)是优化黑箱函数的工具,但在现实世界的许多应用中,由于其理论保证仅在渐近状态下成立,且评估成本高昂,其实用性受限。
- 本文提出了Procedure-inFormed BO(ProfBO)算法,该算法通过模拟相关源任务的优化轨迹来捕获高效的优化过程知识,从而解决了黑箱优化问题。
- ProfBO算法的核心是马尔可夫决策过程(MDP)先验,这些先验被嵌入到先验拟合神经网络中。
- ProfBO利用模型无关的元学习快速适应新的目标任务。
- 实验表明,在现实世界的新冠肺炎、癌症基准测试和超参数调整任务上,ProfBO优于现有最先进的方法。
- ProfBO能够以显著更少的评估次数实现高质量的解决方案,使其适合实际应用部署。
点此查看论文截图
The Riddle of Reflection: Evaluating Reasoning and Self-Awareness in Multilingual LLMs using Indian Riddles
Authors:Abhinav P M, Ojasva Saxena, Oswald C, Parameswari Krishnamurthy
The extent to which large language models (LLMs) can perform culturally grounded reasoning across non-English languages remains underexplored. This paper examines the reasoning and self-assessment abilities of LLMs across seven major Indian languages-Bengali, Gujarati, Hindi, Kannada, Malayalam, Tamil, and Telugu. We introduce a multilingual riddle dataset combining traditional riddles with context-reconstructed variants and evaluate five LLMs-Gemini 2.5 Pro, Gemini 2.5 Flash, Mistral-Saba, LLaMA 4 Scout, and LLaMA 4 Maverick-under seven prompting strategies. In the first stage, we assess riddle-solving performance and find that while Gemini 2.5 Pro performs best overall, few-shot methods yield only marginal gains, and accuracy varies notably across languages. In the second stage, we conduct a self-evaluation experiment to measure reasoning consistency. The results reveal a key finding: a model’s initial accuracy is inversely correlated with its ability to identify its own mistakes. Top-performing models such as Gemini 2.5 Pro are overconfident (4.34% True Negative Rate), whereas lower-performing models like LLaMA 4 Scout are substantially more self-aware (42.09% True Negative Rate). These results point to clear gaps in multilingual reasoning and highlight the need for models that not only reason effectively but also recognize their own limitations.
大型语言模型(LLM)在非英语环境中进行文化推理的能力尚未完全探索。本文对LLM在印度主要七种语言(孟加拉语、古吉拉特语、印地语、坎纳拉语、马拉亚拉姆语、泰米尔语和泰卢固语)的推理和自我评价能力进行了研究。我们引入了一个多语言谜题数据集,结合了传统谜题和上下文重构的变体,并评估了五种LLM——Gemini 2.5 Pro、Gemini 2.5 Flash、Mistral-Saba、LLaMA 4 Scout和LLaMA 4 Maverick,采用七种提示策略。在第一阶段,我们评估了解谜性能,发现虽然Gemini 2.5 Pro总体表现最佳,但少样本方法只带来微弱提升,且不同语言之间的准确率差异显著。在第二阶段,我们进行了一项自我评价实验,以衡量推理一致性。结果揭示了一个关键发现:模型的初始准确率与其识别自身错误的能力呈负相关。表现最佳的模型如Gemini 2.5 Pro过于自信(真阴性率为4.34%),而表现较差的模型如LLaMA 4 Scout则更具自我意识(真阴性率为42.09%)。这些结果指出了多语言推理的明显差距,并强调需要模型不仅进行有效推理,还能认识到自身的局限性。
论文及项目相关链接
Summary
大型语言模型(LLMs)在非英语文化背景下的推理能力研究尚待深入。本研究针对印度七种主要语言的LLMs的推理和自评能力进行了评估,包括孟加拉语、古吉拉特语、印地语等。通过引入多语言谜题数据集,对五款LLMs进行了测试,包括Gemini 2.5 Pro等在内的不同模型表现不一。研究发现,尽管Gemini 2.5 Pro总体表现最佳,但少样本方法带来的提升有限,且准确率在不同语言间存在较大差异。此外,模型的初始准确率与其识别自身错误的能力呈负相关,表明当前LLMs在多语种推理方面存在明显不足,需要既能够高效推理又能识别自身局限性的模型。
Key Takeaways
- 大型语言模型(LLMs)在非英语文化背景下的推理能力研究尚不充分。
- 在印度七种主要语言环境下对LLMs的推理和自评能力进行了评估。
- Gemini 2.5 Pro在总体评估中表现最佳,但少样本方法的提升有限。
- 不同语言间LLMs的准确率存在较大差异。
- 模型的初始准确率与其识别自身错误的能力呈负相关。
- 当前LLMs在多语种推理方面存在明显不足。
点此查看论文截图
Real-IAD Variety: Pushing Industrial Anomaly Detection Dataset to a Modern Era
Authors:Wenbing Zhu, Chengjie Wang, Bin-Bin Gao, Jiangning Zhang, Guannan Jiang, Jie Hu, Zhenye Gan, Lidong Wang, Ziqing Zhou, Linjie Cheng, Yurui Pan, Bo Peng, Mingmin Chi, Lizhuang Ma
Industrial Anomaly Detection (IAD) is critical for enhancing operational safety, ensuring product quality, and optimizing manufacturing efficiency across global industries. However, the IAD algorithms are severely constrained by the limitations of existing public benchmarks. Current datasets exhibit restricted category diversity and insufficient scale, frequently resulting in metric saturation and limited model transferability to real-world scenarios. To address this gap, we introduce Real-IAD Variety, the largest and most diverse IAD benchmark, comprising 198,960 high-resolution images across 160 distinct object categories. Its diversity is ensured through comprehensive coverage of 28 industries, 24 material types, and 22 color variations. Our comprehensive experimental analysis validates the benchmark’s substantial challenge: state-of-the-art multi-class unsupervised anomaly detection methods experience significant performance degradation when scaled from 30 to 160 categories. Crucially, we demonstrate that vision-language models exhibit remarkable robustness to category scale-up, with minimal performance variation across different category counts, significantly enhancing generalization capabilities in diverse industrial contexts. The unprecedented scale and complexity of Real-IAD Variety position it as an essential resource for training and evaluating next-generation foundation models for anomaly detection. By providing this comprehensive benchmark with rigorous evaluation protocols across multi-class unsupervised, multi-view, and zero-/few-shot settings, we aim to accelerate research beyond domain-specific constraints, enabling the development of scalable, general-purpose anomaly detection systems. Real-IAD Variety will be made publicly available to facilitate innovation in this critical field.
工业异常检测(IAD)对于提高全球工业的运行安全、确保产品质量以及优化制造效率至关重要。然而,IAD算法受到现有公共基准测试的限制。当前数据集表现出类别多样性有限和规模不足的问题,经常导致指标饱和以及模型在现实场景中的可迁移性受限。为了解决这一差距,我们推出了Real-IAD Variety,这是最大且最具多样性的IAD基准测试,包含160个不同对象类别的198,960张高分辨率图像。其多样性通过涵盖28个行业、24种材料类型和22种颜色变化得到保障。我们的综合实验分析验证了该基准测试具有很大挑战性:当从30个类别扩展到160个类别时,最先进的多元无监督异常检测方法会出现显著的性能下降。关键的是,我们证明视觉语言模型对类别扩展具有惊人的稳健性,不同类别数量下的性能变化极小,从而显著提高了在不同工业环境中的泛化能力。Real-IAD Variety前所未有的规模和复杂性使其成为训练和评估下一代异常检测基础模型的重要资源。通过提供这一全面的基准测试以及跨多类无监督、多视角和零样本/小样本设置的严格评估协议,我们的目标是加速突破领域特定约束的研究,推动开发可扩展的、通用的异常检测系统。Real-IAD Variety将公开提供,以促进这一关键领域的创新。
论文及项目相关链接
PDF 13 pages, 4 figures and 5 tables
Summary
本文介绍了工业异常检测(IAD)的重要性及其面临的挑战。为解决现有公共基准数据的局限性,提出Real-IAD Variety基准数据,包含198,960张高分辨率图像,涵盖160个不同对象类别。实验分析表明,该基准数据对多类无监督异常检测方法构成挑战,而视觉语言模型在类别扩展上表现出卓越稳健性。Real-IAD Variety为异常检测下一代基础模型的训练和评估提供了关键资源。
Key Takeaways
- 工业异常检测(IAD)对于提高操作安全、确保产品质量和优化制造效率至关重要。
- 现有IAD算法受到公共基准数据的限制,需要更大规模和多样化的数据集。
- Real-IAD Variety是最大且最多样化的IAD基准数据,包含198,960张图像,涵盖160个不同对象类别,确保涵盖28个行业、24种材料和22种颜色变化。
- 现有异常检测方法面临从30到160类别的扩展挑战,性能显著下降。
- 视觉语言模型在类别扩展上表现出卓越稳健性,增强在不同工业背景下的泛化能力。
- Real-IAD Variety为异常检测的下一代基础模型的训练和评估提供了关键资源。
点此查看论文截图
Few-Shot Learning from Gigapixel Images via Hierarchical Vision-Language Alignment and Modeling
Authors:Bryan Wong, Jong Woo Kim, Huazhu Fu, Mun Yong Yi
Vision-language models (VLMs) have recently been integrated into multiple instance learning (MIL) frameworks to address the challenge of few-shot, weakly supervised classification of whole slide images (WSIs). A key trend involves leveraging multi-scale information to better represent hierarchical tissue structures. However, existing methods often face two key limitations: (1) insufficient modeling of interactions within the same modalities across scales (e.g., 5x and 20x) and (2) inadequate alignment between visual and textual modalities on the same scale. To address these gaps, we propose HiVE-MIL, a hierarchical vision-language framework that constructs a unified graph consisting of (1) parent-child links between coarse (5x) and fine (20x) visual/textual nodes to capture hierarchical relationships, and (2) heterogeneous intra-scale edges linking visual and textual nodes on the same scale. To further enhance semantic consistency, HiVE-MIL incorporates a two-stage, text-guided dynamic filtering mechanism that removes weakly correlated patch-text pairs, and introduces a hierarchical contrastive loss to align textual semantics across scales. Extensive experiments on TCGA breast, lung, and kidney cancer datasets demonstrate that HiVE-MIL consistently outperforms both traditional MIL and recent VLM-based MIL approaches, achieving gains of up to 4.1% in macro F1 under 16-shot settings. Our results demonstrate the value of jointly modeling hierarchical structure and multimodal alignment for efficient and scalable learning from limited pathology data. The code is available at https://github.com/bryanwong17/HiVE-MIL.
视觉语言模型(VLMs)最近已被纳入多实例学习(MIL)框架,以解决对全幻灯片图像(WSI)进行少量、弱监督分类的挑战。一种关键趋势是运用多尺度信息来更好地表示层次化的组织结构。然而,现有方法通常面临两个主要局限性:(1)同一模态内不同尺度(例如,5倍和20倍)之间交互的建模不足;(2)同一尺度上视觉和文本模态之间对齐不足。为了解决这些差距,我们提出了HiVE-MIL,这是一个层次化的视觉语言框架,它构建了一个统一图,包括(1)粗尺度(5倍)和细尺度(20倍)视觉/文本节点之间的父子链接,以捕捉层次关系,以及(2)同一尺度上连接视觉和文本节点的异构尺度内边缘。为了进一步增强语义一致性,HiVE-MIL采用了一种两阶段的文本引导动态过滤机制,该机制可以消除弱相关的补丁-文本对,并引入层次对比损失以对齐不同尺度的文本语义。在TCGA乳腺癌、肺癌和肾癌数据集上的大量实验表明,HiVE-MIL始终优于传统的MIL方法和最新的基于VLM的MIL方法,在16个样本的情况下,宏F1得分提高了高达4.1%。我们的结果证明了联合建模层次结构和多模态对齐对于从有限的病理数据中实现高效和可扩展学习的价值。代码可在https://github.com/bryanwong17/HiVE-MIL上找到。
论文及项目相关链接
PDF Accepted at NeurIPS 2025
Summary
该文本介绍了一种新型的视野层级化视觉语言模型(HiVE-MIL),用于解决少数病例的弱监督分类问题。HiVE-MIL模型结合了多尺度信息,建立了一个统一的图谱结构,通过构建粗尺度(如5倍放大)和精细尺度(如20倍放大)之间的层次关系,实现了跨尺度的互动建模以及视觉和文本模态之间的对齐。该模型还采用了两阶段的文本引导动态过滤机制和层次对比损失,以提高语义一致性。在多个癌症数据集上的实验表明,HiVE-MIL模型在宏观F1得分上优于传统的MIL模型和最新的VLM-based MIL方法,在16个样本点设置下提升了高达4.1%。这一研究展示了联合建模层次结构和多模态对齐对于有限病理学数据的有效性和可伸缩性学习的价值。
Key Takeaways
- HiVE-MIL结合了多尺度信息来解决少数病例的弱监督分类问题。
- 模型建立了统一的图谱结构,包括跨尺度的父子链接和同一尺度上的异种内尺度边缘,以捕捉视觉和文本节点之间的层次关系。
- 通过两阶段的文本引导动态过滤机制和层次对比损失提高语义一致性。
- 模型解决了现有方法中的两个关键局限性:同一尺度内模态间交互建模不足以及视觉和文本模态间的不对齐问题。
- 在多个癌症数据集上的实验表明,HiVE-MIL模型性能优越,特别是在宏观F1得分上。
- 研究结果表明联合建模层次结构和多模态对齐对于有效和可扩展的学习至关重要,尤其是对于有限的病理学数据。
点此查看论文截图
Words That Unite The World: A Unified Framework for Deciphering Central Bank Communications Globally
Authors:Agam Shah, Siddhant Sukhani, Huzaifa Pardawala, Saketh Budideti, Riya Bhadani, Rudra Gopal, Siddhartha Somani, Rutwik Routu, Michael Galarnyk, Soungmin Lee, Arnav Hiray, Akshar Ravichandran, Eric Kim, Pranav Aluru, Joshua Zhang, Sebastian Jaskowski, Veer Guda, Meghaj Tarte, Liqin Ye, Spencer Gosden, Rachel Yuh, Sloka Chava, Sahasra Chava, Dylan Patrick Kelly, Aiden Chiang, Harsit Mittal, Sudheer Chava
Central banks around the world play a crucial role in maintaining economic stability. Deciphering policy implications in their communications is essential, especially as misinterpretations can disproportionately impact vulnerable populations. To address this, we introduce the World Central Banks (WCB) dataset, the most comprehensive monetary policy corpus to date, comprising over 380k sentences from 25 central banks across diverse geographic regions, spanning 28 years of historical data. After uniformly sampling 1k sentences per bank (25k total) across all available years, we annotate and review each sentence using dual annotators, disagreement resolutions, and secondary expert reviews. We define three tasks: Stance Detection, Temporal Classification, and Uncertainty Estimation, with each sentence annotated for all three. We benchmark seven Pretrained Language Models (PLMs) and nine Large Language Models (LLMs) (Zero-Shot, Few-Shot, and with annotation guide) on these tasks, running 15,075 benchmarking experiments. We find that a model trained on aggregated data across banks significantly surpasses a model trained on an individual bank’s data, confirming the principle “the whole is greater than the sum of its parts.” Additionally, rigorous human evaluations, error analyses, and predictive tasks validate our framework’s economic utility. Our artifacts are accessible through the HuggingFace and GitHub under the CC-BY-NC-SA 4.0 license.
世界各地的中央银行在维持经济稳定方面发挥着至关重要的作用。解读其公告中的政策内涵至关重要,因为误解可能会给脆弱人群带来不成比例的影响。针对这一问题,我们推出了全球中央银行(WCB)数据集,这是迄今为止最全面的货币政策语料库,包含来自25个中央银行不同地理区域的超过38万句话,涵盖28年的历史数据。通过对每个银行均匀抽样1000句话(总共25000句),涵盖所有可用年份,我们使用两位注释者、争议解决方案和二次专家评审来对每一句话进行注释和评审。我们定义了三个任务:立场检测、时间分类和不确定性估计,每个句子都会被注释这三个方面的信息。我们对七个预训练语言模型(PLMs)和九个大型语言模型(LLMs)(零样本、少样本和带注释指南)进行了这些任务的基准测试,共进行了15075次基准测试实验。我们发现,基于跨银行聚合数据训练的模型显著优于仅基于单个银行数据训练的模型,这证实了“整体大于部分之和”的原则。此外,严格的人类评估、误差分析和预测任务验证了我们框架的经济实用性。我们的成果可以通过HuggingFace和GitHub以CC-BY-NC-SA 4.0许可证获取。
论文及项目相关链接
PDF Accepted at NeurIPS 2025 (main conference)
Summary
本文介绍了世界中央银行(WCB)数据集的重要性和作用,该数据集包含来自不同地理区域的25家中央银行的数据,用于解读货币政策中的政策含义。该数据集涵盖多年历史数据,并进行了详尽的标注和审查。同时介绍了针对该数据集的三个任务及对该数据集的基准测试情况。整体上,通过“整体优于部分之和”的原则训练得到的模型性能更好。同时文章提供了详细的许可证下可供公众使用的渠道。此摘要包含了关键信息,简洁明了。
Key Takeaways
点此查看论文截图
AutoPDL: Automatic Prompt Optimization for LLM Agents
Authors:Claudio Spiess, Mandana Vaziri, Louis Mandel, Martin Hirzel
The performance of large language models (LLMs) depends on how they are prompted, with choices spanning both the high-level prompting pattern (e.g., Zero-Shot, CoT, ReAct, ReWOO) and the specific prompt content (instructions and few-shot demonstrations). Manually tuning this combination is tedious, error-prone, and specific to a given LLM and task. Therefore, this paper proposes AutoPDL, an automated approach to discovering good LLM agent configurations. Our approach frames this as a structured AutoML problem over a combinatorial space of agentic and non-agentic prompting patterns and demonstrations, using successive halving to efficiently navigate this space. We introduce a library implementing common prompting patterns using the PDL prompt programming language. AutoPDL solutions are human-readable, editable, and executable PDL programs that use this library. This approach also enables source-to-source optimization, allowing human-in-the-loop refinement and reuse. Evaluations across three tasks and seven LLMs (ranging from 3B to 70B parameters) show consistent accuracy gains ($9.21\pm15.46$ percentage points), up to 67.5pp, and reveal that selected prompting strategies vary across models and tasks.
大型语言模型的性能取决于如何对其进行提示,提示的选择范围包括高级提示模式(例如Zero-Shot、CoT、ReAct、ReWOO)和特定提示内容(指令和少量示例)。手动调整这种结合方式既繁琐又容易出现错误,而且仅限于特定的语言模型和任务。因此,本文提出了AutoPDL,一种发现良好语言模型代理配置的自动化方法。我们的方法将其构建为一个结构化自动机器学习问题,涉及代理和非代理提示模式的组合空间,并使用连续减半法有效地遍历这个空间。我们引入了一个使用PDL提示编程语言的库来实现常见的提示模式。AutoPDL解决方案是可读、可编辑和可执行的PDL程序,使用此库。这种方法还实现了源到源的优化,允许人类参与循环优化和重用。在三个任务和七个语言模型(从3B到70B参数)上的评估显示,准确率持续提高(9.21±15.46个百分点),最高达67.5个百分点,并且表明所选的提示策略因模型和任务而异。
论文及项目相关链接
PDF An earlier version of this paper was published in AutoML 2025 Methods Track. This version adds missing standard deviations in Table 1
Summary
大型语言模型的性能取决于如何提示它们,包括高级提示模式(如零样本、CoT、ReAct、ReWOO)和特定提示内容(指令和少量示例)。手动调整这种组合很繁琐,且易出错,针对特定的大型语言模型和任务。因此,本文提出了AutoPDL,一种用于发现良好大型语言模型代理配置的自动化方法。将这个问题表述为一个结构化自动机器学习问题,在代理和非代理提示模式和演示的组合空间中高效导航。引入一个使用PDL提示编程语言的常见提示模式库。AutoPDL解决方案是可读、可编辑和可执行的人类可读PDL程序,使用此库。这种方法还实现了源到源的优化,允许人类参与改进和重用。在三个任务和七个大型语言模型(从3B到70B参数)上的评估显示,准确率有持续的提高(9.21±15.46个百分点),最高达67.5个百分点,且选择的提示策略因模型和任务而异。
Key Takeaways
- 大型语言模型的性能受提示方式影响,包括高级提示模式和具体提示内容。
- 手动调整提示组合既繁琐又易出错,需要针对特定的大型语言模型和任务。
- 提出了一种自动化方法AutoPDL,用于发现良好的大型语言模型代理配置。
- 将问题表述为结构化自动机器学习问题,在代理和非代理提示模式和演示的组合空间中高效导航。
- 引入了使用PDL提示编程语言的常见提示模式库,使解决方案更加人类可读、可编辑和可执行。
- AutoPDL实现了源到源的优化,允许人类的参与改进和重用。
点此查看论文截图
Large Language Models are Unreliable for Cyber Threat Intelligence
Authors:Emanuele Mezzi, Fabio Massacci, Katja Tuma
Several recent works have argued that Large Language Models (LLMs) can be used to tame the data deluge in the cybersecurity field, by improving the automation of Cyber Threat Intelligence (CTI) tasks. This work presents an evaluation methodology that other than allowing to test LLMs on CTI tasks when using zero-shot learning, few-shot learning and fine-tuning, also allows to quantify their consistency and their confidence level. We run experiments with three state-of-the-art LLMs and a dataset of 350 threat intelligence reports and present new evidence of potential security risks in relying on LLMs for CTI. We show how LLMs cannot guarantee sufficient performance on real-size reports while also being inconsistent and overconfident. Few-shot learning and fine-tuning only partially improve the results, thus posing doubts about the possibility of using LLMs for CTI scenarios, where labelled datasets are lacking and where confidence is a fundamental factor.
近期有几项研究指出,大型语言模型(LLM)可以通过提升网络威胁情报(CTI)任务的自动化程度,来应对网络安全领域的数据洪流。本研究提出了一种评估方法,除了测试CTI任务中的零样本学习、少样本学习和微调使用大型语言模型的情况外,还允许对其一致性和置信水平进行量化。我们使用最先进的三个大型语言模型和包含350份威胁情报报告的数据集进行实验,并提供了依赖大型语言模型进行CTI工作可能带来的潜在安全风险的新证据。我们展示了大型语言模型无法保证在真实大小的报告上实现足够性能的同时,还存在不一致和过度自信的问题。少样本学习和微调只能部分改善结果,因此对缺乏标签数据集且置信度是基本因素的CTI场景使用大型语言模型的可行性提出了质疑。
论文及项目相关链接
Summary
大型语言模型(LLMs)在网络安全领域的应用受到关注,可以改善网络威胁情报(CTI)任务的自动化处理。本文提出了一种评估方法,不仅可以测试LLMs在CTI任务中的表现,包括零样本学习、少样本学习和微调,还可以量化其一致性和置信水平。通过对三款最先进的LLMs和包含350份威胁情报报告的数据集进行实验,本文提供了依赖LLMs进行CTI可能存在的潜在安全风险的新证据。结果显示,LLMs无法保证在真实报告上的性能,存在不一致和过度自信的问题。少样本学习和微调只能部分改善结果,因此对缺乏标签数据集和需要高度自信的CTI场景的使用提出了质疑。
Key Takeaways
- 大型语言模型(LLMs)在网络安全领域具有潜力,能够改善网络威胁情报(CTI)任务的自动化处理。
- 本文提出了一种评估LLMs在CTI任务中表现的评估方法,包括零样本学习、少样本学习和微调,并能量化其一致性和置信水平。
- 实验显示LLMs在处理真实规模的报告时表现不足,存在性能不稳定和过度自信的问题。
- 少样本学习和微调方法只能部分改善LLMs在CTI任务中的表现。
- 依赖LLMs进行CTI存在潜在的安全风险。
- 在缺乏标签数据集和需要高度自信的CTI场景中,使用LLMs的可行性受到质疑。
点此查看论文截图
Multi-Step Reasoning with Large Language Models, a Survey
Authors:Aske Plaat, Annie Wong, Suzan Verberne, Joost Broekens, Niki van Stein, Thomas Back
Large language models (LLMs) with billions of parameters exhibit in-context learning abilities, enabling few-shot learning on tasks that the model was not specifically trained for. Traditional models achieve breakthrough performance on language tasks, but do not perform well on basic reasoning benchmarks. However, a new in-context learning approach, Chain-of-thought, has demonstrated strong multi-step reasoning abilities on these benchmarks. The research on LLM reasoning abilities started with the question whether LLMs can solve grade school math word problems, and has expanded to other tasks in the past few years. This article reviews the field of multi-step reasoning with LLMs. We propose a taxonomy that identifies different ways to generate, evaluate, and control multi-step reasoning. We provide an in-depth coverage of core approaches and open problems, and we propose a research agenda for the near future. We find that multi-step reasoning approaches have progressed beyond math word problems, and can now successfully solve challenges in logic, combinatorial games, and robotics, sometimes by first generating code that is then executed by external tools. Many studies in multi-step methods use reinforcement learning for finetuning, external optimization loops, in-context reinforcement learning, and self-reflection.
大型语言模型(LLM)拥有数十亿参数,展现出上下文学习能力,能够在未专门训练的任务上实现少量学习。传统模型在语言任务上取得了突破性进展,但在基本推理基准测试上的表现并不出色。然而,一种新的上下文学习方法——思维链(Chain-of-thought)在这些基准测试中表现出了强大的多步推理能力。关于LLM推理能力的研究始于LLM是否能解决小学数学应用题的问题,并在过去几年中扩展到了其他任务。本文综述了使用LLM进行多步推理的领域。我们提出了一种分类法,确定了生成、评估和控制多步推理的不同方法。我们对核心方法和开放问题进行了深入探讨,并提出了近期的研究议程。我们发现多步推理方法已经超越了数学应用题,现在能够成功解决逻辑、组合游戏和机器人技术等方面的挑战,有时是先生成代码,然后借助外部工具执行。多步方法的研究经常使用强化学习进行微调、外部优化循环、上下文强化学习和自我反思。
论文及项目相关链接
PDF ACM Computing Surveys
Summary
大型语言模型展现出上下文学习能力,能在未经过专门训练的任务中实现少样本学习。传统模型在语言任务上表现卓越,但在基本推理基准测试上表现不佳。一种名为“思维链”的新上下文学习方法在基准测试中表现出强大的多步推理能力。本文回顾了使用大型语言模型进行多步推理的研究领域,提出了生成、评估和控制系统多步推理的不同方式的分类,深入探讨了核心方法和开放问题,并提出了未来的研究议程。发现多步推理方法不仅限于解决数学文字题,还能成功应对逻辑、组合游戏和机器人等领域的挑战,有时通过首先生成代码,然后借助外部工具执行。
Key Takeaways
- 大型语言模型展现出上下文学习能力,可在少样本情况下完成任务。
- 传统模型在基本推理基准测试上表现不佳。
- “思维链”方法展示了强大的多步推理能力。
- 多步推理方法不仅限于解决数学文字题,还能应用于逻辑、组合游戏和机器人等领域。
- 多步推理方法包括使用强化学习进行微调、外部优化循环、上下文强化学习和自我反思等技术。
- 文章提出了生成、评估和控制系统多步推理的不同方式的分类。
点此查看论文截图