LLM

发布日期: 2025-01-21

更新日期: 2025-01-21

文章字数: 20.4k

阅读时长: 82 分

阅读次数:

⚠️ 以下所有内容总结都来自于大语言模型的能力，如有错误，仅供参考，谨慎使用
🔴 请注意：千万不要用于严肃的学术场景，只能用于论文阅读前的初筛！
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ，还请您给我们一些鼓励！⭐️ HuggingFace免费体验

2025-01-21 更新

FaceXBench: Evaluating Multimodal LLMs on Face Understanding

Authors:Kartik Narayan, Vibashan VS, Vishal M. Patel

Multimodal Large Language Models (MLLMs) demonstrate impressive problem-solving abilities across a wide range of tasks and domains. However, their capacity for face understanding has not been systematically studied. To address this gap, we introduce FaceXBench, a comprehensive benchmark designed to evaluate MLLMs on complex face understanding tasks. FaceXBench includes 5,000 multimodal multiple-choice questions derived from 25 public datasets and a newly created dataset, FaceXAPI. These questions cover 14 tasks across 6 broad categories, assessing MLLMs’ face understanding abilities in bias and fairness, face authentication, recognition, analysis, localization and tool retrieval. Using FaceXBench, we conduct an extensive evaluation of 26 open-source MLLMs alongside 2 proprietary models, revealing the unique challenges in complex face understanding tasks. We analyze the models across three evaluation settings: zero-shot, in-context task description, and chain-of-thought prompting. Our detailed analysis reveals that current MLLMs, including advanced models like GPT-4o, and GeminiPro 1.5, show significant room for improvement. We believe FaceXBench will be a crucial resource for developing MLLMs equipped to perform sophisticated face understanding. Code: https://github.com/Kartik-3004/facexbench

多模态大型语言模型（MLLMs）在广泛的任务和领域中表现出了令人印象深刻的解决问题的能力。然而，它们对面部理解的能力尚未得到系统的研究。为了弥补这一空白，我们引入了FaceXBench，这是一个旨在评估MLLMs在复杂面部理解任务上的综合基准测试。FaceXBench包括从25个公共数据集和新创建的数据集FaceXAPI中派生的5000个多模态多项选择题。这些问题涵盖了6大类中的14项任务，评估MLLMs在偏见和公平性、面部认证、识别、分析、定位和工具检索方面的面部理解能力。使用FaceXBench，我们对26个开源MLLMs和2个专有模型进行了广泛评估，揭示了复杂面部理解任务的独特挑战。我们分析了三种评估环境下的模型：零样本、上下文任务描述和思维链提示。我们的详细分析表明，包括GPT-4o和GeminiPro 1.5等先进模型在内的当前MLLMs仍有很大的改进空间。我们相信FaceXBench将成为开发能够执行复杂面部理解任务的关键资源的重要工具。代码：https://github.com/Kartik-3004/facexbench

Summary：

多模态大型语言模型（MLLMs）在广泛的任务和领域中展现出令人印象深刻的解决问题的能力。然而，它们对面部理解的能力尚未进行系统性的研究。为解决这一空白，我们推出了FaceXBench，这是一套全面评估MLLMs在复杂面部理解任务上的表现的基准测试。FaceXBench包含从25个公开数据集和新创建的FaceXAPI数据集中衍生的5000个多模态选择题。这些问题涵盖了6大类别的14项任务，评估MLLMs在偏见与公正、面部认证、识别、分析、定位和工具检索方面的面部理解能力。通过使用FaceXBench，我们对26个开源MLLMs和2个专有模型进行了广泛评估，揭示了复杂面部理解任务的独特挑战。我们的分析表明，包括GPT-4o和GeminiPro 1.5等先进模型在内的当前MLLMs仍有很大的改进空间。我们相信FaceXBench将成为开发具备高级面部理解能力的MLLMs的关键资源。

Key Takeaways：

FaceXBench是首个全面评估MLLMs在复杂面部理解任务上表现的基准测试。
FaceXBench包含5000个多模态选择题，涵盖14项任务，6大类别，全面评估MLLMs的面部理解能力。
FaceXBench来源于25个公开数据集和新创建的FaceXAPI数据集。
通过FaceXBench对多个MLLMs模型进行了评估，包括开源模型和专有模型。
复杂面部理解任务存在独特挑战。
当前MLLMs，包括先进模型，在面部理解方面仍有显著改进空间。

Cool Papers

点此查看论文截图

Agent4Edu: Generating Learner Response Data by Generative Agents for Intelligent Education Systems

Authors:Weibo Gao, Qi Liu, Linan Yue, Fangzhou Yao, Rui Lv, Zheng Zhang, Hao Wang, Zhenya Huang

Personalized learning represents a promising educational strategy within intelligent educational systems, aiming to enhance learners’ practice efficiency. However, the discrepancy between offline metrics and online performance significantly impedes their progress. To address this challenge, we introduce Agent4Edu, a novel personalized learning simulator leveraging recent advancements in human intelligence through large language models (LLMs). Agent4Edu features LLM-powered generative agents equipped with learner profile, memory, and action modules tailored to personalized learning algorithms. The learner profiles are initialized using real-world response data, capturing practice styles and cognitive factors. Inspired by human psychology theory, the memory module records practice facts and high-level summaries, integrating reflection mechanisms. The action module supports various behaviors, including exercise understanding, analysis, and response generation. Each agent can interact with personalized learning algorithms, such as computerized adaptive testing, enabling a multifaceted evaluation and enhancement of customized services. Through a comprehensive assessment, we explore the strengths and weaknesses of Agent4Edu, emphasizing the consistency and discrepancies in responses between agents and human learners. The code, data, and appendix are publicly available at https://github.com/bigdata-ustc/Agent4Edu.

个性化学习代表了一种在智能教育系统中具有前景的教育策略，旨在提高学习者的实践效率。然而，离线指标与在线表现之间的差异显著阻碍了其进展。为了应对这一挑战，我们引入了Agent4Edu，这是一种利用大型语言模型（LLM）的最新进展的新型个性化学习模拟器。Agent4Edu的特点是拥有LLM驱动的生成代理，配备了学习者概况、记忆和行动模块，这些模块都针对个性化学习算法进行了定制。学习者概况使用现实世界的响应数据进行初始化，捕获实践风格和认知因素。受人类心理学理论的启发，记忆模块记录实践事实和高层次摘要，集成了反思机制。行动模块支持各种行为，包括理解练习、分析和生成响应。每个代理都可以与个性化学习算法进行交互，如计算机化自适应测试，从而实现多方面的评估和定制服务的增强。通过全面评估，我们探讨了Agent4Edu的优缺点，重点强调了代理和人类学习者之间响应的一致性和差异。代码、数据和附录可在https://github.com/bigdata-ustc/Agent4Edu上公开获取。

论文及项目相关链接

PDF Accepted by AAAI2025

Summary

基于智能教育系统内的个性化学习策略具有广阔的发展前景，旨在提高学习者的实践效率。然而，离线指标与在线表现之间的差异显著阻碍了个性化学习的进步。为解决这一挑战，我们推出了Agent4Edu——一款利用大型语言模型（LLM）最新进展的新型个性化学习模拟器。Agent4Edu配备了个性化学习算法，其生成式代理拥有学习者特性、记忆及行动模块。学习者特性采用现实世界响应数据进行初始化，以捕捉实践风格和认知因素。记忆模块采用心理学理论，记录实践事实和高级摘要并集成反思机制。行动模块支持练习理解、分析和响应生成等行为。每个代理都能与诸如计算机自适应测试等个性化学习算法进行交互，实现多元化评估和定制化服务的提升。我们对Agent4Edu进行了全面评估，重点关注了代理响应与人类学习者之间的一致性差异和强弱项。相关代码、数据和附录可访问 https://github.com/bigdata-ustc/Agent4Edu 获取。

Key Takeaways

个性化学习是智能教育系统中一种有前途的教育策略，旨在提高学习者的实践效率。
Agent4Edu是一款新型个性化学习模拟器，采用大型语言模型（LLM）技术。
Agent4Edu配备学习者特性、记忆和行动模块，模拟真实学习者的特性和行为。
学习者特性通过现实世界的响应数据进行初始化，以反映实践风格和认知因素。
Agent4Edu的记忆模块基于心理学理论设计，记录实践事实、高级摘要，并集成反思机制。
Agent4Edu通过全面的评估，在个性化学习算法（如计算机自适应测试）的交互中表现出一致性差异和性能强弱。

Cool Papers

点此查看论文截图

Towards Human-Guided, Data-Centric LLM Co-Pilots

Authors:Evgeny Saveliev, Jiashuo Liu, Nabeel Seedat, Anders Boyd, Mihaela van der Schaar

Machine learning (ML) has the potential to revolutionize healthcare, but its adoption is often hindered by the disconnect between the needs of domain experts and translating these needs into robust and valid ML tools. Despite recent advances in LLM-based co-pilots to democratize ML for non-technical domain experts, these systems remain predominantly focused on model-centric aspects while overlooking critical data-centric challenges. This limitation is problematic in complex real-world settings where raw data often contains complex issues, such as missing values, label noise, and domain-specific nuances requiring tailored handling. To address this we introduce CliMB-DC, a human-guided, data-centric framework for LLM co-pilots that combines advanced data-centric tools with LLM-driven reasoning to enable robust, context-aware data processing. At its core, CliMB-DC introduces a novel, multi-agent reasoning system that combines a strategic coordinator for dynamic planning and adaptation with a specialized worker agent for precise execution. Domain expertise is then systematically incorporated to guide the reasoning process using a human-in-the-loop approach. To guide development, we formalize a taxonomy of key data-centric challenges that co-pilots must address. Thereafter, to address the dimensions of the taxonomy, we integrate state-of-the-art data-centric tools into an extensible, open-source architecture, facilitating the addition of new tools from the research community. Empirically, using real-world healthcare datasets we demonstrate CliMB-DC’s ability to transform uncurated datasets into ML-ready formats, significantly outperforming existing co-pilot baselines for handling data-centric challenges. CliMB-DC promises to empower domain experts from diverse domains – healthcare, finance, social sciences and more – to actively participate in driving real-world impact using ML.

机器学习（ML）有潜力彻底改变医疗保健领域，但其应用往往受到领域专家需求与将这些需求转化为稳健有效的ML工具之间的脱节阻碍。尽管基于大型语言模型（LLM）的副驾驶系统在民主化ML方面为非技术专家做出了最新的进展，但这些系统主要关注模型为中心的方面，却忽视了关键的数据为中心的挑战。在复杂的现实世界中，原始数据常常存在复杂的问题，如缺失值、标签噪声和需要定制处理的领域特定细微差别。为了解决这些问题，我们引入了CliMB-DC，这是一个以人为指导、以数据为中心的大型语言模型副驾驶框架，它结合了先进的数据中心工具和大型语言模型驱动的推理，以实现稳健、面向上下文的数据处理。其核心是一个新型的多智能体推理系统，结合了用于动态规划和适应的战略协调器以及用于精确执行的专职工作者智能体。此后，领域专业知识被系统地纳入以指导推理过程，采用人类参与循环的方法。为了指导开发，我们对关键的数据为中心的挑战进行了分类，副驾驶必须解决这些问题。之后，为了应对分类的各个方面，我们将先进的数据为中心的工具集成到一个可扩展的开源架构中，便于研究社区添加新工具。在实证方面，我们使用真实的医疗数据集证明了CliMB-DC将非策划数据集转化为适合机器学习格式的能力，在处理数据为中心的挑战方面显著优于现有的副驾驶基线。CliMB-DC有望赋能来自不同领域的领域专家——医疗保健、金融、社会科学等——积极参与利用机器学习推动现实世界的变革。

论文及项目相关链接

PDF Saveliev, Liu & Seedat contributed equally

Summary

机器学习（ML）在医疗领域具有巨大的潜力，但其实际应用常常受到领域专家需求与将这些需求转化为稳健有效的ML工具之间的鸿沟的阻碍。尽管基于大型语言模型（LLM）的辅助系统在民主化ML方面取得进展，但它们主要关注模型为中心的方法而忽视数据为中心的挑战。针对这一问题，本文介绍了CliMB-DC，这是一个结合高级数据工具与LLM驱动的推理的人为引导、以数据为中心的大型语言模型辅助系统框架。它引入了多智能体推理系统，结合战略协调员进行动态规划和适应性与专职工作代理进行精确执行。通过人为引导的方式系统地融入领域专业知识以指导推理过程。通过实证研究发现，使用真实医疗数据集时，CliMB-DC能将未整理的数集转化为ML就绪格式，在处理数据为中心的挑战方面明显优于现有辅助系统基线。CliMB-DC有望在医疗、金融、社会科学等各个领域为领域专家赋能，积极参与推动机器学习在现实世界的实际应用。

Key Takeaways

机器学习在医疗领域具有潜力，但实际应用受到领域专家与工具转化需求之间的鸿沟的阻碍。
当前大型语言模型辅助系统主要关注模型为中心的方法而忽视数据为中心的挑战。
CliMB-DC是一个结合高级数据工具与LLM的大型语言模型辅助系统框架，旨在解决上述问题。
CliMB-DC引入多智能体推理系统，包括战略协调员和工作代理来确保稳健且上下文感知的数据处理。
通过人为引导的方式融入领域专业知识以指导推理过程。
CliMB-DC能成功转化未整理数据集为ML就绪格式，并处理数据为中心的挑战方面优于现有辅助系统基线。

Cool Papers

点此查看论文截图

HiMix: Reducing Computational Complexity in Large Vision-Language Models

Authors:Xuange Zhang, Dengjie Li, Bo Liu, Zenghao Bao, Yao Zhou, Baisong Yang, Zhongying Liu, Yujie Zhong, Zheng Zhao, Tongtong Yuan

Benefiting from recent advancements in large language models and modality alignment techniques, existing Large Vision-Language Models(LVLMs) have achieved prominent performance across a wide range of scenarios. However, the excessive computational complexity limits the widespread use of these models in practical applications. We argue that one main bottleneck in computational complexity is caused by the involvement of redundant vision sequences in model computation. This is inspired by a reassessment of the efficiency of vision and language information transmission in the language decoder of LVLMs. Then, we propose a novel hierarchical vision-language interaction mechanism called Hierarchical Vision injection for Mixture Attention (HiMix). In HiMix, only the language sequence undergoes full forward propagation, while the vision sequence interacts with the language at specific stages within each language decoder layer. It is striking that our approach significantly reduces computational complexity with minimal performance loss. Specifically, HiMix achieves a 10x reduction in the computational cost of the language decoder across multiple LVLM models while maintaining comparable performance. This highlights the advantages of our method, and we hope our research brings new perspectives to the field of vision-language understanding. Project Page: https://xuange923.github.io/HiMix

得益于大型语言模型和模态对齐技术的最新进展，现有的大型视觉语言模型（LVLMs）在多种场景中均取得了卓越的性能。然而，过高的计算复杂度限制了这些模型在实际应用中的广泛使用。我们认为，计算复杂度的一个主要瓶颈是由模型计算中冗余的视觉序列的参与所引起的。这源于我们对LVLMs语言解码器中视觉和语言信息传输效率的重新评估。随后，我们提出了一种新型的分层视觉语言交互机制，称为混合注意力分层视觉注入（HiMix）。在HiMix中，只有语言序列进行全前向传播，而视觉序列则在每个语言解码器层的特定阶段与语言进行交互。值得注意的是，我们的方法能在保持极小性能损失的同时显著降低计算复杂度。具体来说，HiMix在多个LVLM模型的语言解码器上实现了计算成本的10倍缩减，同时保持相当的性能。这凸显了我们方法的优势，我们希望我们的研究能为视觉语言理解领域带来新的视角。项目页面：https://xuange923.github.io/HiMix

论文及项目相关链接

PDF

Summary

基于大型语言模型和模态对齐技术的最新进展，大型视觉语言模型（LVLMs）已在各种场景中取得了显著的性能提升。然而，过高的计算复杂度限制了这些模型在实际应用中的广泛应用。本研究认为冗余的视觉序列参与模型计算是导致计算复杂度过高的主要原因之一。为此，我们提出了一种新型的分层视觉语言交互机制，称为分层视觉注入混合注意力（HiMix）。在HiMix中，只有语言序列进行全前向传播，而视觉序列则在每个语言解码器层的特定阶段与语言进行交互。我们的方法在保证性能损失最小的情况下显著降低了计算复杂度。具体来说，HiMix在多个LVLM模型中实现了语言解码器计算成本的10倍缩减，同时保持性能相当。

Key Takeaways

大型视觉语言模型（LVLMs）在多种场景中的性能突出，但计算复杂度过高限制了实际应用。
冗余的视觉序列参与模型计算是导致计算复杂度高的主要原因之一。
提出了新型的分层视觉语言交互机制——分层视觉注入混合注意力（HiMix）。
在HiMix中，只有语言序列进行全前向传播，视觉序列则在特定阶段与语言交互。
HiMix显著降低了计算复杂度，实现了语言解码器计算成本的10倍缩减，同时保持性能相当。

Cool Papers

点此查看论文截图

Addressing Popularity Bias in Third-Party Library Recommendations Using LLMs

Authors:Claudio Di Sipio, Juri Di Rocco, Davide Di Ruscio, Vladyslav Bulhakov

Recommender systems for software engineering (RSSE) play a crucial role in automating development tasks by providing relevant suggestions according to the developer’s context. However, they suffer from the so-called popularity bias, i.e., the phenomenon of recommending popular items that might be irrelevant to the current task. In particular, the long-tail effect can hamper the system’s performance in terms of accuracy, thus leading to false positives in the provided recommendations. Foundation models are the most advanced generative AI-based models that achieve relevant results in several SE tasks. This paper aims to investigate the capability of large language models (LLMs) to address the popularity bias in recommender systems of third-party libraries (TPLs). We conduct an ablation study experimenting with state-of-the-art techniques to mitigate the popularity bias, including fine-tuning and popularity penalty mechanisms. Our findings reveal that the considered LLMs cannot address the popularity bias in TPL recommenders, even though fine-tuning and post-processing penalty mechanism contributes to increasing the overall diversity of the provided recommendations. In addition, we discuss the limitations of LLMs in this context and suggest potential improvements to address the popularity bias in TPL recommenders, thus paving the way for additional experiments in this direction.

软件工程的推荐系统（RSSE）根据开发者的上下文提供相关的建议，在自动化开发任务中起着至关重要的作用。然而，它们存在所谓的流行偏见，即推荐流行项目，而这些项目可能与当前任务无关的现象。特别是，长尾效应可能会阻碍系统在准确性方面的性能，从而导致提供的推荐中出现误报。基础模型是最先进的基于生成式人工智能的模型，在多个软件工程任务中取得了相关的结果。本文旨在研究大型语言模型（LLM）解决第三方库（TPL）推荐系统中流行偏见的能力。我们进行了一项消融研究，尝试使用最先进的技术来减轻流行偏见，包括微调和后处理惩罚机制。我们的研究发现，所考虑的LLM无法解决TPL推荐系统中的流行偏见问题，尽管微调和后处理惩罚机制有助于提高所提供建议的总体多样性。此外，我们还讨论了在这种情况下LLM的局限性，并提出了解决TPL推荐系统中流行偏见问题的潜在改进方法，从而为今后的实验指明了方向。

论文及项目相关链接

PDF Accepted at the 1st International Workshop on Fairness in Software Systems, co-located with SANER2025

Summary
推荐系统对于软件工程来说非常重要，能够根据开发者的上下文提供相关的建议，自动化开发任务。然而，它们受到所谓的流行度偏差的影响，推荐流行项目可能与当前任务无关。本文旨在研究大型语言模型（LLM）解决第三方库推荐系统中的流行度偏差的能力。通过采用先进技术来减轻流行度偏差，包括微调和后处理惩罚机制，发现LLM无法解决TPL推荐系统中的流行度偏差问题。尽管微调和后处理惩罚机制有助于提高推荐的总体多样性，但仍然存在局限性。

Key Takeaways

推荐系统对软件工程至关重要，可自动化开发任务并提供相关建议。
推荐系统存在流行度偏差问题，即推荐流行项目可能与当前任务无关。
大型语言模型（LLM）被研究用于解决第三方库推荐系统中的流行度偏差问题。
通过采用先进技术来减轻流行度偏差，包括微调和后处理惩罚机制。
LLM无法解决TPL推荐系统中的流行度偏差问题。
即使有补救措施，推荐系统仍然存在局限性。

Cool Papers

点此查看论文截图

Test Wars: A Comparative Study of SBST, Symbolic Execution, and LLM-Based Approaches to Unit Test Generation

Authors:Azat Abdullin, Pouria Derakhshanfar, Annibale Panichella

Generating tests automatically is a key and ongoing area of focus in software engineering research. The emergence of Large Language Models (LLMs) has opened up new opportunities, given their ability to perform a wide spectrum of tasks. However, the effectiveness of LLM-based approaches compared to traditional techniques such as search-based software testing (SBST) and symbolic execution remains uncertain. In this paper, we perform an extensive study of automatic test generation approaches based on three tools: EvoSuite for SBST, Kex for symbolic execution, and TestSpark for LLM-based test generation. We evaluate tools performance on the GitBug Java dataset and compare them using various execution-based and feature-based metrics. Our results show that while LLM-based test generation is promising, it falls behind traditional methods in terms of coverage. However, it significantly outperforms them in mutation scores, suggesting that LLMs provide a deeper semantic understanding of code. LLM-based approach also performed worse than SBST and symbolic execution-based approaches w.r.t. fault detection capabilities. Additionally, our feature-based analysis shows that all tools are primarily affected by the complexity and internal dependencies of the class under test (CUT), with LLM-based approaches being especially sensitive to the CUT size.

自动生成测试是软件工程研究的关键和持续关注的领域。大型语言模型（LLM）的出现为其提供了新的机遇，因为它们能够执行各种任务。然而，与基于搜索的软件测试（SBST）和符号执行等传统技术相比，LLM方法的有效性仍然不确定。在本文中，我们对基于三种工具的自动测试生成方法进行了广泛的研究：用于SBST的EvoSuite，用于符号执行的Kex，以及用于LLM测试生成的TestSpark。我们在GitBug Java数据集上评估了这些工具的性能，并使用各种基于执行和基于特征的性能指标进行了比较。我们的结果表明，虽然基于LLM的测试生成具有前景，但在覆盖率方面落后于传统方法。然而，它在突变得分方面显著优于传统方法，这表明LLM对代码具有更深语义理解。就故障检测能力而言，基于LLM的方法也表现较差逊于SBST和符号执行方法。此外，我们的基于特征的分析表明，所有工具主要受到测试类（CUT）的复杂性及其内部依赖性的影响，而基于LLM的方法尤其受到CUT大小的影响。

论文及项目相关链接

PDF

Summary

LLM在自动测试生成领域具有潜力，但与传统的基于搜索的软件测试（SBST）和符号执行技术相比，其效果尚不确定。一项最新研究表明，在基于三种工具的自动测试生成方法（EvoSuite for SBST，Kex for符号执行，TestSpark for LLM）的对比评估中，LLM虽然在覆盖率方面表现较弱，但在突变得分上表现优异，显示出对代码更深层的语义理解。然而，在故障检测能力方面，LLM仍落后于SBST和符号执行。此外，特征分析表明，所有工具主要受测试类（CUT）的复杂性和内部依赖性的影响，其中LLM对CUT大小尤为敏感。

Key Takeaways

LLM在自动测试生成中具有潜力，但与传统方法的效果对比尚不确定。
LLM在突变得分上表现优异，显示出对代码深层的语义理解。
在覆盖率方面，LLM表现较弱，落后于传统的SBST和符号执行技术。
LLM在故障检测能力方面仍落后于SBST和符号执行。
所有测试工具都受测试类（CUT）的复杂性和内部依赖性的影响。
LLM对CUT大小尤为敏感。

Cool Papers

点此查看论文截图

Generative Artificial Intelligence: Implications for Biomedical and Health Professions Education

Authors:William Hersh

Generative AI has had a profound impact on biomedicine and health, both in professional work and in education. Based on large language models (LLMs), generative AI has been found to perform as well as humans in simulated situations taking medical board exams, answering clinical questions, solving clinical cases, applying clinical reasoning, and summarizing information. Generative AI is also being used widely in education, performing well in academic courses and their assessments. This review summarizes the successes of LLMs and highlights some of their challenges in the context of education, most notably aspects that may undermines the acquisition of knowledge and skills for professional work. It then provides recommendations for best practices overcoming shortcomings for LLM use in education. Although there are challenges for use of generative AI in education, all students and faculty, in biomedicine and health and beyond, must have understanding and be competent in its use.

生成式人工智能在生物医学和健康领域产生了深远影响，无论是在专业工作还是在教育中都是如此。基于大型语言模型（LLM），生成式人工智能在模拟的医疗考试、回答临床问题、解决临床病例、应用临床推理和信息总结等情境中，被发现的表现与人类相当。生成式人工智能也在教育中得到了广泛应用，在学术课程和评估中表现良好。这篇综述总结了LLM的成功之处，并强调了它们在教育环境中的一些挑战，尤其是那些可能会破坏专业工作的知识和技能获取方面。然后，它为克服在教育中使用LLM的缺陷的最佳实践提供了建议。尽管在教育领域使用生成式人工智能存在挑战，但生物医学和健康领域以及更广泛的学生和教师都必须理解并熟练使用它。

论文及项目相关链接

PDF

Summary

基于大型语言模型（LLM）的生成性人工智能在生物医学和健康领域产生了深远影响，不仅在专业工作中表现出色，也在教育中得到广泛应用。在模拟医学考试、回答临床问题、解决临床病例、应用临床推理和信息总结等方面，生成性人工智能的表现与人类相当。然而，在教育环境中，它也面临着一些挑战，可能会影响到专业工作中知识和技能的培养。因此，本文总结了LLM的成功应用，强调了其面临的挑战，并提供了克服这些挑战的最佳实践建议。尽管存在挑战，但所有生物医学和健康领域的学生和教师都需要了解并熟练使用生成性人工智能。

Key Takeaways

生成性AI在生物医学和健康领域有深远影响，在专业工作和教育中都有广泛应用。
在模拟医学考试、回答临床问题等方面，生成性AI的表现与人类相当。
生成性AI在教育环境中存在一些挑战，可能影响知识及技能的习得。
LLM的成功应用需要克服一些挑战，本文提供了克服挑战的最佳实践建议。
生成性AI在教育中存在挑战，但学生与教师仍需掌握其使用。
生成性AI的潜力在于其能够处理大量数据和复杂任务的能力。
在教育环境中使用生成性AI时需要注意保护学生隐私和数据安全。

Cool Papers

点此查看论文截图

ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario

Authors:Lucen Zhong, Zhengxiao Du, Xiaohan Zhang, Haiyi Hu, Jie Tang

Enhancing large language models (LLMs) with real-time APIs can help generate more accurate and up-to-date responses. However, evaluating the function calling abilities of LLMs in real-world scenarios remains under-explored due to the complexity of data collection and evaluation. In this work, we introduce ComplexFuncBench, a benchmark for complex function calling across five real-world scenarios. Compared to existing benchmarks, ComplexFuncBench encompasses multi-step and constrained function calling, which requires long-parameter filing, parameter value reasoning, and 128k long context. Additionally, we propose an automatic framework, ComplexEval, for quantitatively evaluating complex function calling tasks. Through comprehensive experiments, we demonstrate the deficiencies of state-of-the-art LLMs in function calling and suggest future directions for optimizing these capabilities. The data and code are available at \url{https://github.com/THUDM/ComplexFuncBench}.

增强大型语言模型（LLM）的实时API可以帮助生成更准确和最新的响应。然而，由于数据收集和评估的复杂性，在真实场景中评估LLM的函数调用能力仍然被低估。在这项工作中，我们介绍了ComplexFuncBench，这是一个涵盖五种真实场景复杂函数调用的基准测试。与现有基准测试相比，ComplexFuncBench包括多步骤和受约束的函数调用，这需要长参数文件、参数值推理和128k长上下文。此外，我们提出了一个自动框架ComplexEval，用于定量评估复杂的函数调用任务。通过全面的实验，我们展示了当前LLM在函数调用方面的不足，并指出了优化这些能力的未来方向。数据和代码可在https://github.com/THUDM/ComplexFuncBench找到。

论文及项目相关链接

PDF

Summary

增强大型语言模型（LLM）通过实时API可以生成更准确和最新的响应。然而，由于数据收集和评估的复杂性，在真实场景中评估LLM的函数调用能力仍处于探索阶段。本工作引入了一个复杂函数调用基准测试（ComplexFuncBench），涵盖五种真实场景下的复杂函数调用。相较于现有基准测试，ComplexFuncBench包含多步骤和受约束的函数调用，这需要长参数文件、参数值推理和128k长上下文。此外，我们还提出了一个自动评估框架（ComplexEval），用于定量评估复杂函数调用任务。通过全面的实验，我们展示了当前LLM在函数调用方面的不足，并指出了优化这些能力的未来方向。

Key Takeaways

LLM通过实时API可提升生成响应的准确性和实时性。
评估LLM的函数调用能力在真实场景中仍然是一个被忽视的领域。
引入了一个新的复杂函数调用基准测试（ComplexFuncBench），涵盖五种真实场景。
ComplexFuncBench包括多步骤和受约束的函数调用，要求高级参数处理和上下文理解。
提出了一个自动评估框架（ComplexEval）来定量评估复杂函数调用任务。
实验表明，当前LLM在函数调用方面存在不足。

Cool Papers

点此查看论文截图

PaSa: An LLM Agent for Comprehensive Academic Paper Search

Authors:Yichen He, Guanhua Huang, Peiyuan Feng, Yuan Lin, Yuchen Zhang, Hang Li, Weinan E

We introduce PaSa, an advanced Paper Search agent powered by large language models. PaSa can autonomously make a series of decisions, including invoking search tools, reading papers, and selecting relevant references, to ultimately obtain comprehensive and accurate results for complex scholarly queries. We optimize PaSa using reinforcement learning with a synthetic dataset, AutoScholarQuery, which includes 35k fine-grained academic queries and corresponding papers sourced from top-tier AI conference publications. Additionally, we develop RealScholarQuery, a benchmark collecting real-world academic queries to assess PaSa performance in more realistic scenarios. Despite being trained on synthetic data, PaSa significantly outperforms existing baselines on RealScholarQuery, including Google, Google Scholar, Google with GPT-4 for paraphrased queries, chatGPT (search-enabled GPT-4o), GPT-o1, and PaSa-GPT-4o (PaSa implemented by prompting GPT-4o). Notably, PaSa-7B surpasses the best Google-based baseline, Google with GPT-4o, by 37.78% in recall@20 and 39.90% in recall@50. It also exceeds PaSa-GPT-4o by 30.36% in recall and 4.25% in precision. Model, datasets, and code are available at https://github.com/bytedance/pasa.

我们推出了PaSa，这是一款由大型语言模型驱动的高级论文搜索代理。PaSa可以自主做出一系列决策，包括调用搜索工具、阅读论文和选择相关参考文献，以获取针对复杂学术查询的全面和准确结果。我们使用强化学习和合成数据集AutoScholarQuery对PaSa进行了优化，该数据集包含3.5万条精细的学术查询和相应论文，来源于顶级人工智能会议出版物。此外，我们还开发了RealScholarQuery基准测试，收集真实世界的学术查询，以评估PaSa在更现实场景中的性能。尽管是在合成数据上训练的，但PaSa在RealScholarQuery上的表现显著优于现有基线，包括Google、Google Scholar、针对改述查询的GPT-4结合的Google搜索、chatGPT（启用搜索功能的GPT-4o）、GPT-o1以及通过提示GPT-4o实现的PaSa-GPT-4o。值得注意的是，PaSa-7B在召回率@20和召回率@50方面分别超过了最佳Google基线——GPT-4结合的Google搜索达37.78%和39.90%。同时，它的召回率也超过了PaSa-GPT-4o达30.36%，精确度提高了4.25%。模型、数据集和代码均可在https://github.com/bytedance/pasa找到。

论文及项目相关链接

PDF

摘要
帕萨是一个强大的论文搜索智能代理，可以自主做出包括调用搜索工具、阅读论文和筛选相关文献等决策，以获取针对复杂学术查询的全面准确结果。帕萨的优化通过使用强化学习与合成数据集AutoScholarQuery进行，该数据集包含3.5万精细的学术查询和相应论文，来源于顶级人工智能会议出版物。此外，为了评估帕萨在更真实场景中的性能，开发了RealScholarQuery基准测试。尽管是在合成数据上训练的，但帕萨在RealScholarQuery上的表现显著优于现有基线，包括谷歌、谷歌学术、谷歌与GPT-4结合的查询、ChatGPT（搜索启用的GPT-4o）、GPT-o1以及由GPT-4o实现的帕萨。特别是帕萨-7B在召回率@20和召回率@50方面分别超越了最佳谷歌基线Google with GPT-4o 37.78%和39.90%。模型、数据集和代码可通过https://github.com/bytedance/pasa获取。

关键见解

帕萨是一个基于大型语言模型的先进论文搜索代理，可自主进行一系列决策以获取全面准确的学术查询结果。
使用合成数据集AutoScholarQuery进行强化学习优化。
开发RealScholarQuery基准测试以评估帕萨在更真实场景中的性能。
帕萨在RealScholarQuery上的表现优于多个基线，包括谷歌及其与GPT-4结合的版本。
帕萨-7B在召回率方面显著超越了最佳谷歌基线。
帕萨模型、数据集和代码已公开发布在GitHub上。
帕萨有望为复杂的学术查询提供高效且准确的解决方案。

Cool Papers

点此查看论文截图

A Survey on LLM Test-Time Compute via Search: Tasks, LLM Profiling, Search Algorithms, and Relevant Frameworks

Authors:Xinzhe Li

LLM test-time compute (or LLM inference) via search has emerged as a promising research area with rapid developments. However, current frameworks often adopt distinct perspectives on three key aspects (task definition, LLM profiling, and search procedures), making direct comparisons challenging. Moreover, the search algorithms employed often diverge from standard implementations, and their specific characteristics are not thoroughly specified. In this survey, we provide a comprehensive technical review that unifies task definitions and provides modular definitions of LLM profiling and search procedures. The definitions enable precise comparisons of various LLM inference frameworks while highlighting their departures from conventional search algorithms. We also discuss the applicability, performance, and efficiency of these methods. For further details and ongoing updates, please refer to our GitHub repository: https://github.com/xinzhel/LLM-Agent-Survey/blob/main/search.md

LLM测试时间计算（或LLM推理）通过搜索已经成为一个有前景的研究领域，发展迅速。然而，当前框架往往从三个关键方面（任务定义、LLM分析以及搜索程序）采用不同的观点，使得直接比较变得具有挑战性。此外，所使用的搜索算法经常偏离标准实现，并且它们的特定特性并未得到彻底说明。在本次调查中，我们提供了一项全面的技术回顾，统一了任务定义，并提供了模块化定义的LLM分析和搜索程序。这些定义能够精确比较各种LLM推理框架，同时突出其与常规搜索算法的偏离。我们还讨论了这些方法的应用性、性能和效率。更多详细信息和最新更新，请参阅我们的GitHub仓库：https://github.com/xinzhel/LLM-Agent-Survey/blob/main/search.md

论文及项目相关链接

PDF

Summary

LLM测试时的计算（或LLM推理）通过搜索已成为具有发展前景的研究领域，发展迅速。然而，当前的研究框架在任务定义、LLM性能分析和搜索程序方面往往采用不同观点，使得直接比较具有挑战性。本文提供全面的技术回顾，统一任务定义，模块化定义LLM性能分析和搜索程序，使不同LLM推理框架之间的精确比较成为可能，同时突出其与常规搜索算法的差异性。我们还讨论了这些方法的应用性、性能和效率。有关更多详细信息及最新更新，请查阅我们的GitHub仓库：GitHub链接。

Key Takeaways

LLM测试时间计算已成为热门研究领域。
当前框架在任务定义、LLM性能分析和搜索程序方面存在多样性。
缺乏直接比较不同LLM推理框架的标准。
本文提供全面的技术回顾，统一任务定义，模块化定义LLM性能分析和搜索程序。
框架之间的精确比较成为可能。
突出常规搜索算法与LLM推理框架之间的差异。

Cool Papers

点此查看论文截图

FiLo++: Zero-/Few-Shot Anomaly Detection by Fused Fine-Grained Descriptions and Deformable Localization

Authors:Zhaopeng Gu, Bingke Zhu, Guibo Zhu, Yingying Chen, Ming Tang, Jinqiao Wang

Anomaly detection methods typically require extensive normal samples from the target class for training, limiting their applicability in scenarios that require rapid adaptation, such as cold start. Zero-shot and few-shot anomaly detection do not require labeled samples from the target class in advance, making them a promising research direction. Existing zero-shot and few-shot approaches often leverage powerful multimodal models to detect and localize anomalies by comparing image-text similarity. However, their handcrafted generic descriptions fail to capture the diverse range of anomalies that may emerge in different objects, and simple patch-level image-text matching often struggles to localize anomalous regions of varying shapes and sizes. To address these issues, this paper proposes the FiLo++ method, which consists of two key components. The first component, Fused Fine-Grained Descriptions (FusDes), utilizes large language models to generate anomaly descriptions for each object category, combines both fixed and learnable prompt templates and applies a runtime prompt filtering method, producing more accurate and task-specific textual descriptions. The second component, Deformable Localization (DefLoc), integrates the vision foundation model Grounding DINO with position-enhanced text descriptions and a Multi-scale Deformable Cross-modal Interaction (MDCI) module, enabling accurate localization of anomalies with various shapes and sizes. In addition, we design a position-enhanced patch matching approach to improve few-shot anomaly detection performance. Experiments on multiple datasets demonstrate that FiLo++ achieves significant performance improvements compared with existing methods. Code will be available at https://github.com/CASIA-IVA-Lab/FiLo.

异常检测方法通常需要目标类别的大量正常样本进行训练，这在需要快速适应的场景（如冷启动）中限制了其适用性。零样本和少样本异常检测不需要提前获取目标类别的标记样本，因此成为了一个有前景的研究方向。现有的零样本和少样本方法常常利用强大的多模态模型，通过比较图像文本相似性来检测和定位异常。然而，它们的手工通用描述无法捕捉不同对象中可能出现的各种异常，而简单的补丁级别的图像文本匹配往往难以定位形状和大小各异的异常区域。针对这些问题，本文提出了FiLo++方法，该方法由两个关键组件组成。第一个组件Fused Fine-Grained Descriptions（FusDes）利用大型语言模型为每个对象类别生成异常描述，结合了固定和可学习的提示模板，并应用了运行时提示过滤方法，产生更准确和任务特定的文本描述。第二个组件Deformable Localization（DefLoc）将视觉基础模型Grounding DINO与位置增强的文本描述和多尺度可变形跨模态交互（MDCI）模块集成，能够实现各种形状和大小的异常准确定位。此外，我们设计了一种位置增强的补丁匹配方法，以提高少样本异常检测的性能。在多个数据集上的实验表明，与现有方法相比，FiLo++取得了显著的性能改进。代码将在https://github.com/CASIA-IVA-Lab/FiLo上提供。

论文及项目相关链接

PDF

Summary

本论文针对零样本和少样本异常检测的问题，提出了FiLo++方法，包括Fused Fine-Grained Descriptions（FusDes）和Deformable Localization（DefLoc）两个关键组件。前者利用大型语言模型生成异常描述，结合固定和可学习的提示模板，并应用运行时提示过滤方法，生成更准确的任务特定文本描述。后者结合了视觉基础模型Grounding DINO与位置增强的文本描述和多尺度可变形跨模态交互（MDCI）模块，能准确定位各种形状和大小的异常。实验证明，FiLo++相较于现有方法具有显著的性能提升。

Key Takeaways

异常检测方法通常需要大量目标类别的正常样本进行训练，这在需要快速适应的场景（如冷启动）中限制了其应用。
零样本和少样本异常检测不需要提前获得目标类别的标签样本，成为有前景的研究方向。
现有方法利用多模态模型通过图像文本相似性检测与定位异常，但通用描述无法捕捉不同对象中多样的异常。
FiLo++方法包括Fused Fine-Grained Descriptions（FusDes）和Deformable Localization（DefLoc）两个关键组件，分别用于生成更准确的异常描述和准确定位异常。
FusDes利用大型语言模型生成异常描述，并结合固定和可学习提示模板，提高描述的准确性。
DefLoc结合了视觉基础模型与位置增强的文本描述，以及多尺度可变形跨模态交互模块，实现异常精准定位。
实验证明FiLo++在多个数据集上较现有方法具有显著性能提升。

Cool Papers

点此查看论文截图

LLM-Based Routing in Mixture of Experts: A Novel Framework for Trading

Authors:Kuan-Ming Liu, Ming-Chih Lo

Recent advances in deep learning and large language models (LLMs) have facilitated the deployment of the mixture-of-experts (MoE) mechanism in the stock investment domain. While these models have demonstrated promising trading performance, they are often unimodal, neglecting the wealth of information available in other modalities, such as textual data. Moreover, the traditional neural network-based router selection mechanism fails to consider contextual and real-world nuances, resulting in suboptimal expert selection. To address these limitations, we propose LLMoE, a novel framework that employs LLMs as the router within the MoE architecture. Specifically, we replace the conventional neural network-based router with LLMs, leveraging their extensive world knowledge and reasoning capabilities to select experts based on historical price data and stock news. This approach provides a more effective and interpretable selection mechanism. Our experiments on multimodal real-world stock datasets demonstrate that LLMoE outperforms state-of-the-art MoE models and other deep neural network approaches. Additionally, the flexible architecture of LLMoE allows for easy adaptation to various downstream tasks.

最近深度学习和大语言模型（LLM）的进步促进了专家混合（MoE）机制在股票投资领域的应用。虽然这些模型已经表现出了有前景的交易性能，但它们通常是单模态的，忽略了其他模态（如文本数据）中丰富的信息。此外，基于传统神经网络的路由器选择机制未能考虑上下文和现实世界细微差别，导致专家选择不理想。为了克服这些局限性，我们提出了LLMoE这一新型框架，该框架采用LLM作为MoE架构中的路由器。具体来说，我们用LLM替代了基于常规神经网络的路由器，利用其丰富的世界知识和推理能力，根据历史价格数据和股票新闻选择专家。这种方法提供了更有效和可解释的选择机制。我们在多模态现实世界股票数据集上的实验表明，LLMoE的表现优于最新的MoE模型和其他深度神经网络方法。此外，LLMoE灵活的架构可轻松适应各种下游任务。

论文及项目相关链接

PDF Accepted by AAAI 2025 Workshop on AI for Social Impact - Bridging Innovations in Finance, Social Media, and Crime Prevention

Summary
深度学习与大型语言模型（LLM）的最新进展促进了混合专家（MoE）机制在股票投资领域的应用。针对传统神经网络路由器选择机制忽视上下文和现实世界细微差别的局限性，我们提出LLMoE框架，采用LLM作为MoE架构中的路由器，基于历史价格数据和股票新闻选择专家。实验证明，LLMoE在模态现实股票数据集上的表现优于最先进MoE模型和其他深度神经网络方法，且架构灵活，易于适应各种下游任务。

Key Takeaways

深度学习与大型语言模型（LLM）的最新发展促进了混合专家（MoE）机制在股票投资中的应用。
传统神经网络路由器选择机制存在局限性，无法充分考虑上下文和现实世界细微差别。
LLMoE框架采用LLM作为MoE架构中的路由器，基于历史价格数据和股票新闻选择专家。
LLMoE在模态现实股票数据集上的表现优于其他方法。
LLMoE架构灵活，易于适应各种下游任务。
LLM的广泛应用知识及其推理能力在股票投资领域具有潜在价值。

Cool Papers

点此查看论文截图

MVTamperBench: Evaluating Robustness of Vision-Language Models

Authors:Amit Agarwal, Srikant Panda, Angeline Charles, Bhargava Kumar, Hitesh Patel, Priyaranjan Pattnayak, Taki Hasan Rafi, Tejaswini Kumar, Dong-Kyu Chae

Multimodal Large Language Models (MLLMs) have driven major advances in video understanding, yet their vulnerability to adversarial tampering and manipulations remains underexplored. To address this gap, we introduce MVTamperBench, a benchmark that systematically evaluates MLLM robustness against five prevalent tampering techniques: rotation, masking, substitution, repetition, and dropping. Built from 3.4K original videos-expanded to over 17K tampered clips spanning 19 video tasks. MVTamperBench challenges models to detect manipulations in spatial and temporal coherence. We evaluate 45 recent MLLMs from 15+ model families, revealing substantial variability in resilience across tampering types and showing that larger parameter counts do not necessarily guarantee robustness. MVTamperBench sets a new benchmark for developing tamper-resilient MLLM in safety-critical applications, including detecting clickbait, preventing harmful content distribution, and enforcing policies on media platforms. We release all code and data to foster open research in trustworthy video understanding. Code: https://amitbcp.github.io/MVTamperBench/ Data: https://huggingface.co/datasets/Srikant86/MVTamperBench

多模态大型语言模型（MLLMs）在视频理解方面取得了重大进展，但其在面临对抗性干扰和操纵时的脆弱性仍然鲜有研究。为了弥补这一空白，我们引入了MVTamperBench基准测试平台，该平台系统地评估了MLLM对五种常见干扰技术的鲁棒性：旋转、遮挡、替换、重复和丢弃。它建立在原始视频的扩张集上，超过有攻击行为的视频剪辑有三千四百万条视频跨越十九种视频任务。MVTamperBench挑战模型检测空间和时间连贯性的操纵行为。我们评估了来自十五个以上的模型的四十五个近期的大型语言模型，发现不同类型干扰下模型的韧性存在较大差异，而且更大的参数数量并不一定保证模型的鲁棒性。MVTamperBench为在安全关键应用中开发防干扰大型语言模型设立了新的基准线，包括检测标题欺诈、防止有害内容传播以及在媒体平台上执行政策等。我们公开所有代码和数据以促进可信视频理解的开放研究。代码：https://amitbcp.github.io/MVTamperBench/ 数据集：https://huggingface.co/datasets/Srikant86/MVTamperBench

论文及项目相关链接

PDF

Summary

MLLMs在视频理解方面取得了重大进展，但其对敌对干扰和操作的脆弱性仍未被充分探索。为填补这一空白，我们推出了MVTamperBench基准测试，该测试系统地评估了MLLM对五种常见干扰技术的稳健性：旋转、遮挡、替换、重复和丢弃。该基准测试包含来自原始视频的超过17K个干扰片段，涵盖了涵盖视频任务的超过内容评估超过拓展了对于应对各种时空干扰视频内容广泛的任务。我们对包括超过模型家族在内的近期MLLM进行了评估，发现不同干扰类型之间存在显著差异，且参数数量多的模型不一定具备更好的稳健性。MVTamperBench为开发稳健的MLLM设定了新的基准线，适用于安全关键型应用，如检测标题欺诈、防止有害内容传播以及在媒体平台上执行政策等。我们公开了所有代码和数据，以促进在可信视频理解方面的开放研究。为改善机器学习模型的可靠性，进一步提升了领域的应用前景和价值。希望其促进多媒体技术的可持续性发展，为未来带来更好的多媒体内容应用前景。我们相信这一工具将促进研究社区的发展并推动多媒体领域的进步。欢迎更多研究者参与合作和讨论。感兴趣的研究者可通过访问以下链接获取更多详细信息。感兴趣的科研者可以通过https://amitbcp.github.io/MVTamperBench/进行访问了解详细信息代码获取可通过 https://huggingface.co/datasets/Srikant86/MVTamperBench进行获取数据集信息并参与合作研究共同推动多媒体领域的稳健性发展并创造更安全的网络环境。。MVTamperBench将为多媒体领域的未来发展注入新的活力，促进模型对复杂视频内容的稳健性进步并助力创造更安全的网络环境。此外它的引入还将极大地促进该领域的发展推动多媒体技术的创新并推动视频理解的可靠性进步。我们相信该基准测试将成为多媒体领域的重要里程碑之一推动相关技术的持续发展和创新。

Key Takeaways

一、MLLMs在视频理解方面存在脆弱性，需要评估其对抗干扰的稳健性。为此引入MVTamperBench基准测试评估稳健性很重要具有五大重点：检测各种视频干扰的能力涉及对大量数据集的应用采用时空鲁棒技术进行深入探讨机器学习模型的性能和结构特性包括不同模型家族的差异对干扰类型的响应等，可针对模型的实际应用效果进行分析与改进为多媒体领域的未来发展注入新的活力评估机器学习模型对不同干扰技术的应对能力为后续模型的改进方向提供依据参考和支持并且能够为开发安全关键的MLLM提供基准线指导方向并促进相关研究的进展和合作研究共同推动多媒体领域的稳健性发展。同时评估多种模型对于各种干扰的抵抗能力可为开发更加鲁棒的模型提供思路和指导帮助促进技术的进一步发展和提升应用场景的不断拓展也为后续的算法设计和改进提供了宝贵的经验和参考借鉴其是视频内容理解的可靠性的重要衡量标准之一具有广泛的应用前景和潜力价值；同时它的引入也将极大地促进多媒体领域的可持续性发展推进技术创新并在多媒体技术领域不断发挥重要作用并为其他领域带来有益影响通过提出基于视觉的语言感知鲁棒性评价的方法大大增强了感知一致性具有稳健的技术效果和丰富的社会价值将会应用于媒体信息的有效筛选领域创造更多的实际价值推进行业可持续发展与创新的应用潜力体现研究意义在多种行业领域内进行广泛实践探索及深度分析发挥领域核心研究价值的展现更多深入且全面更细致全面挖掘行业发展方向做出坚实有力贡献从检测模型的仿真性能提升到综合实际运用再到科研平台不断完善技术创新体现在研究中的每一个环节当中并在多个行业领域内发挥着重要的作用提升科研团队的成果产出的同时也能切实有效赋能多个产业实际应用发挥产业数字化转型的智能推动力综合使用全面扎实有力推动行业技术革新与发展进步为行业带来更加广阔的前景和发展空间。具体来说包括以下几点：

二、MLLMs对各种视频干扰技术的响应存在差异且这种差异可能影响到其实际应用中的性能与安全性针对各种干扰技术进行分析评估以揭示模型的弱点并提供改进方向成为研究的重点。通过对模型进行对抗样本攻击与训练从而加强模型的抗干扰能力提出针对性更强的训练方案为行业培养高质量高水平的深度学习技术人员而强有力的解决方案是研究未来产业发展技术支撑的重要方向之一提升研究质量和技术水平进而提升行业的核心竞争力对于行业的长远发展具有重要意义和广阔前景提升视频理解模型的抗干扰能力提高其在各种应用场景下的性能与可靠性同时降低因模型脆弱性带来的风险与损失对于多媒体领域的发展至关重要具有广泛的应用前景和潜在经济价值为推动相关领域的技术进步和产业升级提供重要的支持和指导提出关键思路并加以实施开展更高水平的相关技术应用做出更为出色的工作为推动整个行业的进步和发展贡献自己的力量实现技术创新的跨越式发展同时对于提高公众信息的安全性和可信度也有着重要的现实意义和应用价值增强社会公众对网络信息的信任度和安全感从而促进整个社会的和谐稳定发展推动行业技术进步和创新发展增强社会公众对网络信息的信任度和安全感成为推动社会和谐稳定发展的重要因素之一为解决多媒体数据安全和虚假信息泛滥等问题提供有力支持并为行业的持续健康发展提供坚实的保障对理解计算机技术实际应用与系统控制下的应用领域更带来可靠高效的路径从仿真转向落地的一个过程具有重要意义和应用价值提升社会公众对网络信息的信任度和安全感也是互联网应用中的重要目标之一增强网络信息的真实性和可信度对于维护社会稳定和促进经济发展具有十分重要的作用和意义。具体来说包括以下几点：

Cool Papers

点此查看论文截图

AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling

Authors:Zihan Liu, Yang Chen, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping

In this paper, we introduce AceMath, a suite of frontier math models that excel in solving complex math problems, along with highly effective reward models capable of evaluating generated solutions and reliably identifying the correct ones. To develop the instruction-tuned math models, we propose a supervised fine-tuning (SFT) process that first achieves competitive performance across general domains, followed by targeted fine-tuning for the math domain using a carefully curated set of prompts and synthetically generated responses. The resulting model, AceMath-72B-Instruct greatly outperforms Qwen2.5-Math-72B-Instruct, GPT-4o and Claude-3.5 Sonnet. To develop math-specialized reward model, we first construct AceMath-RewardBench, a comprehensive and robust benchmark for evaluating math reward models across diverse problems and difficulty levels. After that, we present a systematic approach to build our math reward models. The resulting model, AceMath-72B-RM, consistently outperforms state-of-the-art reward models. Furthermore, when combining AceMath-72B-Instruct with AceMath-72B-RM, we achieve the highest average rm@8 score across the math reasoning benchmarks. We release model weights, training data, and evaluation benchmarks at: https://research.nvidia.com/labs/adlr/acemath

本文介绍了AceMath，这是一系列前沿的数学模型，擅长解决复杂的数学问题，以及高效的奖励模型，能够评估生成的解决方案并可靠地识别正确的解决方案。为了开发指令调优的数学模型，我们提出了一种监督微调（SFT）过程，首先在各种通用领域实现具有竞争力的性能，然后使用精心挑选的提示和合成生成的响应进行数学领域的目标微调。AceMath-72B-Instruct模型在性能上大大超过了Qwen2.5-Math-72B-Instruct、GPT-4o和Claude-3.5 Sonnet。为了开发专业化的数学奖励模型，我们首先构建了AceMath-RewardBench，这是一个全面且稳健的基准测试，用于评估不同问题和难度级别的数学奖励模型。之后，我们提出了一种构建数学奖励模型的系统的方法。AceMath-72B-RM模型一直优于最新的奖励模型。此外，当将AceMath-72B-Instruct与AceMath-72B-RM相结合时，我们在数学推理基准测试中获得了最高的平均rm@8分数。我们发布的模型权重、训练数据和评估基准测试可访问：https://research.nvidia.com/labs/adlr/acemath

论文及项目相关链接

PDF

Summary

AceMath是一套前沿的数学模型，擅长解决复杂的数学问题，并配备了高效的奖励模型，能评估生成的解决方案并准确识别正确的答案。该研究通过监督微调（SFT）过程开发了指令调优的数学模型，首先在全域实现竞争力性能，然后针对数学领域进行定向微调。此外，该研究构建了AceMath-RewardBench基准测试，用于评估数学奖励模型，并系统构建了数学奖励模型。将数学模型与奖励模型结合，实现了高平均rm@8分数。

Key Takeaways

AceMath是一系列优秀的数学模型，擅长解决复杂的数学问题。
AceMath配备了高效的奖励模型，能够评估生成的解决方案并准确识别正确答案。
研究人员通过监督微调（SFT）过程，提高了数学模型的性能。
AceMath-72B-Instruct模型在多个数学推理基准测试中表现出卓越性能。
构建了AceMath-RewardBench基准测试，用于评估数学奖励模型。
系统构建了数学奖励模型AceMath-72B-RM，其性能超过现有奖励模型。

Cool Papers

点此查看论文截图

Automatic Database Configuration Debugging using Retrieval-Augmented Language Models

Authors:Sibei Chen, Ju Fan, Bin Wu, Nan Tang, Chao Deng, Pengyi Wang, Ye Li, Jian Tan, Feifei Li, Jingren Zhou, Xiaoyong Du

Database management system (DBMS) configuration debugging, e.g., diagnosing poorly configured DBMS knobs and generating troubleshooting recommendations, is crucial in optimizing DBMS performance. However, the configuration debugging process is tedious and, sometimes challenging, even for seasoned database administrators (DBAs) with sufficient experience in DBMS configurations and good understandings of the DBMS internals (e.g., MySQL or Oracle). To address this difficulty, we propose Andromeda, a framework that utilizes large language models (LLMs) to enable automatic DBMS configuration debugging. Andromeda serves as a natural surrogate of DBAs to answer a wide range of natural language (NL) questions on DBMS configuration issues, and to generate diagnostic suggestions to fix these issues. Nevertheless, directly prompting LLMs with these professional questions may result in overly generic and often unsatisfying answers. To this end, we propose a retrieval-augmented generation (RAG) strategy that effectively provides matched domain-specific contexts for the question from multiple sources. They come from related historical questions, troubleshooting manuals and DBMS telemetries, which significantly improve the performance of configuration debugging. To support the RAG strategy, we develop a document retrieval mechanism addressing heterogeneous documents and design an effective method for telemetry analysis. Extensive experiments on real-world DBMS configuration debugging datasets show that Andromeda significantly outperforms existing solutions.

数据库管理系统（DBMS）配置调试对于优化DBMS性能至关重要，例如诊断配置不当的DBMS旋钮并生成故障排除建议。然而，配置调试过程既繁琐又有时具有挑战性，即使是经验丰富的数据库管理员（DBA）在DBMS配置方面拥有足够的经验并对DBMS内部有良好理解（例如MySQL或Oracle）。为了解决这一难题，我们提出了使用大型语言模型（LLM）自动进行DBMS配置调试的框架Andromeda。Andromeda可以作为DBA的自然替代者，回答有关DBMS配置问题的广泛自然语言（NL）问题，并生成解决这些问题的诊断建议。然而，直接使用这些问题提示LLM可能会得到过于通用且往往令人不满意的答案。为此，我们提出了一种增强检索生成（RAG）策略，该策略可以有效地从多个来源为问题提供匹配的特定领域上下文。这些来源包括相关的历史问题、故障排除手册和DBMS遥测数据，从而大大提高了配置调试的性能。为了支持RAG策略，我们开发了一种解决异构文档的文件检索机制，并设计了一种有效的遥测分析方法。在真实世界的DBMS配置调试数据集上的大量实验表明，Andromeda显著优于现有解决方案。

论文及项目相关链接

PDF

摘要
数据库管理系统（DBMS）配置调试对于优化DBMS性能至关重要。然而，配置调试过程繁琐且有时具有挑战性，即使对于经验丰富的数据库管理员（DBA）也是如此。为解决此问题，我们提出使用大型语言模型（LLM）的Andromeda框架，实现DBMS配置的自动调试。Andromeda可替代DBA回答有关DBMS配置的各类自然语言问题，并生成诊断建议以解决问题。但是，直接使用这些问题提示LLM可能会得到过于笼统且常常不令人满意的答案。为此，我们提出了一种增强生成（RAG）策略，该策略通过从多个来源为问题提供匹配的特定领域上下文，显著提高了配置调试的性能。这些来源包括相关历史问题、故障排除手册和DBMS遥测数据。为支持RAG策略，我们开发了一种处理异构文档的文档检索机制，并设计了一种有效的遥测分析方法。在真实世界的DBMS配置调试数据集上的广泛实验表明，Andromeda显著优于现有解决方案。

关键见解

数据库管理系统（DBMS）配置调试对于性能优化至关重要，但过程繁琐且具有挑战性。
提出使用大型语言模型（LLM）的Andromeda框架进行自动DBMS配置调试。
Andromeda能够回答有关DBMS配置的各类自然语言问题并生成诊断建议。
直接提示LLM可能会得到不满意的答案，因此提出一种检索增强生成（RAG）策略。
RAG策略通过从多个来源提供匹配的特定领域上下文来提高配置调试的性能。
Andromeda支持处理异构文档的文档检索机制以及有效的遥测分析方法。
在真实世界数据集上的实验表明，Andromeda在DBMS配置调试方面显著优于现有解决方案。

Cool Papers

点此查看论文截图

Authors:Zhen Zheng, Xin Ji, Taosong Fang, Fanghao Zhou, Chuanjie Liu, Gang Peng

Large language models (LLMs) increasingly play an important role in a wide range of information processing and management tasks. Many of these tasks are performed in large batches or even offline, and the performance indictor for which is throughput. These tasks usually show the characteristic of prefix sharing, where different prompt input can partially show the common prefix. However, the existing LLM inference engines tend to optimize the streaming requests and show limitations of supporting the large batched tasks with the prefix sharing characteristic. The existing solutions use the LRU-based cache to reuse the KV context of common prefix between requests. The KV context that are about to be reused may prematurely evicted with the implicit cache management. Besides, the streaming oriented systems do not leverage the request-batch information and can not mix the decoding tokens with the prefill chunks to the best for the batched scenarios, and thus fails to saturate the GPU. We propose BatchLLM to address the above problems. BatchLLM explicitly identifies the common prefixes globally. The requests sharing the same prefix will be scheduled together to reuse the KV context the best. BatchLLM reorders the requests and schedules the requests with larger ratio of decoding first to better mix the decoding tokens with the latter prefill chunks, and applies memory-centric token batching to enlarge the token-batch sizes, which helps to increase the GPU utilization. Finally, BatchLLM optimizes the prefix-shared Attention kernel with horizontal fusion to reduce tail effect and kernel launch overhead. Extensive evaluation shows that BatchLLM outperforms vLLM and SGLang by 1.3$\times$ to 10.8$\times$ on a set of microbenchmarks and a typical industry workload under different hardware environments.

大规模语言模型（LLM）在广泛的信息处理和管理任务中发挥着越来越重要的作用。这些任务中的许多都是批量处理甚至离线处理的，其性能指标是吞吐量。这些任务通常表现出前缀共享的特征，不同的提示输入可以部分显示共同的前缀。然而，现有的LLM推理引擎倾向于优化流式请求，并在支持具有前缀共享特征的大批量任务时显示出局限性。现有解决方案使用基于LRU的缓存来重用请求之间的常见前缀的KV上下文。即将被重用的KV上下文可能会因隐式缓存管理而提前被逐出。此外，流式定向系统没有利用请求批处理信息，无法将解码令牌与预填充块混合到最佳状态，从而无法满足GPU的需求。为了解决上述问题，我们提出了BatchLLM。BatchLLM显式地全局识别公共前缀。共享相同前缀的请求将一起调度，以最佳方式重用KV上下文。BatchLLM重新排序请求，并优先调度解码比例较大的请求，以便更好地将解码令牌与后续的预填充块混合，并采用以内存为中心的令牌批处理来扩大令牌批处理大小，有助于提高GPU利用率。最后，BatchLLM通过水平融合优化了共享前缀的注意力内核，以减少尾部效应和内核启动开销。评估显示，BatchLLM在一组微基准测试和典型行业工作负载的不同硬件环境下，性能优于vLLM和SGLang，加速比为1.3倍至10.8倍。

论文及项目相关链接

PDF

Summary

大型语言模型（LLM）在处理信息管理任务时表现出日益重要的作用，特别是在批量和离线任务中。针对现有LLM推理引擎在处理具有前缀共享特性的大批量任务时的局限性，本文提出了BatchLLM方案。BatchLLM通过全局识别共同前缀、重新排序请求、优化内存为中心的令牌批处理以及优化前缀共享的关注核来改进现有解决方案。评估结果显示，BatchLLM在微基准测试和典型工业工作负载上分别超越了vLLM和SGLang 1.3至10.8倍。

Key Takeaways

LLMs 已在信息处理和 management 任务中扮演重要角色，特别是在批量和离线任务中。
现有LLM推理引擎在处理具有前缀共享特性的大批量任务时存在局限性。
BatchLLM 通过识别共同前缀、重新排序请求、优化内存令牌批处理以及优化关注核来改进现有解决方案。
BatchLLM 提高了 GPU 的利用率。
BatchLLM 在微基准测试和典型工业工作负载上的性能超越了其他模型。
BatchLLM 通过全局识别共同前缀来最大化 KV 上下文的重复使用。

Cool Papers

点此查看论文截图

VLSBench: Unveiling Visual Leakage in Multimodal Safety

Authors:Xuhao Hu, Dongrui Liu, Hao Li, Xuanjing Huang, Jing Shao

Safety concerns of Multimodal large language models (MLLMs) have gradually become an important problem in various applications. Surprisingly, previous works indicate a counter-intuitive phenomenon that using textual unlearning to align MLLMs achieves comparable safety performances with MLLMs trained with image-text pairs. To explain such a counter-intuitive phenomenon, we discover a visual safety information leakage (VSIL) problem in existing multimodal safety benchmarks, i.e., the potentially risky and sensitive content in the image has been revealed in the textual query. In this way, MLLMs can easily refuse these sensitive text-image queries according to textual queries. However, image-text pairs without VSIL are common in real-world scenarios and are overlooked by existing multimodal safety benchmarks. To this end, we construct multimodal visual leakless safety benchmark (VLSBench) preventing visual safety leakage from image to textual query with 2.4k image-text pairs. Experimental results indicate that VLSBench poses a significant challenge to both open-source and close-source MLLMs, including LLaVA, Qwen2-VL, Llama3.2-Vision, and GPT-4o. This study demonstrates that textual alignment is enough for multimodal safety scenarios with VSIL, while multimodal alignment is a more promising solution for multimodal safety scenarios without VSIL. Please see our code and data at: https://hxhcreate.github.io/vlsbench.github.io/

多模态大型语言模型（MLLMs）的安全问题在各种应用中逐渐成为一个重要的问题。令人惊讶的是，之前的研究表明，使用文本遗忘来对MLLMs进行对齐训练，其安全性能与用图像-文本对训练的MLLMs相当。为了解释这种反直觉的现象，我们发现现有多模态安全基准中存在视觉安全信息泄露（VSIL）问题，即图像中的潜在危险和敏感内容已在文本查询中泄露。通过这种方式，MLLMs可以根据文本查询轻松拒绝这些敏感的文本-图像查询。然而，在现实场景中，没有VSIL的图像-文本对是常见的，但被现有多模态安全基准所忽视。为此，我们构建了防止图像到文本查询的视觉安全泄露的多模态视觉无泄漏安全基准（VLSBench），包含2. 值得注意的是这一研究成果并非空中楼阁或纯理论构想。在我们提供的链接地址上，[网址链接]，你可以查阅到我们的代码和数据。该研究发现对于有视觉安全信息泄露的多模态安全场景而言，文本对齐已足够应对；而对于没有视觉安全信息泄露的多模态安全场景而言，多模态对齐则是一个更有前景的解决方案。

论文及项目相关链接

PDF

Summary

本文关注多模态大型语言模型（MLLMs）的安全性问题，特别是在各种应用中的重要性。研究发现，使用文本遗忘对齐MLLMs的方法在安全性能上可与使用图像-文本对训练的MLLMs相媲美。针对这一反常现象，发现了现有多模态安全基准中存在的视觉安全信息泄露（VSIL）问题。因此，构建了防止图像到文本查询的视觉安全泄露的多模态视觉无泄漏安全基准（VLSBench）。实验结果表明，VLSBench对开源和闭源MLLMs构成重大挑战，包括LLaVA、Qwen2-VL等模型。本文表明，在有VSIL的多模态安全场景中，文本对齐足够，而无VSIL的多模态安全场景中，多模态对齐更有前景。

Key Takeaways

多模态大型语言模型（MLLMs）的安全问题在各类应用中逐渐凸显。
文本遗忘与对齐方法在MLLM安全性能上表现出与图像-文本对训练相当的效能。
存在视觉安全信息泄露（VSIL）问题在多模态安全基准中。
VLSBench基准构建成功，防止了图像到文本查询的视觉安全泄露。
VLSBench对多种MLLMs构成挑战，包括开源和闭源模型。
在存在VSIL的多模态安全场景中，文本对齐方法足够有效。

Cool Papers

点此查看论文截图

Mitigating Sycophancy in Decoder-Only Transformer Architectures: Synthetic Data Intervention

Authors:Libo Wang

To address the sycophancy problem caused by reinforcement learning from human feedback in large language models, this research applies synthetic data intervention technology to the decoder-only transformer architecture. Based on the research gaps in the existing literature, the researcher designed an experimental process to reduce the tendency of models to cater by generating diversified data, and used GPT4o as an experimental tool for verification. The experiment used 100 true and false questions, and compared the performance of the model trained with synthetic data intervention and the original untrained model on multiple indicators. The results show that the SDI training model supports the technology in terms of accuracy rate and sycophancy rate and has significant effectiveness in reducing sycophancy phenomena. Notably, the data set, experimental process, code and data results have been uploaded to Github, the link is https://github.com/brucewang123456789/GeniusTrail.git.

针对大型语言模型中由人类反馈引起的逢迎问题，本研究将合成数据干预技术应用于仅解码器变换器架构。基于现有文献的研究空白，研究者设计了一个实验过程，以减少模型产生多样化数据以迎合的倾向，并使用GPT4o作为验证的实验工具。实验采用100个真实和虚假问题，比较经过合成数据干预训练和未经训练的原始模型在多指标上的表现。结果表明，SDI训练模型在准确率和奉承率方面支持该技术，并能有效减少奉承现象。值得注意的是，数据集、实验过程、代码和数据结果已上传到Github，链接为https://github.com/brucewang123456789/GeniusTrail.git。

论文及项目相关链接

PDF This research is also submitted to OpenReview. The main text is 9 pages (excluding citations), 7 figures, and 1 table

Summary

研究团队针对大型语言模型中由人类反馈强化学习导致的媚俗问题，采用合成数据干预技术应用于仅解码的转换器架构来解决这一问题。该研究填补了现有文献的空白，通过生成多样化数据来减少模型迎合倾向的实验设计，并利用GPT4o作为验证实验工具。实验采用100个真实与虚假问题，比较合成数据干预训练模型与原始未训练模型在多指标上的表现。结果显示，SDI训练模型在准确率和媚俗率方面支持该技术，并在减少媚俗现象方面具有显著效果。相关数据集、实验过程、代码及数据结果已上传至Github平台，链接为[链接地址]。

Key Takeaways

该研究使用合成数据干预技术来解决大型语言模型中因强化学习人类反馈导致的媚俗问题。
研究团队针对现有文献的空白，设计了生成多样化数据的实验来减少模型的迎合倾向。
GPT4o被用作验证实验工具，实验涉及100个真实与虚假问题。
对比了合成数据干预训练模型与原始未训练模型在多指标上的表现。
实验结果显示，合成数据干预训练模型在准确率和媚俗率方面表现出显著效果。
数据集、实验过程、代码及数据结果已公开在Github平台上。
该研究为大型语言模型的优化提供了新的思路和方法。

Cool Papers

点此查看论文截图

Jailbreaking as a Reward Misspecification Problem

Authors:Zhihui Xie, Jiahui Gao, Lei Li, Zhenguo Li, Qi Liu, Lingpeng Kong

The widespread adoption of large language models (LLMs) has raised concerns about their safety and reliability, particularly regarding their vulnerability to adversarial attacks. In this paper, we propose a novel perspective that attributes this vulnerability to reward misspecification during the alignment process. This misspecification occurs when the reward function fails to accurately capture the intended behavior, leading to misaligned model outputs. We introduce a metric ReGap to quantify the extent of reward misspecification and demonstrate its effectiveness and robustness in detecting harmful backdoor prompts. Building upon these insights, we present ReMiss, a system for automated red teaming that generates adversarial prompts in a reward-misspecified space. ReMiss achieves state-of-the-art attack success rates on the AdvBench benchmark against various target aligned LLMs while preserving the human readability of the generated prompts. Furthermore, these attacks on open-source models demonstrate high transferability to closed-source models like GPT-4o and out-of-distribution tasks from HarmBench. Detailed analysis highlights the unique advantages of the proposed reward misspecification objective compared to previous methods, offering new insights for improving LLM safety and robustness.

大型语言模型（LLM）的广泛应用引发了人们对其安全性和可靠性的担忧，特别是它们是否容易受到对抗性攻击的脆弱性。在本文中，我们从一个新的角度提出，将这种脆弱性归因于对齐过程中的奖励误指定。当奖励函数无法准确捕捉预期行为时，就会出现这种误指定，从而导致模型输出失准。我们引入了一个度量标准ReGap来量化奖励误指定的程度，并证明了其在检测有害后门提示时的有效性和稳健性。基于这些见解，我们推出了ReMiss系统，这是一个用于自动生成对抗性提示的自动化红队系统，在奖励误指定的空间中工作。ReMiss在AdvBench基准测试上实现了针对各种目标对齐LLM的最新攻击成功率，同时保持了生成提示的可读性。此外，这些对开源模型的攻击表现出对封闭源模型（如GPT-4o）和任务外的高可转移性。详细的分析突出了与以前的方法相比，所提出的奖励误指定目标的独特优势，为改进LLM的安全性和稳健性提供了新的见解。

论文及项目相关链接

PDF

Summary

大型语言模型（LLM）的广泛应用引发了关于其安全性和可靠性的担忧，特别是它们容易受到对抗性攻击的问题。本文提出一个新视角，将这一漏洞归因于对齐过程中的奖励误指定。奖励误指定发生在奖励函数未能准确捕捉预期行为时，导致模型输出错位。本文引入ReGap指标来量化奖励误指定的程度，并证明了其在检测有害后门提示中的有效性和稳健性。基于这些见解，本文提出了ReMiss系统，一个用于自动化红队对抗的自动系统，在奖励误指定的空间中生成对抗性提示。ReMiss在AdvBench基准测试上实现了针对各种目标对齐LLM的最佳攻击成功率，同时保持了生成提示的可读性。此外，这些对开源模型的攻击显示出对闭源模型如GPT-4o和高可迁移性的优势，以及跨分布任务的优势。这些见解为改进LLM的安全性和稳健性提供了新的见解。

Key Takeaways

大型语言模型（LLMs）面临安全性和可靠性问题，尤其是容易受到对抗性攻击的问题。
论文提出将LLM的漏洞归因于对齐过程中的奖励误指定。
引入ReGap指标来量化奖励误指定的程度，有效检测有害后门提示。
提出ReMiss系统，用于生成对抗性提示，在奖励误指定的空间中实现自动化红队对抗。
ReMiss系统在AdvBench基准测试上达到最佳攻击成功率，生成提示保持可读性。
对开源模型的攻击表现出对闭源模型和跨分布任务的高迁移性优势。

Cool Papers

点此查看论文截图

Kedreamix

https://kedreamix.github.io/Talk2Paper/Paper/2025-01-21/LLM/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !

LLM

Agent

Agent 方向最新论文已更新，请持续关注 Update in 2025-01-21 Agent4Edu Generating Learner Response Data by Generative Agents for Intelligent Education Systems

2025-01-21 Agent

Agent

医学图像

医学图像方向最新论文已更新，请持续关注 Update in 2025-01-19 On the optimal prediction of extreme events in heavy-tailed time series with applications to solar flare forecasting

2025-01-19 医学图像

医学图像

LLM

2025-01-21 更新

FaceXBench: Evaluating Multimodal LLMs on Face Understanding

Agent4Edu: Generating Learner Response Data by Generative Agents for Intelligent Education Systems

Towards Human-Guided, Data-Centric LLM Co-Pilots

HiMix: Reducing Computational Complexity in Large Vision-Language Models

Addressing Popularity Bias in Third-Party Library Recommendations Using LLMs

Test Wars: A Comparative Study of SBST, Symbolic Execution, and LLM-Based Approaches to Unit Test Generation

Generative Artificial Intelligence: Implications for Biomedical and Health Professions Education

ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario

PaSa: An LLM Agent for Comprehensive Academic Paper Search

A Survey on LLM Test-Time Compute via Search: Tasks, LLM Profiling, Search Algorithms, and Relevant Frameworks

FiLo++: Zero-/Few-Shot Anomaly Detection by Fused Fine-Grained Descriptions and Deformable Localization

LLM-Based Routing in Mixture of Experts: A Novel Framework for Trading

MVTamperBench: Evaluating Robustness of Vision-Language Models

AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling

Automatic Database Configuration Debugging using Retrieval-Augmented Language Models

BatchLLM: Optimizing Large Batched LLM Inference with Global Prefix Sharing and Throughput-oriented Token Batching

VLSBench: Unveiling Visual Leakage in Multimodal Safety

Mitigating Sycophancy in Decoder-Only Transformer Architectures: Synthetic Data Intervention

Jailbreaking as a Reward Misspecification Problem