嘘~ 正在从服务器偷取页面 . . .

Interactive


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-09-30 更新

VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing

Authors:Ke Wang, Houxing Ren, Zimu Lu, Mingjie Zhan, Hongsheng Li

The growing capabilities of large language models and multimodal systems have spurred interest in voice-first AI assistants, yet existing benchmarks are inadequate for evaluating the full range of these systems’ capabilities. We introduce VoiceAssistant-Eval, a comprehensive benchmark designed to assess AI assistants across listening, speaking, and viewing. VoiceAssistant-Eval comprises 10,497 curated examples spanning 13 task categories. These tasks include natural sounds, music, and spoken dialogue for listening; multi-turn dialogue, role-play imitation, and various scenarios for speaking; and highly heterogeneous images for viewing. To demonstrate its utility, we evaluate 21 open-source models and GPT-4o-Audio, measuring the quality of the response content and speech, as well as their consistency. The results reveal three key findings: (1) proprietary models do not universally outperform open-source models; (2) most models excel at speaking tasks but lag in audio understanding; and (3) well-designed smaller models can rival much larger ones. Notably, the mid-sized Step-Audio-2-mini (7B) achieves more than double the listening accuracy of LLaMA-Omni2-32B-Bilingual. However, challenges remain: multimodal (audio plus visual) input and role-play voice imitation tasks are difficult for current models, and significant gaps persist in robustness and safety alignment. VoiceAssistant-Eval identifies these gaps and establishes a rigorous framework for evaluating and guiding the development of next-generation AI assistants. Code and data will be released at https://mathllm.github.io/VoiceAssistantEval/ .

大型语言模型和跨模态系统的能力不断增长,引发了人们对以语音为主的AI助手的兴趣。然而,现有的基准测试不足以评估这些系统的全面能力。我们推出了VoiceAssistant-Eval,这是一个全面的基准测试,旨在评估AI助手在听、说、看方面的能力。VoiceAssistant-Eval包含10,497个精选样本,涵盖13个任务类别。这些任务包括听力方面的自然声音、音乐和对话;说话方面的多轮对话、角色扮演模仿和各种场景;以及观看方面的高度异构图像。为了证明其实用性,我们对21个开源模型和GPT-4o-Audio进行了评估,测量了回复内容和语音的质量以及一致性。结果揭示了三个关键发现:(1)专有模型并不普遍优于开源模型;(2)大多数模型在说话任务方面表现出色,但在音频理解方面表现不足;(3)设计精良的小型模型可以与大型模型相竞争。值得注意的是,中型Step-Audio-2-mini(7B)的听力准确性超过了LLaMA-Omni2-32B-Bilingual一倍以上。然而,仍存在挑战:当前模型在处理多模态(音频加视觉)输入和角色扮演语音模仿任务时遇到困难,且在稳健性和安全对齐方面仍存在巨大差距。VoiceAssistant-Eval识别了这些差距,并为评估和指导下一代AI助手的发展建立了严格框架。代码和数据将在https://mathllm.github.io/VoiceAssistantEval/上发布。

论文及项目相关链接

PDF

摘要

本文介绍了VoiceAssistant-Eval,一个用于评估语音助手跨听、说、视功能的综合基准测试。该基准测试包含涵盖13个任务类别的10,497个精心挑选的示例。通过评估21个开源模型和GPT-4o-Audio,研究揭示了关于模型性能的关键发现,包括:专有模型不普遍优于开源模型;多数模型擅长说话任务但在音频理解方面落后;设计精良的小型模型可与大型模型相媲美。VoiceAssistant-Eval的推出为评估和指导下一代语音助手的发展提供了严格框架,同时也指出了当前模型的挑战和差距。

关键见解

  1. 现有基准测试不足以全面评估语音助手的能力。
  2. VoiceAssistant-Eval是一个用于评估语音助手跨听、说、视功能的综合基准测试,包含各种任务类别。
  3. 评估结果显示,专有模型不普遍优于开源模型。
  4. 大多数模型在说话任务上表现良好,但在音频理解方面存在不足。
  5. 设计精良的小型模型性能可与大型模型相媲美。
  6. 多模态(音频加视觉)输入和角色扮演语音模仿任务对当前模型具有挑战性。
  7. VoiceAssistant-Eval指出了当前模型的差距,并为评估和指引下一代语音助手的发展提供了严格框架。

Cool Papers

点此查看论文截图

MotivGraph-SoIQ: Integrating Motivational Knowledge Graphs and Socratic Dialogue for Enhanced LLM Ideation

Authors:Xinping Lei, Tong Zhou, Yubo Chen, Kang Liu, Jun Zhao

Large Language Models (LLMs) hold substantial potential for accelerating academic ideation but face critical challenges in grounding ideas and mitigating confirmation bias for further refinement. We propose integrating motivational knowledge graphs and socratic dialogue to address these limitations in enhanced LLM ideation (MotivGraph-SoIQ). This novel framework provides essential grounding and practical idea improvement steps for LLM ideation by integrating a Motivational Knowledge Graph (MotivGraph) with a Q-Driven Socratic Ideator. The MotivGraph structurally stores three key node types(problem, challenge and solution) to offer motivation grounding for the LLM ideation process. The Ideator is a dual-agent system utilizing Socratic questioning, which facilitates a rigorous refinement process that mitigates confirmation bias and improves idea quality across novelty, experimental rigor, and motivational rationality dimensions. On the ICLR25 paper topics dataset, MotivGraph-SoIQ exhibits clear advantages over existing state-of-the-art approaches across LLM-based scoring, ELO ranking, and human evaluation metrics.

大型语言模型(LLM)在加速学术思想方面拥有巨大潜力,但在实现思想基础和缓解确认偏见以进行进一步改进方面面临关键挑战。我们提出整合动机知识图和苏格拉底对话来解决增强型LLM思想(MotivGraph-SoIQ)中的这些局限性。这一新型框架通过整合动机知识图(MotivGraph)和Q驱动苏格拉底思想者,为LLM思想提供了必要的根基和实际改进步骤。MotivGraph结构化存储三种关键节点类型(问题、挑战和解决方案),为LLM思想过程提供动机基础。思想者是一个利用苏格拉底提问的双代理系统,它促进了一个严格的改进过程,这一过程缓解了确认偏见,从新颖性、实验严谨性和动机合理性维度提高了思想质量。在ICLR25论文主题数据集上,与现有的最先进的LLM评分、ELO排名和人类评估指标相比,MotivGraph-SoIQ具有明显的优势。

论文及项目相关链接

PDF EMNLP2025 Findings

Summary

大规模语言模型(LLMs)在加速学术思想方面拥有巨大潜力,但在思想接地和缓解确认偏见方面面临挑战。我们提出整合动机知识图和苏格拉底对话,以解决增强型LLM思想(MotivGraph-SoIQ)中的这些局限性。该框架通过整合动机知识图(MotivGraph)与Q驱动苏格拉底思想者,为LLM思想提供必要的基础和实用的改进步骤。动机知识图结构化存储三种关键节点类型(问题、挑战和解决方案),为LLM思想过程提供动机基础。思想者是一个利用苏格拉底提问的双重代理系统,通过严格的改进过程缓解确认偏见,提高想法在创新性、实验严谨性和动机合理性方面的质量。在ICLR25论文主题数据集上,MotivGraph-SoIQ在LLM评分、ELO排名和人类评估指标上均表现出优于现有最先进的方法的优势。

Key Takeaways

  1. 大规模语言模型(LLMs)在加速学术思想方面具有巨大潜力。
  2. LLMs面临思想接地和缓解确认偏见的关键挑战。
  3. 提出了整合动机知识图(MotivGraph)和苏格拉底对话的新框架——MotivGraph-SoIQ,以解决LLM的局限性。
  4. MotivGraph结构化存储问题、挑战和解决方案三种关键节点类型,为LLM思想提供动机基础。
  5. 苏格拉底提问的双重代理系统有助于严格的改进过程,缓解确认偏见,提高想法质量。
  6. 在ICLR25论文主题数据集上,MotivGraph-SoIQ表现出优于现有方法的优势。

Cool Papers

点此查看论文截图

KnowMT-Bench: Benchmarking Knowledge-Intensive Long-Form Question Answering in Multi-Turn Dialogues

Authors:Junhao Chen, Yu Huang, Siyuan Li, Rui Yao, Hanqian Li, Hanyu Zhang, Jungang Li, Jian Chen, Bowen Wang, Xuming Hu

Multi-Turn Long-Form Question Answering (MT-LFQA) is a key application paradigm of Large Language Models (LLMs) in knowledge-intensive domains. However, existing benchmarks are limited to single-turn dialogue, while multi-turn dialogue benchmarks typically assess other orthogonal capabilities rather than knowledge-intensive factuality. To bridge this critical gap, we introduce \textbf{KnowMT-Bench}, the \textit{first-ever} benchmark designed to systematically evaluate MT-LFQA for LLMs across knowledge-intensive fields, including medicine, finance, and law. To faithfully assess the model’s real-world performance, KnowMT-Bench employs a dynamic evaluation setting where models generate their own multi-turn dialogue histories given logically progressive question sequences. The factual capability and information delivery efficiency of the \textit{final-turn} answer are then evaluated using a human-validated automated pipeline. Our experiments reveal that multi-turn contexts degrade performance: factual capability declines due to the contextual noise from self-generated histories, while information efficiency drops as models become more verbose with increasing dialogue length. We then investigate mitigation strategies, demonstrating that retrieval-augmented generation (RAG) can effectively alleviate and even reverse this factual degradation. These findings underscore the importance of our benchmark in evaluating and enhancing the conversational factual capabilities of LLMs in real-world knowledge-intensive applications. Code is available at \href{https://github.com/hardenyu21/KnowMT-Bench}{\textcolor{cyan}{\texttt{KnowMT-Bench}}}.

多轮长形式问答(Multi-Turn Long-Form Question Answering,MT-LFQA)是大型语言模型(Large Language Models,LLMs)在知识密集型领域的重要应用范式。然而,现有的基准测试仅限于单轮对话,而多轮对话基准测试通常评估其他正交能力,而非知识密集型的真实性。为了弥补这一关键空白,我们引入了首个专门为系统地评估LLM在知识密集型领域中的MT-LFQA能力的基准测试——KnowMT-Bench。该基准测试涵盖医学、金融和法律等领域。为了准确地评估模型在现实世界中的性能,KnowMT-Bench采用动态评估环境,其中模型根据逻辑上连续的问题序列生成自己的多轮对话历史。最终轮次答案的真实能力和信息传递效率随后通过经过人工验证的自动化管道进行评估。我们的实验表明,多轮对话上下文会降低性能:由于自我生成的对话历史而产生的上下文噪声导致真实能力下降,而随着对话长度的增加,模型变得冗长,导致信息传递效率降低。我们随后调查了缓解策略,证明检索增强生成(Retrieval-Augmented Generation,RAG)可以有效地缓解甚至扭转这一事实性退化。这些发现突显了我们的基准测试在评估和增强大型语言模型在现实世界知识密集型应用中的对话事实能力方面的重要性。代码可用在https://github.com/hardenyu21/KnowMT-Bench

论文及项目相关链接

PDF

Summary

在知识密集型领域中,大型语言模型(LLM)的关键应用范式之一是问答技术。然而,现有的基准测试仅限于单轮对话,而多轮对话基准测试通常评估其他能力而非知识密集型事实。为了填补这一空白,我们引入了首个专门评估多轮长形式问答(MT-LFQA)的基准测试——KnowMT-Bench。它能够系统地评估LLM在医学、金融和法律等领域的知识密集型问答能力。KnowMT-Bench采用动态评估设置,模拟真实世界场景,要求模型自行生成多轮对话历史并回应逻辑推进的问题序列。最后依据自动管道线对模型的最终答复的准确性和信息传递效率进行评估。研究发现,多轮对话情境会降低性能,因为自我生成的对话历史产生的语境噪声会影响准确性,同时对话长度增加会使模型变得冗长低效。对此,我们探索了缓解策略,发现检索增强生成技术(RAG)能有效改善甚至逆转事实性退化的问题。这一基准测试对于评估和提升LLM在真实世界知识密集型应用中的对话事实能力至关重要。相关代码已公开在GitHub上。

Key Takeaways

  1. KnowMT-Bench是首个针对大型语言模型(LLM)在知识密集型领域进行的多轮长形式问答(MT-LFQA)的基准测试。
  2. 该基准测试用于评估模型在医学、金融和法律等领域的系统性能力。
  3. KnowMT-Bench采用动态评估设置,模拟真实世界场景中的多轮对话历史生成。
  4. 多轮对话情境会降低模型的性能,主要因为语境噪声和自我生成的对话长度增加带来的问题。
  5. 模型在信息传递效率方面随对话长度的增加而下降。
  6. 检索增强生成技术(RAG)可以有效缓解甚至改善事实性退化的问题。

Cool Papers

点此查看论文截图

Enhanced Generative Machine Listener

Authors:Vishnu Raj, Gouthaman KV, Shiv Gehlot, Lars Villemoes, Arijit Biswas

We present GMLv2, a reference-based model designed for the prediction of subjective audio quality as measured by MUSHRA scores. GMLv2 introduces a Beta distribution-based loss to model the listener ratings and incorporates additional neural audio coding (NAC) subjective datasets to extend its generalization and applicability. Extensive evaluations on diverse testset demonstrate that proposed GMLv2 consistently outperforms widely used metrics, such as PEAQ and ViSQOL, both in terms of correlation with subjective scores and in reliably predicting these scores across diverse content types and codec configurations. Consequently, GMLv2 offers a scalable and automated framework for perceptual audio quality evaluation, poised to accelerate research and development in modern audio coding technologies.

我们提出了GMLv2,这是一个基于参考模型的音频质量预测模型,以MUSHRA分数来衡量音频质量。GMLv2引入了基于Beta分布的损失来模拟听众评分,并融入了额外的神经音频编码(NAC)主观数据集,以提高其通用性和适用性。在多种测试集上的广泛评估表明,所提出的GMLv2在主观评分相关性方面和可靠预测多种内容类型和编码配置方面的得分方面,始终优于广泛使用的度量标准(如PEAQ和ViSQOL)。因此,GMLv2提供了一个可扩展的自动化框架来进行感知音频质量评估,旨在加速现代音频编码技术的研究与开发。

论文及项目相关链接

PDF

Summary

GMLv2是基于参考模型的音频质量预测系统,采用Beta分布损失来模拟听众评分,并纳入更多神经音频编码(NAC)主观数据集以增强其通用性和适用性。在多样化测试集上的广泛评估显示,GMLv2在主观评分相关性及预测准确性方面均表现优异,优于PEAQ和ViSQOL等现有指标,且适用于多种内容类型和编码配置。因此,GMLv2提供了一个可扩展的自动化框架,用于感知音频质量评估,有助于推动现代音频编码技术的研发。

Key Takeaways

  1. GMLv2是一个基于参考模型的音频质量预测系统。
  2. 采用Beta分布损失模拟听众评分。
  3. 纳入更多神经音频编码(NAC)主观数据集以增强模型通用性和适用性。
  4. GMLv2在多样化测试集上表现优异,优于现有音频质量评估指标。
  5. GMLv2适用于多种内容类型和编码配置。
  6. GMLv2提供了一个可扩展的自动化框架,用于感知音频质量评估。

Cool Papers

点此查看论文截图

Dream to Chat: Model-based Reinforcement Learning on Dialogues with User Belief Modeling

Authors:Yue Zhao, Xiaoyu Wang, Dan Wang, Zhonglin Jiang, Qingqing Gu, Teng Chen, Ningyuan Xi, Jinxian Qu, Yong Chen, Luo Ji

World models have been widely utilized in robotics, gaming, and auto-driving. However, their applications on natural language tasks are relatively limited. In this paper, we construct the dialogue world model, which could predict the user’s emotion, sentiment, and intention, and future utterances. By defining a POMDP, we argue emotion, sentiment and intention can be modeled as the user belief and solved by maximizing the information bottleneck. By this user belief modeling, we apply the model-based reinforcement learning framework to the dialogue system, and propose a framework called DreamCUB. Experiments show that the pretrained dialogue world model can achieve state-of-the-art performances on emotion classification and sentiment identification, while dialogue quality is also enhanced by joint training of the policy, critic and dialogue world model. Further analysis shows that this manner holds a reasonable exploration-exploitation balance and also transfers well to out-of-domain scenarios such as empathetic dialogues.

世界模型在机器人、游戏和自动驾驶等领域得到了广泛应用。然而,它们在自然语言任务中的应用相对有限。在本文中,我们构建了对话世界模型,该模型能够预测用户的情绪、情感和意图,以及未来的言语。通过定义POMDP,我们认为情绪、情感和意图可以建模为用户信念,并通过最大化信息瓶颈来解决。通过这种用户信念建模,我们将基于模型的强化学习框架应用于对话系统,并提出了一种称为DreamCUB的框架。实验表明,预训练的对话世界模型在情感分类和情感识别方面达到了最先进的性能,同时通过对策略、批评家和对话世界模型的联合训练,也提高了对话质量。进一步的分析表明,这种方法保持了合理的探索-开发平衡,并能很好地转移到域外场景,如富有同情心的对话。

论文及项目相关链接

PDF Accepted to EMNLP 2025 Findings

Summary

本文提出了对话世界模型,能够预测用户的情感、情绪和意图,以及未来的言语。通过定义部分可观察马尔可夫决策过程(POMDP),将情感、情绪和意图建模为用户信念,并通过最大化信息瓶颈来解决。将基于模型的强化学习框架应用于对话系统,提出DreamCUB框架。实验表明,预训练的对话世界模型在情感分类和情绪识别方面达到最新技术水平,同时通过联合训练策略、批评家和对话世界模型,提高了对话质量。进一步分析表明,该方法在探索与利用之间保持了合理的平衡,并能很好地迁移到域外场景,如共情对话。

Key Takeaways

  1. 对话世界模型能够预测用户的情感、情绪和意图,以及未来的言语。
  2. 通过定义POMDP(部分可观察马尔可夫决策过程),将情感、情绪和意图建模为用户信念。
  3. 最大化信息瓶颈的方法来解决用户信念建模问题。
  4. 提出了基于模型的强化学习框架的对话系统DreamCUB。
  5. 预训练的对话世界模型在情感分类和情绪识别方面表现优异。
  6. 通过联合训练策略、批评家和对话世界模型,提高了对话质量。

Cool Papers

点此查看论文截图

DialSim: A Dialogue Simulator for Evaluating Long-Term Multi-Party Dialogue Understanding of Conversational Agents

Authors:Jiho Kim, Woosog Chay, Hyeonji Hwang, Daeun Kyung, Hyunseung Chung, Eunbyeol Cho, Yeonsu Kwon, Yohan Jo, Edward Choi

Recent advancements in Large Language Models (LLMs) have significantly enhanced conversational agents, making them applicable to various fields (e.g., education, entertainment). Despite their progress, the evaluation of the agents often overlooks the complexities of real-world conversations, such as multi-party dialogues and extended contextual dependencies. To bridge this gap, we introduce DialSim, a dialogue simulation-based evaluation framework. In DialSim, an agent assumes the role of a character in a scripted conversation and is evaluated on their ability to answer spontaneous questions using only the dialogue history, while recognizing when they lack sufficient information. To support this framework, we introduce LongDialQA, a new QA dataset constructed from long-running TV shows, comprising over 1,300 dialogue sessions, each paired with more than 1,000 carefully curated questions, totaling over 352,000 tokens. To minimize reliance on prior knowledge, all character names are anonymized or swapped. Our evaluation of state-of-the-art LLM-based conversational agents using DialSim reveals that even models with large context windows or RAG capabilities struggle to maintain accurate comprehension over long-term, multi-party interactions-underscoring the need for more realistic and challenging benchmarks in conversational AI.

最近大型语言模型(LLM)的进步极大地增强了对话代理的能力,使其适用于各个领域(例如,教育、娱乐)。尽管取得了进展,但对代理人的评估往往忽略了真实世界对话的复杂性,如多方对话和扩展的上下文依赖关系。为了弥补这一差距,我们引入了基于对话模拟的评估框架DialSim。在DialSim中,代理扮演剧本对话中的角色,并评估他们仅凭对话历史回答突发问题的能力,同时认识到他们缺乏足够信息的时候。为了支持这一框架,我们推出了LongDialQA,这是一个新的问答数据集,由长期运行的电视节目构成,包含超过1300个对话会话,每个会话都配有超过1000个精心挑选的问题,总计超过35.2万个标记。为了最小化对先前知识的依赖,所有角色名称都被匿名化或替换。我们对使用DialSim的最先进的大型语言模型为基础的的对话代理人的评估表明,即使在具有较大的上下文窗口或RAG能力的模型在长期的、多方的互动中也很难维持准确的理解,这强调了需要在对话人工智能中提供更现实和更具挑战性的基准测试。

论文及项目相关链接

PDF

Summary:近期大型语言模型(LLM)的进步显著提升了对话机器人的表现,扩展了应用范围至教育、娱乐等领域。但现有评估标准往往忽略对话在现实世界的复杂性,如多人对话和丰富的上下文依赖性等。为弥补这一不足,研究团队推出了基于对话模拟的评估框架DialSim。该框架下,对话机器人通过扮演剧本中的角色参与模拟对话,根据其在回答突发问题时的表现进行评估,仅依靠对话历史回答问题并判断何时缺乏足够信息。同时,为了支持这一框架,研究团队引入了LongDialQA数据集,该数据集由长达数集的电视剧对话组成,包含了超过130万次的对话提问记录和多达逾千种对话场景。通过对前沿的大型语言模型对话机器人进行DialSim评估发现,即使在处理长期多人互动时,即使是拥有巨大语境窗口或推理回答能力强的模型也很难保持精确的理解力。因此揭示出在实际和具有挑战性的对话AI评估标准下仍存在迫切需求。

Key Takeaways

  1. 大型语言模型的进步增强了对话机器人的能力,扩展了其应用范围至多个领域。
  2. 当前对话机器人的评估标准忽略现实对话的复杂性,如多人对话和丰富的上下文依赖性。
  3. DialSim框架旨在通过模拟对话环境评估对话机器人的性能。
  4. LongDialQA数据集用于支持DialSim框架,包含来自电视剧的长期对话和大量问题。
  5. 即使在长期多人互动中,现有的大型语言模型也存在理解力的挑战。
  6. 对话AI需要更真实、更具挑战性的评估标准。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 本篇
Interactive Interactive
Interactive 方向最新论文已更新,请持续关注 Update in 2025-09-30 VoiceAssistant-Eval Benchmarking AI Assistants across Listening, Speaking, and Viewing
2025-09-30
下一篇 
TTS TTS
TTS 方向最新论文已更新,请持续关注 Update in 2025-09-30 Dynamic Experts Search Enhancing Reasoning in Mixture-of-Experts LLMs at Test Time
2025-09-30
  目录