⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-10-22 更新
MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn Dialogues
Authors:Yaning Pan, Zekun Wang, Qianqian Xie, Yongqian Wen, Yuanxing Zhang, Guohui Zhang, Haoxuan Hu, Zhiyu Pan, Yibing Huang, Zhidong Gan, Yonghong Lin, An Ping, Tianhao Peng, Jiaheng Liu
The recent development of Multimodal Large Language Models (MLLMs) has significantly advanced AI’s ability to understand visual modalities. However, existing evaluation benchmarks remain limited to single-turn question answering, overlooking the complexity of multi-turn dialogues in real-world scenarios. To bridge this gap, we introduce MT-Video-Bench, a holistic video understanding benchmark for evaluating MLLMs in multi-turn dialogues. Specifically, our MT-Video-Bench mainly assesses six core competencies that focus on perceptivity and interactivity, encompassing 987 meticulously curated multi-turn dialogues from diverse domains. These capabilities are rigorously aligned with real-world applications, such as interactive sports analysis and multi-turn video-based intelligent tutoring. With MT-Video-Bench, we extensively evaluate various state-of-the-art open-source and closed-source MLLMs, revealing their significant performance discrepancies and limitations in handling multi-turn video dialogues. The benchmark will be publicly available to foster future research.
最近的多模态大型语言模型(MLLMs)的发展显著提高了AI对视觉模式的理解能力。然而,现有的评估基准测试仍然局限于单轮问答,忽略了现实世界中多轮对话的复杂性。为了弥补这一差距,我们引入了MT-Video-Bench,这是一个全面的视频理解基准测试,用于评估MLLM在多轮对话中的表现。具体来说,我们的MT-Video-Bench主要评估六个核心技能,侧重于感知和交互能力,包含987个精心挑选的来自不同领域的多轮对话。这些技能与现实世界应用紧密相连,如交互式体育分析和基于多轮对话的视频智能辅导。通过MT-Video-Bench,我们对各种最先进的开源和闭源MLLM进行了广泛评估,揭示了它们在处理多轮视频对话方面的显著性能差异和局限性。该基准测试将公开提供,以促进未来的研究。
论文及项目相关链接
PDF Project Website: https://github.com/NJU-LINK/MT-Video-Bench
Summary
多模态大型语言模型(MLLMs)的发展显著提升了AI对视觉模态的理解能力。然而,现有的评估基准测试仍然局限于单轮问答,忽略了现实世界中多轮对话的复杂性。为了弥补这一差距,我们推出了MT-Video-Bench,这是一个用于评估多轮对话中MLLMs能力的全面视频理解基准测试。该测试主要评估六个核心技能,包括感知力和互动性,涵盖987个精心挑选的多轮对话,涵盖各种领域。这些技能与现实世界应用紧密相连,如交互式体育分析和基于多轮视频智能辅导等。我们全面评估了各种最先进的开源和闭源MLLMs的性能,发现它们在处理多轮视频对话方面存在显著的性能差异和局限性。该基准测试将公开提供,以促进未来的研究。
Key Takeaways
- 多模态大型语言模型(MLLMs)在理解视觉模态方面取得了显著进展。
- 现有评估基准测试主要关注单轮问答,忽略了多轮对话的复杂性。
- 引入MT-Video-Bench基准测试,用于评估MLLMs在多轮对话中的能力。
- MT-Video-Bench主要评估感知力和互动性为核心的六个技能。
- 基准测试涵盖987个精心挑选的、涉及各种领域的多轮对话样本。
- MT-Video-Bench的应用场景包括交互式体育分析和基于多轮视频的智能辅导等。
点此查看论文截图





Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCs
Authors:Pasin Buakhaw, Kun Kerdthaisong, Phuree Phenhiran, Pitikorn Khlaisamniang, Supasate Vorathammathorn, Piyalitt Ittichaiwong, Nutchanon Yongsatianchot
The emergence of large language models (LLMs) has opened new opportunities for cre- ating dynamic non-player characters (NPCs) in gaming environments, enabling both func- tional task execution and persona-consistent dialogue generation. In this paper, we (Tu_Character_lab) report our participation in the Commonsense Persona-Grounded Dialogue Challenge (CPDC) 2025 Round 2, which eval- uates agents across three tracks: task-oriented dialogue, context-aware dialogue, and their integration. Our approach combines two complementary strategies: (i) lightweight prompting techniques in the API track, including a Deflanderization prompting method to suppress excessive role-play and improve task fidelity, and (ii) fine-tuned large models in the GPU track, leveraging Qwen3-14B with supervisedfinetuning (SFT) and Low-Rank Adaptation(LoRA). Our best submissions ranked 2nd on Task 1, 2nd on Task 3 (API track), and 4th on Task 3 (GPU track).
大型语言模型(LLM)的出现为游戏环境中创建动态非玩家角色(NPC)带来了新的机遇,既能够实现功能任务的执行,又能够生成个性一致的对话。我们在本文中(Tu_Character_lab)报告了参加Commonsense Persona-Grounded Dialogue Challenge(CPDC)2025年第二轮的情况,该挑战对代理人在三个领域进行评估:任务导向型对话、语境感知对话以及二者的融合。我们的方法结合了两种互补的策略:(i)API轨迹中的轻量级提示技术,包括一种Deflanderization提示方法,以抑制过多的角色扮演并提高任务保真度;(ii)GPU轨迹中的精细调整大型模型,利用Qwen3-14B进行有监督微调(SFT)和低秩适应(LoRA)。我们的最佳提交在任务1中排名第二,在任务3(API轨迹)中排名第二,在任务3(GPU轨迹)中排名第四。
论文及项目相关链接
Summary
大型语言模型(LLM)的兴起为游戏环境中创建动态非玩家角色(NPC)提供了新的机会,支持功能任务执行和个性化对话生成。本文(Tu_Character_lab团队)报告了我们参加Commonsense Persona-Grounded Dialogue Challenge(CPDC)2025年第二轮的成绩,评估了面向任务的对话、面向上下文的对话以及两者的集成三个赛道。我们的方法结合了两种互补的策略:一是API轨道中的轻量级提示技术,包括Deflanderization提示方法来抑制过多的角色扮演并提高任务保真度;二是GPU轨道中的精细调整大型模型,利用Qwen3-14B进行有监督微调(SFT)和低秩适应(LoRA)。我们的最佳提交在任务1和任务3(API轨道)中排名第2,在任务3(GPU轨道)中排名第4。
Key Takeaways
- 大型语言模型(LLM)为游戏环境中的动态非玩家角色(NPC)创建提供了新的机会。
- Tu_Character_lab团队参与了Commonsense Persona-Grounded Dialogue Challenge(CPDC),在多个任务中取得了良好成绩。
- 团队采用了两种策略:轻量级提示技术和精细调整的大型模型。
- Deflanderization提示方法用于抑制过多的角色扮演,提高任务保真度。
- Qwen3-14B模型通过有监督微调(SFT)和低秩适应(LoRA)进行利用。
- 团队在面向任务的对话和面向上下文的对话两个赛道中均取得了排名。
点此查看论文截图





CoVoMix2: Advancing Zero-Shot Dialogue Generation with Fully Non-Autoregressive Flow Matching
Authors:Leying Zhang, Yao Qian, Xiaofei Wang, Manthan Thakker, Dongmei Wang, Jianwei Yu, Haibin Wu, Yuxuan Hu, Jinyu Li, Yanmin Qian, Sheng Zhao
Generating natural-sounding, multi-speaker dialogue is crucial for applications such as podcast creation, virtual agents, and multimedia content generation. However, existing systems struggle to maintain speaker consistency, model overlapping speech, and synthesize coherent conversations efficiently. In this paper, we introduce CoVoMix2, a fully non-autoregressive framework for zero-shot multi-talker dialogue generation. CoVoMix2 directly predicts mel-spectrograms from multi-stream transcriptions using a flow-matching-based generative model, eliminating the reliance on intermediate token representations. To better capture realistic conversational dynamics, we propose transcription-level speaker disentanglement, sentence-level alignment, and prompt-level random masking strategies. Our approach achieves state-of-the-art performance, outperforming strong baselines like MoonCast and Sesame in speech quality, speaker consistency, and inference speed. Notably, CoVoMix2 operates without requiring transcriptions for the prompt and supports controllable dialogue generation, including overlapping speech and precise timing control, demonstrating strong generalizability to real-world speech generation scenarios.
生成自然流畅的多元说话者对话对于播客创作、虚拟代理和多媒体内容生成等应用至关重要。然而,现有系统在维持说话者一致性、模拟重叠语音和高效合成连贯对话方面存在困难。本文介绍了CoVoMix2,这是一个用于零样本多元说话者对话生成的全非自回归框架。CoVoMix2直接使用基于流匹配的生成模型从多元流转录中预测梅尔频谱图,无需依赖中间令牌表示。为了更好地捕捉真实的对话动态,我们提出了转录级别的说话者分离、句子级别的对齐和提示级别的随机掩码策略。我们的方法取得了最先进的性能,在语音质量、说话者一致性和推理速度方面超越了MoonCast和Sesame等强基线。值得注意的是,CoVoMix2在提示时不需要转录,并支持可控的对话生成,包括重叠语音和精确的时间控制,显示出对现实世界语音生成场景的强泛化能力。
论文及项目相关链接
PDF Neural Information Processing Systems 2025, poster
Summary
本文介绍了CoVoMix2,一个用于零样本多说话者对话生成的全非自回归框架。该框架直接从多流转录预测梅尔频谱图,消除对中间令牌表示的依赖。通过转录级说话者分离、句子级对齐和提示级随机掩码策略,更好地捕捉真实的对话动态。CoVoMix2在语音质量、说话者一致性和推理速度方面超越了MoonCast和Sesame等强基线,支持可控对话生成,包括重叠语音和精确的时间控制,在真实世界语音生成场景中表现出强大的泛化能力。
Key Takeaways
- CoVoMix2是一个零样本多说话者对话生成的非自回归框架。
- 该框架直接预测梅尔频谱图,消除了对中间令牌表示的依赖。
- 通过采用转录级说话者分离、句子级对齐等策略,更好地模拟真实对话。
- CoVoMix2在语音质量、说话者一致性和推理速度方面表现出卓越性能。
- 该框架支持可控对话生成,包括重叠语音和精确的时间控制。
- CoVoMix2适用于多种应用,如Podcast创建、虚拟代理和多媒体内容生成。
点此查看论文截图



