⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-11-27 更新
Scale Where It Matters: Training-Free Localized Scaling for Diffusion Models
Authors:Qin Ren, Yufei Wang, Lanqing Guo, Wen Zhang, Zhiwen Fan, Chenyu You
Diffusion models have become the dominant paradigm in text-to-image generation, and test-time scaling (TTS) further improves quality by allocating more computation during inference. However, existing TTS methods operate at the full-image level, overlooking the fact that image quality is often spatially heterogeneous. This leads to unnecessary computation on already satisfactory regions and insufficient correction of localized defects. In this paper, we explore a new direction - Localized TTS - that adaptively resamples defective regions while preserving high-quality regions, thereby substantially reducing the search space. This paradigm poses two central challenges: accurately localizing defects and maintaining global consistency. We propose LoTTS, the first fully training-free framework for localized TTS. For defect localization, LoTTS contrasts cross- and self-attention signals under quality-aware prompts (e.g., high-quality vs. low-quality) to identify defective regions, and then refines them into coherent masks. For consistency, LoTTS perturbs only defective regions and denoises them locally, ensuring that corrections remain confined while the rest of the image remains undisturbed. Extensive experiments on SD2.1, SDXL, and FLUX demonstrate that LoTTS achieves state-of-the-art performance: it consistently improves both local quality and global fidelity, while reducing GPU cost by 2-4x compared to Best-of-N sampling. These findings establish localized TTS as a promising new direction for scaling diffusion models at inference time.
扩散模型已成为文本到图像生成的主导范式,测试时缩放(TTS)通过推理期间分配更多计算进一步提高了质量。然而,现有的TTS方法在整体图像层面进行操作,忽略了图像质量经常空间异质的事实。这导致在已经满意的区域上进行不必要的计算,并且对于局部缺陷的修正不足。在本文中,我们探索了一个新的方向——局部TTS,它能够在保持高质量区域的同时自适应地重新采样缺陷区域,从而大幅度减少搜索空间。这一范式带来了两个核心挑战:准确定位缺陷并保持全局一致性。我们提出了LoTTS,这是第一个完全无需训练的局部TTS框架。对于缺陷定位,LoTTS在质量感知提示(例如高质量与低质量)下对比交叉和自我注意信号来识别缺陷区域,然后将它们细化为连贯的掩码。为了保持一致性,LoTTS只扰动缺陷区域并对其进行局部去噪,确保修正保持局限,而其余图像保持不变。在SD2.1、SDXL和FLUX上的大量实验表明,LoTTS达到了最先进的性能:它一致地提高了局部质量和全局保真度,同时与N采样的最佳结果相比,将GPU成本降低了2-4倍。这些发现确立了局部TTS作为在推理时间缩放扩散模型的有前途的新方向。
论文及项目相关链接
Summary
文本介绍了扩散模型在文本到图像生成中的主导地位,以及测试时缩放(TTS)通过在推理过程中分配更多计算来提高图像质量的方法。然而,现有的TTS方法在完整图像层面操作,忽视了图像质量的空间异质性。因此,本文提出了一种新的方向——局部TTS,它自适应地重新采样缺陷区域,同时保持高质量区域,从而大大减少搜索空间。这种方法面临两个挑战:准确定位缺陷和保持全局一致性。本文提出的LoTTS是第一个完全无需训练的局部TTS框架。它通过对比质量感知提示下的交叉和自注意力信号来定位缺陷区域,并将其细化成连贯的掩膜。为了确保修正仅限于缺陷区域而不干扰其余图像,LoTTS仅扰动缺陷区域并对其进行局部去噪。实验表明,LoTTS在SD2.1、SDXL和FLUX上取得了最新性能,提高了局部质量和全局保真度,同时降低了GPU成本。这些发现确立了局部TTS作为推理时间缩放扩散模型的有前途的新方向。
Key Takeaways
- 扩散模型在文本到图像生成中占据主导地位,测试时缩放(TTS)能提高图像质量。
- 现有TTS方法忽略图像质量的空间异质性,导致不必要的计算和局部缺陷修正不足。
- 局部TTS是一种新方向,自适应地重新采样缺陷区域,同时保持高质量区域,减少搜索空间。
- LoTTS是第一个完全无需训练的局部TTS框架,通过对比注意力信号和质量感知提示来定位缺陷区域。
- LoTTS通过局部扰动和去噪来保持全局一致性,确保修正仅限于缺陷区域。
- 实验表明LoTTS在多个数据集上取得最新性能,提高局部质量和全局保真度。
点此查看论文截图
It Hears, It Sees too: Multi-Modal LLM for Depression Detection By Integrating Visual Understanding into Audio Language Models
Authors:Xiangyu Zhao, Yaling Shen, Yiwen Jiang, Zimu Wang, Jiahe Liu, Maxmartwell H Cheng, Guilherme C Oliveira, Robert Desimone, Dominic Dwyer, Zongyuan Ge
Depression is one of the most prevalent mental health disorders globally. In recent years, multi-modal data, such as speech, video, and transcripts, has been increasingly used to develop AI-assisted depression assessment systems. Large language models have further advanced this field due to their strong language understanding and generalization capabilities. However, conventional LLMs remain text-centric and cannot process the rich non-verbal cues found in audio and visual modalities, which are critical components in mental health evaluation. While multi-modal LLMs offer a promising direction, few are tailored for psychological applications. In this study, we propose a novel multi-modal LLM framework for depression detection. Our approach augments an audio language model with visual understanding and aligns audio-visual features at the timestamp level. This fine-grained alignment improves modeling of temporal dynamics across modalities while reducing the need for extensive training data and computational resources. Experiments on the DAIC-WoZ dataset demonstrate that our model outperforms both single-modality approaches and previous multi-modal methods. Moreover, the proposed framework can be extended to incorporate additional physiological signals, paving the way for broader clinical applications beyond mental health.
抑郁症是全球最常见的精神健康障碍之一。近年来,语音、视频和文本等多模态数据越来越多地被用于开发人工智能辅助的抑郁症评估系统。大型语言模型由于其强大的语言理解和泛化能力,进一步推动了这一领域的发展。然而,传统的大型语言模型仍然以文本为中心,无法处理音频和视觉模式中发现的大量非言语线索,而这些线索在精神健康评估中是至关重要的组成部分。虽然多模态大型语言模型提供了一个有前途的方向,但很少有针对心理应用的定制。在研究中,我们提出了一种用于抑郁症检测的新型多模态大型语言模型框架。我们的方法通过视觉理解增强音频语言模型,并在时间戳级别对齐音频-视觉特征。这种精细的对齐提高了跨模态的暂时动态建模能力,同时减少了大量训练数据和计算资源的需求。在DAIC-WoZ数据集上的实验表明,我们的模型在单模态方法和先前的多模态方法上表现出超越的性能。此外,所提出的框架可以扩展以纳入其他生理信号,为精神健康之外更广泛的临床应用铺平道路。
论文及项目相关链接
摘要
本研究提出一种新型的多模态大型语言模型框架,用于抑郁症检测。该框架将音频语言模型与视觉理解相结合,并在时间戳级别对齐音频和视觉特征。这种精细的对齐方式提高了跨模态的临时动态建模能力,同时减少了大量训练数据和计算资源的需求。在DAIC-WoZ数据集上的实验表明,该模型的表现优于单模态方法和先前的多模态方法。此外,该框架可扩展以纳入其他生理信号,为心理健康以外的更广泛临床应用铺平了道路。
要点
- 抑郁症是全球最常见的精神健康障碍之一。
- 近年采用多模态数据如语音、视频和文字转录来开发AI辅助抑郁症评估系统。
- 大型语言模型因强大的语言理解和泛化能力而推动该领域发展。
- 传统的大型语言模型以文本为中心,无法处理音频和视觉模态中的丰富非语言线索,这在精神健康评估中至关重要。
- 多模态大型语言模型虽提供有前途的方向,但很少有针对心理应用的定制。
- 本研究提出一种新型多模态大型语言模型框架,用于抑郁症检测,通过精细对齐音频和视觉特征,提高建模能力并减少训练数据和计算资源需求。
- 在DAIC-WoZ数据集上的实验表明,该框架表现优异,并可扩展以纳入其他生理信号,为未来更广泛的应用铺平了道路。
点此查看论文截图
AIRHILT: A Human-in-the-Loop Testbed for Multimodal Conflict Detection in Aviation
Authors:Omar Garib, Jayaprakash D. Kambhampaty, Olivia J. Pinon Fischer, Dimitri N. Mavris
We introduce AIRHILT (Aviation Integrated Reasoning, Human-in-the-Loop Testbed), a modular and lightweight simulation environment designed to evaluate multimodal pilot and air traffic control (ATC) assistance systems for aviation conflict detection. Built on the open-source Godot engine, AIRHILT synchronizes pilot and ATC radio communications, visual scene understanding from camera streams, and ADS-B surveillance data within a unified, scalable platform. The environment supports pilot- and controller-in-the-loop interactions, providing a comprehensive scenario suite covering both terminal area and en route operational conflicts, including communication errors and procedural mistakes. AIRHILT offers standardized JSON-based interfaces that enable researchers to easily integrate, swap, and evaluate automatic speech recognition (ASR), visual detection, decision-making, and text-to-speech (TTS) models. We demonstrate AIRHILT through a reference pipeline incorporating fine-tuned Whisper ASR, YOLO-based visual detection, ADS-B-based conflict logic, and GPT-OSS-20B structured reasoning, and present preliminary results from representative runway-overlap scenarios, where the assistant achieves an average time-to-first-warning of approximately 7.7 s, with average ASR and vision latencies of approximately 5.9 s and 0.4 s, respectively. The AIRHILT environment and scenario suite are openly available, supporting reproducible research on multimodal situational awareness and conflict detection in aviation; code and scenarios are available at https://github.com/ogarib3/airhilt.
我们推出了AIRHILT(航空综合推理人机循环测试平台),这是一个模块化、轻量级的仿真环境,旨在评估航空冲突检测的多模式飞行员和空中交通管制(ATC)辅助系统。AIRHILT建立在开源的Godot引擎之上,同步飞行员和ATC无线电通信、来自摄像头流的视觉场景理解以及ADS-B监控数据,在一个统一、可扩展的平台内。该环境支持飞行员和控制器循环交互,提供了一个全面的场景套件,涵盖终端区域和航路运营冲突,包括通信错误和程序错误。AIRHILT提供基于标准化的JSON接口,使研究人员能够轻松集成、替换和评估自动语音识别(ASR)、视觉检测、决策和文本到语音(TTS)模型。我们通过参考管道展示了AIRHILT,该管道结合了精细调整的Whisper ASR、基于YOLO的视觉检测、基于ADS-B的冲突逻辑和GPT-OSS-20B结构化推理,并给出了有代表性的跑道重叠场景的初步结果,其中助理平均首次警告时间为约7.7秒,ASR和视觉的平均延迟时间分别为约5.9秒和0.4秒。AIRHILT环境和场景套件公开可用,支持航空多模式态势感知和冲突检测的复现研究;代码和场景可在https://github.com/ogarib3/airhilt找到。
论文及项目相关链接
PDF 9 pages, 4 figures, 1 table, 1 algorithm
Summary
航空综合推理人机协同测试环境(AIRHILT)是一个模块化、轻量级的仿真环境,用于评估航空冲突检测的多模式飞行员及空中交通管制(ATC)辅助系统。它同步飞行员和ATC的无线电通信、摄像头流理解的视觉场景以及ADS-B监控数据,在一个统一、可扩展的平台内支持飞行员和控制器协同交互,并提供涵盖终端区域和航路操作冲突的全面场景套件。通过标准化JSON接口,研究者可轻松集成、替换和评估语音识别、视觉检测、决策和语音合成模型。
Key Takeaways
- AIRHILT是一个用于评估航空冲突检测辅助系统的仿真环境。
- 它支持多模式数据同步,包括无线电通信、视觉场景理解和ADS-B监控数据。
- AIRHILT提供一个统一、模块化和轻量级的平台,适用于研究和评估。
- 环境支持飞行员和控制器协同交互,涵盖多种航空冲突场景。
- 通过标准化JSON接口,用户可以轻松集成和评估不同的技术模型。
- 参考管道展示了AIRHILT的应用实例,包括语音识别、视觉检测、冲突逻辑和结构化推理。
点此查看论文截图
InstructAudio: Unified speech and music generation with natural language instruction
Authors:Chunyu Qiang, Kang Yin, Xiaopeng Wang, Yuzhe Liang, Jiahui Zhao, Ruibo Fu, Tianrui Wang, Cheng Gong, Chen Zhang, Longbiao Wang, Jianwu Dang
Text-to-speech (TTS) and text-to-music (TTM) models face significant limitations in instruction-based control. TTS systems usually depend on reference audio for timbre, offer only limited text-level attribute control, and rarely support dialogue generation. TTM systems are constrained by input conditioning requirements that depend on expert knowledge annotations. The high heterogeneity of these input control conditions makes them difficult to joint modeling with speech synthesis. Despite sharing common acoustic modeling characteristics, these two tasks have long been developed independently, leaving open the challenge of achieving unified modeling through natural language instructions. We introduce InstructAudio, a unified framework that enables instruction-based (natural language descriptions) control of acoustic attributes including timbre (gender, age), paralinguistic (emotion, style, accent), and musical (genre, instrument, rhythm, atmosphere). It supports expressive speech, music, and dialogue generation in English and Chinese. The model employs joint and single diffusion transformer layers with a standardized instruction-phoneme input format, trained on 50K hours of speech and 20K hours of music data, enabling multi-task learning and cross-modal alignment. Fig. 1 visualizes performance comparisons with mainstream TTS and TTM models, demonstrating that InstructAudio achieves optimal results on most metrics. To our best knowledge, InstructAudio represents the first instruction-controlled framework unifying speech and music generation. Audio samples are available at: https://qiangchunyu.github.io/InstructAudio/
文本转语音(TTS)和文本转音乐(TTM)模型在基于指令的控制上存在着显著局限性。TTS系统通常依赖于参考音频的音色,仅提供有限的文本级别属性控制,并且很少支持对话生成。TTM系统受到输入条件要求的约束,这些要求依赖于专家知识注释。这些输入控制条件的高度异质性使得它们与语音合成的联合建模变得困难。尽管具有共同的声学建模特征,但这两个任务长期以来一直在独立发展,因此面临通过自然语言指令实现统一建模的挑战。我们引入了InstructAudio,这是一个统一的框架,能够通过自然语言描述(指令)控制音频属性,包括音色(性别、年龄)、副语言(情感、风格、口音)和音乐(流派、乐器、节奏、氛围)。它支持英语和中文的表达性语音、音乐和对话生成。该模型采用联合和单一扩散变压器层,具有标准化的指令-音素输入格式,经过5万小时语音和2万小时音乐数据的训练,可实现多任务学习和跨模态对齐。图1与主流TTS和TTM模型进行了性能比较可视化,证明了InstructAudio在大多数指标上取得了最佳结果。据我们所知,InstructAudio是第一个统一语音和音乐生成、实现指令控制的框架。音频样本可在:[https://qiangchunyu.github.io/InstructAudio/]下载。
论文及项目相关链接
Summary
基于自然语言指令的音频控制框架InstructAudio,实现语音和音乐生成的统一建模。支持多种音频属性控制,包括音质、语调、情感、风格等。采用扩散转换器层进行多任务学习和跨模态对齐,实现英语和中文的表达性语音、音乐和对话生成。与主流TTS和TTM模型相比,InstructAudio在多数指标上表现最佳。
Key Takeaways
- InstructAudio是一个统一框架,实现文本转语音(TTS)和文本转音乐(TTM)的指令控制。
- 支持多种音频属性的控制,包括音质、语调、情感、风格等自然语言的描述。
- 采用联合和单一扩散转换器层进行多任务学习和跨模态对齐。
- 该框架支持英语和中文的表达性语音、音乐和对话生成。
- InstructAudio使用标准化的指令-音素输入格式进行训练。
- 框架训练数据包含50K小时的语音和20K小时的音乐数据。
点此查看论文截图
A Multimodal Conversational Agent for Tabular Data Analysis
Authors:Mohammad Nour Al Awad, Sergey Ivanov, Olga Tikhonova, Ivan Khodnenko
Large language models (LLMs) can reshape information processing by handling data analysis, visualization, and interpretation in an interactive, context-aware dialogue with users, including voice interaction, while maintaining high performance. In this article, we present Talk2Data, a multimodal LLM-driven conversational agent for intuitive data exploration. The system lets users query datasets with voice or text instructions and receive answers as plots, tables, statistics, or spoken explanations. Built on LLMs, the suggested design combines OpenAI Whisper automatic speech recognition (ASR) system, Qwen-coder code generation LLM/model, custom sandboxed execution tools, and Coqui library for text-to-speech (TTS) within an agentic orchestration loop. Unlike text-only analysis tools, it adapts responses across modalities and supports multi-turn dialogues grounded in dataset context. In an evaluation of 48 tasks on three datasets, our prototype achieved 95.8% accuracy with model-only generation time under 1.7 seconds (excluding ASR and execution time). A comparison across five LLM sizes (1.5B-32B) revealed accuracy-latency-cost trade-offs, with a 7B model providing the best balance for interactive use. By routing between conversation with user and code execution, constrained to a transparent sandbox, with simultaneously grounding prompts in schema-level context, the Talk2Data agent reliably retrieves actionable insights from tables while making computations verifiable. In the article, except for the Talk2Data agent itself, we discuss implications for human-data interaction, trust in LLM-driven analytics, and future extensions toward large-scale multimodal assistants.
大型语言模型(LLM)可以通过与用户进行交互式的、语境感知的对话来处理数据分析、可视化和解释,同时保持高性能,从而重塑信息处理。在本文中,我们介绍了Talk2Data,这是一个用于直观数据探索的多模式LLM驱动对话代理。该系统让用户使用语音或文本指令查询数据集,并以图表、表格、统计或口头解释的形式接收答案。该系统建立在大型语言模型的基础上,结合了OpenAI的Whisper自动语音识别(ASR)系统、Qwen-coder的代码生成大型语言模型/模型、自定义的沙箱执行工具和用于文本到语音(TTS)的Coqui库,在一个代理编排循环中。与仅使用文本的分析工具不同,它可以在不同模式之间适应响应,并支持基于数据集上下文的多轮对话。在三个数据集上的48项任务评估中,我们的原型达到了95.8%的准确率,仅模型生成时间低于1.7秒(不包括ASR和执行时间)。对五个不同规模的大型语言模型(1.5B-32B)的比较显示,准确性与延迟和成本之间存在权衡,7B的模型在交互式使用方面提供了最佳平衡。通过在用户对话与代码执行之间进行路由选择,同时在模式级别上下文中对提示进行定位,Talk2Data代理能够可靠地从表格中提取可操作的信息,同时使计算可验证。在文章中,除了Talk2Data代理本身,我们还讨论了人与数据交互的启示、对LLM驱动分析的可信性以及未来向大规模多模式助理扩展的方向。
论文及项目相关链接
PDF \c{opyright} 2025 IEEE. Personal use of this material is permitted. Permission from IEEE must be obtained for all other uses
摘要
大型语言模型(LLM)可以通过处理数据分析、可视化和解释来重塑信息处理,以与用户进行交互式的、语境感知的对话方式,包括语音交互,同时保持高性能。本文介绍了Talk2Data,这是一个由多模态LLM驱动用于直观数据探索的对话代理。系统允许用户通过语音或文本指令查询数据集,并以图表、表格、统计信息或口头解释的形式接收答案。该设计结合了OpenAI的自动语音识别(ASR)系统、Qwen-coder的代码生成LLM/模型、自定义的沙箱执行工具和Coqui的文本到语音(TTS)库,在一个代理协同循环中发挥作用。与仅使用文本的分析工具不同,Talk2Data可以适应跨模式的响应并支持基于数据集上下文的多轮对话。在三个数据集上的48项任务评估中,我们的原型达到了95.8%的准确率,模型生成时间仅在1.7秒内(不包括ASR和执行时间)。在五款LLM规模(从大到小分别是其重要的实践建议对未来的探索研究和相关的推测是价值比较高的一致提出了应对将来会有更好地运用在本篇文章中除了介绍Talk2Data代理本身外还讨论了人类与数据的交互以及对LLM驱动分析的可信度和未来大型多模态助理的扩展方向。在对话与用户交互和代码执行之间建立联系的同时在模式级别上下文中建立提示Talk2Data代理可靠地从表格中提取可操作见解同时使计算可验证。我们相信这种基于对话式的大型语言模型会深刻改变人与数据的交互方式推动机器学习的发展和应用更广泛的前沿领域实现更高效率和准确性使数据和人类更好地结合达到更加高效的应用体验促进了技术发展带给人们带来的实际价值和便利性也更加广泛对于行业的潜在价值很大!保持人类对计算发展的充分认识和可持续性尤为重要更成熟的训练数据集改进前沿技术以及可持续公平经济体系的支持都将成为实现这种发展的关键因素!将实现人类智能和技术发展更好的融合推动社会的整体进步!总的来说大型语言模型有着广泛的应用前景并且在数据处理领域也有着重要的作用本文介绍了基于大型语言模型的对话式数据探索工具Talk2Data及其在不同数据集上的表现优势和未来的发展前景具有广阔的应用前景和重要的社会价值。此外对于未来的发展方向和技术挑战也进行了深入的探讨。我们相信随着技术的不断进步和发展大型语言模型将在未来的数据处理领域中发挥更加重要的作用。随着更多的研究和开发工作的进行以及技术的不断完善大型语言模型将更好地满足用户的需求提供更好的服务和体验为人类带来更加便捷和高效的生活和工作方式。同时我们也需要注意到在推进技术发展的同时还需要关注其可能带来的挑战和问题如隐私保护数据安全等问题以确保技术的可持续发展和社会的和谐稳定。我们相信大型语言模型将会成为未来数据处理领域的核心技术在未来的发展中将会发挥更加重要的作用并实现更加广泛的应用为人类带来更加美好的未来!也相信我们能够通过不断的研究和创新克服挑战实现技术发展的同时更好地满足社会的需求和促进人类的福祉!尽管仍存在许多挑战但我们对其未来的潜力充满信心并相信它能够极大地改善我们的生活和工作方式促进社会的发展和进步!
Key Takeaways
- 大型语言模型(LLM)在信息处理和数据分析领域展现出重塑能力,支持多模态交互,包括语音和文本。
- Talk2Data是一个基于LLM的对话式数据探索工具,允许用户通过语音或文本查询数据集,并获得多模态响应。
- Talk2Data结合了多种技术,包括自动语音识别(ASR)、代码生成LLM、沙箱执行工具和文本到语音(TTS)库。
- 在数据集上的评估显示,Talk2Data原型具有高准确率和快速响应能力。
- 不同规模的LLM在准确性、延迟和成本之间存在权衡,中等规模模型在交互式使用中具有最佳平衡。
- Talk2Data代理能够在透明的沙箱环境中可靠地提取数据中的可操作见解,并使得计算可验证。
点此查看论文截图
A superpersuasive autonomous policy debating system
Authors:Allen Roush, Devin Gonier, John Hines, Judah Goldfeder, Philippe Martin Wyder, Sanjay Basu, Ravid Shwartz Ziv
The capacity for highly complex, evidence-based, and strategically adaptive persuasion remains a formidable great challenge for artificial intelligence. Previous work, like IBM Project Debater, focused on generating persuasive speeches in simplified and shortened debate formats intended for relatively lay audiences. We introduce DeepDebater, a novel autonomous system capable of participating in and winning a full, unmodified, two-team competitive policy debate. Our system employs a hierarchical architecture of specialized multi-agent workflows, where teams of LLM-powered agents collaborate and critique one another to perform discrete argumentative tasks. Each workflow utilizes iterative retrieval, synthesis, and self-correction using a massive corpus of policy debate evidence (OpenDebateEvidence) and produces complete speech transcripts, cross-examinations, and rebuttals. We introduce a live, interactive end-to-end presentation pipeline that renders debates with AI speech and animation: transcripts are surface-realized and synthesized to audio with OpenAI TTS, and then displayed as talking-head portrait videos with EchoMimic V1. Beyond fully autonomous matches (AI vs AI), DeepDebater supports hybrid human-AI operation: human debaters can intervene at any stage, and humans can optionally serve as opponents against AI in any speech, allowing AI-human and AI-AI rounds. In preliminary evaluations against human-authored cases, DeepDebater produces qualitatively superior argumentative components and consistently wins simulated rounds as adjudicated by an independent autonomous judge. Expert human debate coaches also prefer the arguments, evidence, and cases constructed by DeepDebater. We open source all code, generated speech transcripts, audio and talking head video here: https://github.com/Hellisotherpeople/DeepDebater/tree/main
人工智能在面对高度复杂、基于证据且策略上可适应的劝服任务时,仍然面临巨大的挑战。像IBM的Project Debater等早期工作主要关注在简化和缩短辩论形式下生成说服性演讲,目标受众是相对非专业的群体。我们推出了DeepDebater,这是一种新型自主系统,能够参与并赢得完整、未经修改的两队竞争性政策辩论。我们的系统采用层次化的多代理工作流程架构,由多个大型语言模型驱动的代理团队相互协作和批判,以执行离散论证任务。每个工作流程都利用迭代检索、综合和自校正,借助大量的政策辩论证据(OpenDebateEvidence),生成完整的演讲稿、交叉审查和反驳。我们引入了一个实时、交互式的端到端展示管道,通过人工智能语音和动画呈现辩论:演讲稿通过OpenAI的TTS技术实现表面现实并合成音频,然后作为头像视频显示与EchoMimic V1结合。除了完全自主的比赛(AI对AI),DeepDebater还支持人机混合操作:人类辩手可在任何阶段介入,人类也可选择作为任何演讲中的AI对手,进行人机对战或AI与AI的回合制比赛。初步评估与针对人类作者案例的对比中,DeepDebater生成的论证成分在质量上更胜一筹,并且作为独立裁判机构判定,其持续赢得模拟回合制比赛。专业的人类辩论教练也更倾向于喜欢DeepDebater构建的论点、证据和案例。所有代码、生成的演讲稿、音频和谈话头视频均已在此开源:https://github.com/Hellisotherpeople/DeepDebater/tree/main
论文及项目相关链接
PDF Accepted to CLIP workshop at AAAI 2026
摘要
人工智能面临的一个巨大挑战是发展能够进行复杂、基于证据和策略性适应的劝服能力。之前的研究如IBM的Project Debater主要关注在简化和缩短辩论形式中生成说服性演讲,面向相对普通的观众。本文介绍了一种新型自主系统DeepDebater,它能够参与并赢得完整、未经修改的两队竞技政策辩论。该系统采用分层架构,设有多个专业多智能体工作流程,团队中的大型语言模型驱动的智能体能相互协作、相互评价,执行离散论证任务。每个流程利用迭代检索、综合和自我修正的大规模政策辩论证据集,生成完整的演讲稿、交叉审查和总结。系统引入了实时交互式端到端演示管道,通过OpenAI的TTS将辩论文字转化为语音并合成音频,再通过EchoMimic V1显示为带有讲话者头像的视频。DeepDebater不仅支持完全自主的比赛(AI对抗AI),还支持人机混合操作:人类辩手可在任何阶段进行干预,人类也可选择在任何演讲阶段与AI对抗。初步评估表明,DeepDebater在针对人类编写的案例方面表现出色,构建的论证、证据和案例受到专家人类辩论教练的青睐。
关键见解
- DeepDebater是一个新型自主系统,能参与并赢得完整、未经修改的政策辩论。
- 系统采用分层架构的多智能体工作流程,实现专业化协作和相互评价。
- 利用大规模政策辩论证据集进行迭代检索、综合和自我修正。
- DeepDebater支持实时交互式辩论演示管道,包括语音合成和讲话者头像视频显示。
- 系统既支持完全自主比赛,也支持人机混合操作,人类辩手可随时介入。
- DeepDebater在初步评估中表现出色,构建的论证受到专家人类辩论教练的青睐。
- 所有代码、生成的演讲文字、音频和讲话者视频均已开源。
点此查看论文截图
FoleyBench: A Benchmark For Video-to-Audio Models
Authors:Satvik Dixit, Koichi Saito, Zhi Zhong, Yuki Mitsufuji, Chris Donahue
Video-to-audio generation (V2A) is of increasing importance in domains such as film post-production, AR/VR, and sound design, particularly for the creation of Foley sound effects synchronized with on-screen actions. Foley requires generating audio that is both semantically aligned with visible events and temporally aligned with their timing. Yet, there is a mismatch between evaluation and downstream applications due to the absence of a benchmark tailored to Foley-style scenarios. We find that 74% of videos from past evaluation datasets have poor audio-visual correspondence. Moreover, they are dominated by speech and music, domains that lie outside the use case for Foley. To address this gap, we introduce FoleyBench, the first large-scale benchmark explicitly designed for Foley-style V2A evaluation. FoleyBench contains 5,000 (video, ground-truth audio, text caption) triplets, each featuring visible sound sources with audio causally tied to on-screen events. The dataset is built using an automated, scalable pipeline applied to in-the-wild internet videos from YouTube-based and Vimeo-based sources. Compared to past datasets, we show that videos from FoleyBench have stronger coverage of sound categories from a taxonomy specifically designed for Foley sound. Each clip is further labeled with metadata capturing source complexity, UCS/AudioSet category, and video length, enabling fine-grained analysis of model performance and failure modes. We benchmark several state-of-the-art V2A models, evaluating them on audio quality, audio-video alignment, temporal synchronization, and audio-text consistency. Samples are available at: https://gclef-cmu.org/foleybench
视频转音频生成(V2A)在电影后期制作、AR/VR和声音设计等领域中的重要性日益增加,特别是在创建与屏幕动作同步的福莱音效效果方面。福莱音效需要生成与可见事件语义上对齐并且与其时间对齐的音频。然而,由于缺乏针对福莱风格场景的基准测试,评估与下游应用之间存在不匹配。我们发现过去评估数据集中的74%的视频存在音视频对应不良的情况。此外,它们主要以语音和音乐为主,这些领域并不适用于福莱音效。为了解决这一空白,我们引入了FoleyBench,这是专门为福莱风格的V2A评估设计的大型基准测试。FoleyBench包含5000个(视频、地面真实音频、文本标题)三元组,每个三元组都包含可见的声源,音频与屏幕上的事件有因果关系。该数据集是通过应用于YouTube和Vimeo等来源的野生互联网视频的自动化、可扩展管道构建的。与过去的数据集相比,我们显示FoleyBench的视频更广泛地涵盖了专门为福莱音效设计的分类中的声音类别。每个剪辑都进一步用元数据标记,捕获源复杂性、UCS/AudioSet类别和视频长度,实现对模型性能和失败模式的精细分析。我们对一些先进的V2A模型进行了基准测试,评估它们在音频质量、音视频对齐、时间同步和音频文本一致性方面的表现。样本可通过以下网址获取:网站链接
论文及项目相关链接
摘要
视频转音频生成(V2A)在电影后期制作、AR/VR和声音设计等领域的重要性日益增加,特别是在创建与屏幕动作同步的福莱音效方面。然而,由于缺乏针对福莱风格的基准测试,评估和下游应用之间存在不匹配。我们发现过去评估数据集中的74%的视频存在音视频对应不良的情况。而且,它们主要集中在语音和音乐领域,这些领域并不适用于福莱。为解决这一空白,我们推出了FoleyBench,这是专门为福莱风格的V2A评估设计的首个大规模基准测试。FoleyBench包含5000个(视频、地面真实音频、文本字幕)三元组,每个三元组都具有与屏幕事件因果相关的可见声源。该数据集是使用应用于YouTube和Vimeo等来源的野生互联网视频的自动化、可扩展管道构建的。与过去的数据集相比,我们显示FoleyBench的视频在专门设计用于福莱声音的类别方面覆盖得更广泛。每个剪辑都进一步用元数据标记,捕捉源复杂性、UCS/AudioSet类别和视频长度,实现对模型性能和失败模式的精细分析。我们对几个先进的V2A模型进行了基准测试,评估它们在音频质量、音视频对齐、时间同步和音频文本一致性方面的表现。
关键见解
- 视频转音频生成(V2A)在多个领域中的应用日益重要,特别是在创建与屏幕动作同步的福莱音效方面。
- 缺乏针对福莱风格的基准测试导致评估和下游应用之间存在不匹配。
- 过去评估数据集中的74%的视频存在音视频对应不良的情况。
- FoleyBench是首个专门为福莱风格的V2A评估设计的基准测试,包含5000个视频片段。
- FoleyBench的视频片段涵盖了广泛的声音类别,这些类别是专门为了福莱声音而设计的。
- 每个视频片段都附带元数据标签,以进行更精细的模型性能分析。
点此查看论文截图
Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data
Authors:Yunxin Li, Xinyu Chen, Shenyuan Jiang, Haoyuan Shi, Zhenyu Liu, Xuanyu Zhang, Nanhao Deng, Zhenran Xu, Yicheng Ma, Meishan Zhang, Baotian Hu, Min Zhang
We present Uni-MoE 2.0 from the Lychee family. As a fully open-source omnimodal large model (OLM), it substantially advances Lychee’s Uni-MoE series in language-centric multimodal understanding, reasoning, and generating. Based on the dense LLM, we build Uni-MoE-2.0-Omni from scratch through three core contributions: dynamic-capacity Mixture-of-Experts (MoE) design, a progressive training strategy enhanced with an iterative reinforcement strategy, and a carefully curated multimodal data matching technique. It is capable of omnimodal understanding, as well as generating images, text, and speech. Architecturally, our new MoE framework balances computational efficiency and capability for 10 cross-modal inputs using shared, routed, and null experts, while our Omni-Modality 3D RoPE ensures spatio-temporal cross-modality alignment in the self-attention layer. For training, following cross-modal pretraining, we use a progressive supervised fine-tuning strategy that activates modality-specific experts and is enhanced by balanced data composition and an iterative GSPO-DPO method to stabilise RL training and improve reasoning. Data-wise, the base model, trained on approximately 75B tokens of open-source multimodal data, is equipped with special speech and image generation tokens, allowing it to learn these generative tasks by conditioning its outputs on linguistic cues. Extensive evaluation across 85 benchmarks demonstrates that our model achieves SOTA or highly competitive performance against leading OLMs, surpassing Qwen2.5-Omni (trained with 1.2T tokens) on over 50 of 76 benchmarks. Key strengths include video understanding (+7% avg. of 8), omnimodallity understanding (+7% avg. of 4), and audiovisual reasoning (+4%). It also advances long-form speech processing (reducing WER by 4.2%) and leads in low-level image processing and controllable generation across 5 metrics.
我们推出了Lychee系列的Uni-MoE 2.0。作为一款全开源的跨模态大型模型(OLM),它显著地推进了Lychee的Uni-MoE系列在语言为中心的跨模态理解、推理和生成方面的能力。基于稠密的大型语言模型,我们从零开始构建了Uni-MoE-2.0-Omni,主要通过三个核心贡献:动态容量的Mixture-of-Experts(MoE)设计、采用迭代强化策略的进步训练策略以及精心挑选的跨模态数据匹配技术。它具备跨模态理解的能力,并且能够生成图像、文本和语音。
论文及项目相关链接
PDF 47 pages,10 Figures, Project Website: https://idealistxy.github.io/Uni-MoE-v2.github.io/ Codes: https://github.com/HITsz-TMG/Uni-MoE
Summary
Uni-MoE 2.0是Lychee家族中的全新开放式多模态大型模型(OLM),它显著提升了Lychee的Uni-MoE系列在语言为中心的多模态理解、推理和生成能力。该模型通过动态容量的Mixture-of-Experts(MoE)设计、渐进训练策略与迭代强化策略以及精心策划的多模态数据匹配技术,从零开始构建Uni-MoE-2.0-Omni。它能进行多模态理解,并生成图像、文本和语音。模型架构上,新的MoE框架在10种跨模态输入上实现了计算效率和能力的平衡,而Omni-Modality 3D RoPE则确保了自注意力层中的时空跨模态对齐。训练方面,模型采用渐进式监督微调策略,激活模态特定专家,并通过平衡数据组成和迭代GSPO-DPO方法来稳定强化学习训练并提高推理能力。该模型在大约75B令牌开源多模态数据上进行训练,并配备了特殊的语音和图像生成令牌,允许它根据语言线索来学习这些生成任务。在85个基准测试上的评估表明,该模型达到了或高度接近于领先OLM的性能,在超过50个基准测试中超过了使用1.2T令牌训练的Qwen2.5-Omni。关键优势包括视频理解(+7%平均准确率)、多模态理解(+7%平均准确率)和视听推理(+4%)。同时,它还在长语音处理(降低WER 4.2%)以及低级别图像处理和可控生成方面表现出色。
Key Takeaways
- Uni-MoE 2.0是一个全开源的多模态大型模型(OLM),显著提升了Lychee的Uni-MoE系列在语言为中心的多模态理解、推理和生成能力。
- 该模型通过动态容量的Mixture-of-Experts设计、渐进训练策略和精心策划的多模态数据匹配技术等进行构建。
- 模型具备多模态理解,并能生成图像、文本和语音。
- 在架构上,新的MoE框架实现了计算效率和跨模态输入能力的平衡。
- 模型采用渐进式监督微调策略,通过激活模态特定专家以及采用平衡数据组成和迭代GSPO-DPO方法来提高性能。
- 该模型在大量开源多模态数据上进行训练,并具备先进的视频理解、多模态理解、视听推理、长语音处理和图像生成能力。
点此查看论文截图
SynTTS-Commands: A Public Dataset for On-Device KWS via TTS-Synthesized Multilingual Speech
Authors:Lu Gan, Xi Li
The development of high-performance, on-device keyword spotting (KWS) systems for ultra-low-power hardware is critically constrained by the scarcity of specialized, multi-command training datasets. Traditional data collection through human recording is costly, slow, and lacks scalability. This paper introduces SYNTTS-COMMANDS, a novel, multilingual voice command dataset entirely generated using state-of-the-art Text-to-Speech (TTS) synthesis. By leveraging the CosyVoice 2 model and speaker embeddings from public corpora, we created a scalable collection of English and Chinese commands. Extensive benchmarking across a range of efficient acoustic models demonstrates that our synthetic dataset enables exceptional accuracy, achieving up to 99.5% on English and 98% on Chinese command recognition. These results robustly validate that synthetic speech can effectively replace human-recorded audio for training KWS classifiers. Our work directly addresses the data bottleneck in TinyML, providing a practical, scalable foundation for building private, low-latency, and energy-efficient voice interfaces on resource-constrained edge devices. The dataset and source code are publicly available at https://github.com/lugan113/SynTTS-Commands-Official.
高性能、设备端关键词识别(KWS)系统在超低功耗硬件上的发展受到了专业多命令训练数据集稀缺的严重制约。传统的通过人工录音的数据收集方式成本高昂、速度慢且缺乏可扩展性。本文介绍了SYNTTS-COMMANDS,一种全新多语种语音指令数据集,它完全由最新的文本转语音(TTS)合成生成。我们通过利用CosyVoice 2模型和公开语料库中的说话人嵌入技术,创建了一个可扩展的英语和中文指令集合。在一系列高效的声学模型上的广泛基准测试表明,我们的合成数据集能够实现出色的准确性,在英语指令识别上达到99.5%,在中文指令识别上达到98%。这些结果稳健地验证了合成语音可以有效地替代人工录音的音频,用于训练KWS分类器。我们的工作直接解决了TinyML中的数据瓶颈问题,为在资源受限的边缘设备上构建私有、低延迟和节能的语音接口提供了实用且可扩展的基础。数据集和源代码可在https://github.com/lugan113/SynTTS-Commands-Official获取。
论文及项目相关链接
Summary
该论文通过引入SYNTTS-COMMANDS这一全新的多语种语音指令数据集,解决了高性能设备端关键词识别系统对于超低功耗硬件的开发瓶颈。该数据集完全采用先进的文本转语音技术生成,利用CosyVoice 2模型和公开语料库的说话人嵌入信息,创建了包含英语和中文命令的可扩展数据集。实验表明,该合成数据集在多种高效声学模型上的表现优异,英语命令识别率高达99.5%,中文命令识别率也达到了98%。这验证了合成语音可以有效替代人类录音用于训练关键词识别分类器。该研究解决了TinyML领域的数据瓶颈问题,为构建资源受限的边缘设备上的私有、低延迟和节能的语音接口提供了实际和可扩展的基础。数据集和相关源代码已在GitHub上公开提供。
Key Takeaways
以下是文本中七个关键的见解:
- SYNTTS-COMMANDS是一个全新的多语种语音指令数据集,完全通过先进的文本转语音技术生成。
- 该数据集利用CosyVoice 2模型和公开语料库的说话人嵌入信息创建,包含英语和中文命令,具有可扩展性。
- 实验显示,该合成数据集在多种声学模型上的表现优秀,英语命令识别率高达99.5%,中文命令识别率为98%。
- 合成语音可以有效替代人类录音用于训练关键词识别分类器,解决了数据收集成本高昂、速度慢和缺乏可扩展性的问题。
- 该研究解决了TinyML领域的数据瓶颈问题,为构建资源受限的边缘设备上的语音接口提供了实际和可扩展的基础。
- 该论文的工作对于构建私有、低延迟和节能的语音接口具有重要意义。
点此查看论文截图
Ming-Flash-Omni: A Sparse, Unified Architecture for Multimodal Perception and Generation
Authors:Inclusion AI, :, Bowen Ma, Cheng Zou, Canxiang Yan, Chunxiang Jin, Chunjie Shen, Chenyu Lian, Dandan Zheng, Fudong Wang, Furong Xu, GuangMing Yao, Jun Zhou, Jingdong Chen, Jianing Li, Jianxin Sun, Jiajia Liu, Jian Sha, Jianjiang Zhu, Jianping Jiang, Jun Peng, Kaixiang Ji, Kaimeng Ren, Libin Wang, Lixiang Ru, Longhua Tan, Lu Ma, Lan Wang, Mochen Bai, Ning Gao, Qingpei Guo, Qinglong Zhang, Qiang Xu, Rui Liu, Ruijie Xiong, Ruobing Zheng, Sirui Gao, Tao Zhang, Tianqi Li, Tinghao Liu, Weilong Chai, Xinyu Xiao, Xiaomei Wang, Xiaolong Wang, Xiao Lu, Xiaoyu Li, Xingning Dong, Xuzheng Yu, Yi Yuan, Yuting Gao, Yuting Xiao, Yunxiao Sun, Yipeng Chen, Yifan Mao, Yifei Wu, Yongjie Lyu, Ziping Ma, Zhiqiang Fang, Zhihao Qiu, Ziyuan Huang, Zizheng Yang, Zhengyu He
We propose Ming-Flash-Omni, an upgraded version of Ming-Omni, built upon a sparser Mixture-of-Experts (MoE) variant of Ling-Flash-2.0 with 100 billion total parameters, of which only 6.1 billion are active per token. This architecture enables highly efficient scaling (dramatically improving computational efficiency while significantly expanding model capacity) and empowers stronger unified multimodal intelligence across vision, speech, and language, representing a key step toward Artificial General Intelligence (AGI). Compared to its predecessor, the upgraded version exhibits substantial improvements across multimodal understanding and generation. We significantly advance speech recognition capabilities, achieving state-of-the-art performance in contextual ASR and highly competitive results in dialect-aware ASR. In image generation, Ming-Flash-Omni introduces high-fidelity text rendering and demonstrates marked gains in scene consistency and identity preservation during image editing. Furthermore, Ming-Flash-Omni introduces generative segmentation, a capability that not only achieves strong standalone segmentation performance but also enhances spatial control in image generation and improves editing consistency. Notably, Ming-Flash-Omni achieves state-of-the-art results in text-to-image generation and generative segmentation, and sets new records on all 12 contextual ASR benchmarks, all within a single unified architecture.
我们提出了Ming-Flash-Omni,它是Ming-Omni的升级版,建立在基于稀疏的专家混合(MoE)变体的Ling-Flash-2.0之上,总共有100亿个参数,其中每个标记只有6.1亿个是活跃的。这一架构实现了高效扩展(在大幅提高计算效率的同时显著扩大了模型容量),并在视觉、语音和语言的统一跨模态智能方面表现出更强的能力,是迈向通用人工智能(AGI)的关键一步。与前代产品相比,升级版在跨模态理解和生成方面取得了显著进步。我们极大地提高了语音识别能力,在上下文ASR方面达到了最先进的性能,并在方言感知ASR方面取得了具有竞争力的结果。在图像生成方面,Ming-Flash-Omni引入了高保真文本渲染,并在场景一致性和身份保留方面取得了显著进步。此外,Ming-Flash-Omni还引入了生成分割功能,这一功能不仅实现了强大的独立分割性能,还提高了图像生成的空间控制能力并改善了编辑一致性。值得注意的是,Ming-Flash-Omni在文本到图像生成和生成分割方面达到了最先进的结果,并在所有12个上下文ASR基准测试中创造了新纪录,所有这些都在一个统一的架构内完成。
论文及项目相关链接
PDF 18 pages, 5 figures
Summary
基于Mixture-of-Experts(MoE)架构的精简变体Ling-Flash-2.0,Ming-Flash-Omni展现出高度有效的扩展能力和强大的跨视觉、语音和语言的统一多模态智能。该升级版本在多方面显著超越了其前身Ming-Omni,特别是在多模态理解和生成方面取得了重要突破。其语音识别的性能提升尤为显著,在上下文ASR(自动语音识别)领域达到顶尖水平,并在方言ASR领域也取得了高度竞争的结果。此外,Ming-Flash-Omni还在图像生成方面引入了高保真文本渲染,场景一致性和身份保留编辑功能得到了显著改善。更重要的是,Ming-Flash-Omni在文本到图像生成和生成分割方面达到了顶尖水平,为构建人工智能通用化(AGI)迈出了重要一步。
Key Takeaways
- Ming-Flash-Omni是基于稀疏的Mixture-of-Experts(MoE)架构构建的升级版本,相较于Ling-Flash-2.0更为高效。
- 该版本模型实现了跨视觉、语音和语言的统一多模态智能的大幅提升。
- Ming-Flash-Omni在多模态理解和生成方面显著超越了其前身Ming-Omni。
- 在语音识别方面,Ming-Flash-Omni取得了显著的性能提升,尤其在上下文ASR和方言ASR方面表现优秀。
- 在图像生成方面,Ming-Flash-Omni引入了高保真文本渲染功能,并且在场景一致性和身份保留编辑方面有了显著改善。
- Ming-Flash-Omni引入了生成分割功能,不仅实现了强大的独立分割性能,还提升了图像生成的空间控制力和编辑一致性。
点此查看论文截图
Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models
Authors:Yolo Y. Tang, Jing Bi, Pinxin Liu, Zhenyu Pan, Zhangyun Tan, Qianxiang Shen, Jiani Liu, Hang Hua, Junjia Guo, Yunzhong Xiao, Chao Huang, Zhiyuan Wang, Susan Liang, Xinyi Liu, Yizhi Song, Junhua Huang, Jia-Xing Zhong, Bozheng Li, Daiqing Qi, Ziyun Zeng, Ali Vosoughi, Luchuan Song, Zeliang Zhang, Daiki Shimada, Han Liu, Jiebo Luo, Chenliang Xu
Video understanding represents the most challenging frontier in computer vision, requiring models to reason about complex spatiotemporal relationships, long-term dependencies, and multimodal evidence. The recent emergence of Video-Large Multimodal Models (Video-LMMs), which integrate visual encoders with powerful decoder-based language models, has demonstrated remarkable capabilities in video understanding tasks. However, the critical phase that transforms these models from basic perception systems into sophisticated reasoning engines, post-training, remains fragmented across the literature. This survey provides the first comprehensive examination of post-training methodologies for Video-LMMs, encompassing three fundamental pillars: supervised fine-tuning (SFT) with chain-of-thought, reinforcement learning (RL) from verifiable objectives, and test-time scaling (TTS) through enhanced inference computation. We present a structured taxonomy that clarifies the roles, interconnections, and video-specific adaptations of these techniques, addressing unique challenges such as temporal localization, spatiotemporal grounding, long video efficiency, and multimodal evidence integration. Through systematic analysis of representative methods, we synthesize key design principles, insights, and evaluation protocols while identifying critical open challenges in reward design, scalability, and cost-performance optimization. We further curate essential benchmarks, datasets, and metrics to facilitate rigorous assessment of post-training effectiveness. This survey aims to provide researchers and practitioners with a unified framework for advancing Video-LMM capabilities. Additional resources and updates are maintained at: https://github.com/yunlong10/Awesome-Video-LMM-Post-Training
视频理解是计算机视觉领域最具挑战性的前沿课题,它要求模型能够推理复杂的时空关系、长期依赖关系和多种模态的证据。最近出现的视频大型多模态模型(Video-LMMs),集成了视觉编码器和基于强大解码器的语言模型,在视频理解任务中表现出了惊人的能力。然而,将这些模型从基本感知系统转变为先进推理引擎的关键阶段——后训练阶段,在文献中仍然分散。这篇综述提供了对视频大型多模态模型后训练方法的首次全面研究,包括三个基本支柱:以思维链为主的监督微调(SFT)、以可验证目标为主的强化学习(RL)以及通过增强推理计算进行的测试时间缩放(TTS)。我们提出了一个结构化的分类体系,阐明了这些方法的作用、相互关联以及针对视频的特定适应,解决了独特的挑战,如时间定位、时空定位、长视频效率和多模态证据融合等。通过对代表性方法的系统分析,我们综合了关键的设计原则、见解和评估协议,同时确定了奖励设计、可扩展性和成本性能优化方面的关键开放挑战。我们还整理了重要的基准测试、数据集和指标,以促进对后训练效果的严格评估。本综述旨在为研究者和实践者提供一个统一的框架,以推动视频大型多模态模型的能力提升。更多资源和更新请访问:https://github.com/yunlong10/Awesome-Video-LMM-Post-Training
论文及项目相关链接
PDF Version v1.1
Summary
本文综述了视频大型多模态模型(Video-LMMs)的后训练策略,涵盖了监督微调(SFT)、强化学习(RL)和测试时缩放(TTS)三个基本方面。文章详细阐述了这些技术在视频理解中的应用和挑战,并提出了关键设计原则、见解和评估协议。旨在为读者提供一个统一框架,推动Video-LMM能力的提升。
Key Takeaways
- 视频理解是当前计算机视觉领域最具挑战性的前沿课题,需要模型推理复杂的时空关系、长期依赖性和多模态证据。
- Video-LMMs通过集成视觉编码器和基于语言模型的解码器,在视频理解任务中展现出卓越的能力。
- 后训练阶段是将这些模型从基本感知系统转变为高级推理引擎的关键阶段。
- 监督微调(SFT)通过链式思维强化模型性能,强化学习(RL)则从可验证的目标中学习,而测试时缩放(TTS)则通过增强推理计算来提升模型效果。
- 文中提出了一个结构化分类法,明确了这些技术在视频理解中的角色、相互联系和特定适应。
- 文章还通过系统分析代表性方法,总结了关键设计原则、见解和评估协议。
点此查看论文截图
Omni-R1: Do You Really Need Audio to Fine-Tune Your Audio LLM?
Authors:Andrew Rouditchenko, Saurabhchand Bhati, Edson Araujo, Samuel Thomas, Hilde Kuehne, Rogerio Feris, James Glass
We propose Omni-R1 which fine-tunes a recent multi-modal LLM, Qwen2.5-Omni, on an audio question answering dataset with the reinforcement learning method GRPO. This leads to new State-of-the-Art performance on the recent MMAU and MMAR benchmarks. Omni-R1 achieves the highest accuracies on the sounds, music, speech, and overall average categories, both on the Test-mini and Test-full splits. To understand the performance improvement, we tested models both with and without audio and found that much of the performance improvement from GRPO could be attributed to better text-based reasoning. We also made a surprising discovery that fine-tuning without audio on a text-only dataset was effective at improving the audio-based performance.
我们提出了Omni-R1,它通过强化学习法GRPO对最新的多模态LLM模型Qwen2.5-Omni进行微调,该模型在音频问答数据集上进行训练。这达到了最新的MMAU和MMAR基准测试的最新国家技术性能水平。Omni-R1在声音、音乐、语音和总体平均类别上均达到了最高准确率,无论是在Test-mini还是Test-full分割上都是如此。为了了解性能提升的原因,我们对有和没有音频的模型进行了测试,发现GRPO的大部分性能提升是由于基于文本的推理更好。我们还意外地发现,在纯文本数据集上进行不带音频的微调,对于提高基于音频的性能是有效的。
论文及项目相关链接
Summary
Omni-R1通过微调多模态大型语言模型Qwen2.5-Omni,在音频问答数据集上采用强化学习方法的GRPO训练策略,达到了MMAU和MMAR基准测试的最先进性能。Omni-R1在声音、音乐、语音和总体平均类别上均取得了最高准确率,无论是在Test-mini还是Test-full分割上。性能提升部分得益于基于文本推理的改进,并且在仅使用文本数据集进行微调时,也能有效提高音频性能。
Key Takeaways
- Omni-R1通过微调多模态大型语言模型Qwen2.5-Omni,采用GRPO强化学习策略,在音频问答数据集上实现先进性能。
- Omni-R1在声音、音乐、语音和总体平均类别上取得最高准确率。
- 性能提升部分得益于基于文本推理的改进。
- 在不使用音频的情况下进行微调,使用文本数据集能有效提高音频性能。
- Omni-R1在Test-mini和Test-full分割上的表现均很出色。
- 该研究使用了最新的强化学习方法GRPO来训练模型。
点此查看论文截图