⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-10-25 更新
Decoding the Ear: A Framework for Objectifying Expressiveness from Human Preference Through Efficient Alignment
Authors:Zhiyu Lin, Jingwen Yang, Jiale Zhao, Meng Liu, Sunzhu Li, Benyou Wang
Recent speech-to-speech (S2S) models generate intelligible speech but still lack natural expressiveness, largely due to the absence of a reliable evaluation metric. Existing approaches, such as subjective MOS ratings, low-level acoustic features, and emotion recognition are costly, limited, or incomplete. To address this, we present DeEAR (Decoding the Expressive Preference of eAR), a framework that converts human preference for speech expressiveness into an objective score. Grounded in phonetics and psychology, DeEAR evaluates speech across three dimensions: Emotion, Prosody, and Spontaneity, achieving strong alignment with human perception (Spearman’s Rank Correlation Coefficient, SRCC = 0.86) using fewer than 500 annotated samples. Beyond reliable scoring, DeEAR enables fair benchmarking and targeted data curation. It not only distinguishes expressiveness gaps across S2S models but also selects 14K expressive utterances to form ExpressiveSpeech, which improves the expressive score (from 2.0 to 23.4 on a 100-point scale) of S2S models. Demos and codes are available at https://github.com/FreedomIntelligence/ExpressiveSpeech
最近,语音到语音(S2S)的模型虽然能够生成可理解的语音,但仍然缺乏自然的表达性,这主要是因为缺乏可靠的评估指标。现有的方法,如主观MOS评分、低级别的声音特征以及情感识别等,都存在成本高昂、局限性大或不完全等缺点。为了解决这一问题,我们提出了DeEAR(解码语音表达偏好),这是一个将人类对语音表达性的偏好转化为客观分数的框架。DeEAR基于语音学和心理学,从情感、语调和语速三个维度对语音进行评估。通过使用不到500个标注样本,DeEAR与人类感知实现了强对齐(斯皮尔曼等级相关系数SRCC=0.86)。除了可靠的评分外,DeEAR还能实现公正的基准测试和有针对性的数据整理。它不仅能够区分不同S2S模型之间的表达差距,还能挑选出14,000条表达性话语来构建表达性语音(ExpressiveSpeech),这提高了S2S模型的表达得分(在100分制的尺度上从2.0提高到23.4)。演示和代码可访问https://github.com/FreedomIntelligence/ExpressiveSpeech。
论文及项目相关链接
PDF Submitted to ICASSP 2026. Demos and codes are available at https://github.com/FreedomIntelligence/ExpressiveSpeech
Summary
本文提出了一种名为DeEAR的框架,用于将人类对话语表达力的偏好转化为客观评分。该框架基于语音学和心理学,从情感、语调和自然度三个方面评价语音,与人类感知高度一致(斯皮尔曼等级相关系数SRCC=0.86),并且仅需要少量的标注样本。除了可靠的评分功能外,DeEAR还能实现公平的性能评估和有针对性的数据收集,不仅能够识别不同语音转语音模型中的表达差距,还能筛选出富有表现力的语句以构建ExpressiveSpeech数据集,进而提升语音转语音模型的表达得分。有关演示和代码可在相关链接找到。
Key Takeaways
- 现有语音转语音(S2S)模型虽然能够生成可理解的语音,但缺乏自然表现力,主要因为缺乏可靠的评估指标。
- 提出的DeEAR框架能够将人类对话语表达力的偏好转化为客观评分,基于语音学和心理学进行评价。
- DeEAR从情感、语调和自然度三个方面评价语音,与人类感知高度一致(斯皮尔曼等级相关系数SRCC=0.86)。
- DeEAR框架仅需少量的标注样本就能实现可靠的评分,有助于公平的性能评估和针对性的数据收集。
- DeEAR能识别不同S2S模型中的表达差距,并能够筛选出富有表现力的语句以构建ExpressiveSpeech数据集。
- ExpressiveSpeech数据集能够显著提高语音转语音模型的表达得分。
点此查看论文截图
Speaking Clearly: A Simplified Whisper-Based Codec for Low-Bitrate Speech Coding
Authors:Xin Zhang, Lin Li, Xiangni Lu, Jianquan Liu, Kong Aik Lee
Speech codecs serve as bridges between continuous speech signals and large language models, yet face an inherent conflict between acoustic fidelity and semantic preservation. To mitigate this conflict, prevailing methods augment acoustic codecs with complex semantic supervision. We explore the opposite direction: a semantic-first approach that starts from a semantically-capable model and adapts it for high-fidelity acoustic reconstruction. Through empirical analysis, we discover that targeted architectural simplification can unlock the acoustic modeling potential of Whisper, a text-aligned Automatic Speech Recognition (ASR) model. Based on this finding, we propose SimWhisper-Codec, a novel codec that balances the semantic and acoustic preservation by leveraging a frozen, simplified Whisper encoder without requiring external supervision. Experimental results demonstrate that SimWhisper-Codec achieves superior performance in both semantic preservation and acoustic quality compared to semantically-supervised codecs such as Mimi Codec and SpeechTokenizer at similar bitrates, validating the effectiveness of our semantic-first approach. Code is available at https://github.com/ZhangXinWhut/SimWhisper-Codec.
语音编解码器在连续的语音信号和大型语言模型之间充当桥梁,但面临着声音保真度和语义保留之间的内在冲突。为了缓解这一冲突,流行的方法是通过复杂的语义监督来增强声音编解码器。我们探索了相反的方向:一种以语义为中心的方法,从一个具备语义能力的模型开始,并对其进行适应以实现高保真声音重建。通过实证分析,我们发现有针对性的架构简化可以解锁whisper(一种文本对齐的语音识别模型)的声音建模潜力。基于这一发现,我们提出了SimWhisper-Codec,这是一种新型编解码器,它通过利用一个冻结的简化版whisper编码器,在不需要外部监督的情况下平衡语义和声音的保留。实验结果表明,与Mimi Codec和SpeechTokenizer等语义监督编解码器相比,SimWhisper-Codec在相似比特率下在语义保留和声音质量方面表现出卓越的性能,验证了我们以语义为中心方法的有效性。代码可在https://github.com/ZhangXinWhut/SimWhisper-Codec找到。
论文及项目相关链接
PDF 5 pages, 3 figures, 2 tables
总结
语音编解码器在连续语音信号和大型语言模型之间扮演桥梁角色,但面临声音保真与语义保留之间的内在冲突。现有方法通过复杂的语义监督来增强声音编解码器,本文则探索相反方向:从语义能力模型出发,通过针对性架构简化,以适应高保真声音重建。基于对Whisper模型(一种文本对齐的语音识别模型)的研究,提出SimWhisper-Codec新型编解码器,通过冻结简化的Whisper编码器,无需外部监督,实现语义和声音保真的平衡。实验结果表明,SimWhisper-Codec在相似比特率下,相较于需要语义监督的编解码器如Mimi Codec和SpeechTokenizer,在语义保留和声音质量方面表现更优。代码公开于https://github.com/ZhangXinWhut/SimWhisper-Codec。
关键见解
- 语音编解码器面临声音保真与语义保留的内在冲突。
- 现有方法主要通过复杂的语义监督增强声音编解码器性能。
- 本文采取语义优先策略,从语义能力模型出发,通过针对性架构简化来适应高保真声音重建。
- 基于Whisper模型的研究,提出SimWhisper-Codec编解码器,实现语义和声音保真的平衡。
- SimWhisper-Codec在相似比特率下表现优于其他需要语义监督的编解码器。
- SimWhisper-Codec公开可用,为进一步研究和应用提供便利。
- 该研究为语音编解码器设计提供了新的思路和方法。
点此查看论文截图
UniSE: A Unified Framework for Decoder-only Autoregressive LM-based Speech Enhancement
Authors:Haoyin Yan, Chengwei Liu, Shaofei Xue, Xiaotao Liang, Zheng Xue
The development of neural audio codecs (NACs) has largely promoted applications of language models (LMs) to speech processing and understanding. However, there lacks the verification on the effectiveness of autoregressive (AR) LMbased models in unifying different sub-tasks of speech enhancement (SE). In this work, we propose UniSE, a unified decoder-only LM-based framework to handle different SE tasks including speech restoration, target speaker extraction and speech separation. It takes input speech features as conditions and generates discrete tokens of the target speech using AR modeling, which facilitates a compatibility between distinct learning patterns of multiple tasks. Experiments on several benchmarks indicate the proposed UniSE can achieve competitive performance compared to discriminative and generative baselines, showing the capacity of LMs in unifying SE tasks. The demo page is available here: https://github.com/hyyan2k/UniSE.
神经音频编解码器(NAC)的发展极大地促进了语言模型(LM)在语音处理和理解中的应用。然而,缺乏基于自回归(AR)的LM模型在统一语音增强(SE)不同子任务的有效性验证。在这项工作中,我们提出了UniSE,这是一个统一的、仅解码的、基于LM的框架,用于处理不同的SE任务,包括语音修复、目标说话人提取和语音分离。它以语音特征为输入条件,利用AR模型生成目标语音的离散标记,这促进了多个任务不同学习模式之间的兼容性。在几个基准测试上的实验表明,与判别式和生成式基线相比,所提出的UniSE可以取得具有竞争力的性能表现,展示了LM在统一SE任务方面的潜力。示范页面可在:https://github.com/hyyan2k/UniSE 查看。
论文及项目相关链接
PDF 5 pages, submitted to ICASSP 2026
Summary
神经音频编码器的开发促进了语言模型在语音处理和理解中的应用。本研究提出了一种统一解码器仅基于语言模型的框架UniSE,用于处理不同的语音增强任务,包括语音修复、目标说话人提取和语音分离。它采用输入语音特征作为条件,利用自回归建模生成目标语音的离散标记,实现了多任务学习的兼容性。实验表明,UniSE具有与判别和生成基线模型相当的竞争力,展示了语言模型在统一语音增强任务方面的潜力。
Key Takeaways
- 神经音频编码器(NAC)的发展促进了语言模型在语音处理和理解中的应用。
- 自回归(AR)语言模型在统一不同的语音增强任务中具有潜力。
- UniSE是一个统一解码器仅基于语言模型的框架,能处理多种语音增强任务。
- UniSE利用输入语音特征作为条件,通过自回归建模生成目标语音的离散标记。
- UniSE实现了多任务学习的兼容性,有助于不同任务之间学习模式的融合。
- 实验结果表明,UniSE在多个基准测试上表现出与判别和生成模型相当的竞争力。
点此查看论文截图
OmniMotion-X: Versatile Multimodal Whole-Body Motion Generation
Authors:Guowei Xu, Yuxuan Bian, Ailing Zeng, Mingyi Shi, Shaoli Huang, Wen Li, Lixin Duan, Qiang Xu
This paper introduces OmniMotion-X, a versatile multimodal framework for whole-body human motion generation, leveraging an autoregressive diffusion transformer in a unified sequence-to-sequence manner. OmniMotion-X efficiently supports diverse multimodal tasks, including text-to-motion, music-to-dance, speech-to-gesture, and global spatial-temporal control scenarios (e.g., motion prediction, in-betweening, completion, and joint/trajectory-guided synthesis), as well as flexible combinations of these tasks. Specifically, we propose the use of reference motion as a novel conditioning signal, substantially enhancing the consistency of generated content, style, and temporal dynamics crucial for realistic animations. To handle multimodal conflicts, we introduce a progressive weak-to-strong mixed-condition training strategy. To enable high-quality multimodal training, we construct OmniMoCap-X, the largest unified multimodal motion dataset to date, integrating 28 publicly available MoCap sources across 10 distinct tasks, standardized to the SMPL-X format at 30 fps. To ensure detailed and consistent annotations, we render sequences into videos and use GPT-4o to automatically generate structured and hierarchical captions, capturing both low-level actions and high-level semantics. Extensive experimental evaluations confirm that OmniMotion-X significantly surpasses existing methods, demonstrating state-of-the-art performance across multiple multimodal tasks and enabling the interactive generation of realistic, coherent, and controllable long-duration motions.
本文介绍了OmniMotion-X,这是一个通用多模式框架,以统一序列到序列的方式,采用自回归扩散变压器,用于生成全身人体运动。OmniMotion-X有效地支持了多样化的多模式任务,包括文本到运动、音乐到舞蹈、语音到手势、全局时空控制场景(如运动预测、中间帧生成、完成和关节/轨迹引导合成等),以及这些任务的灵活组合。具体来说,我们提出使用参考运动作为新型条件信号,这极大地提高了生成内容的一致性、风格和时空动态,对于现实动画至关重要。为了解决多模式冲突,我们引入了一种从弱到强的渐进混合条件训练策略。为了进行高质量的多模式训练,我们构建了OmniMoCap-X,这是迄今为止最大的统一多模式运动数据集,整合了10个不同任务的28个公开可用的MoCap源,以标准化的SMPL-X格式和30fps进行。为了确保详细和一致的注释,我们将序列呈现为视频,并使用GPT-4o自动生成结构和层次化的字幕,捕捉低级别的动作和高级别的语义。广泛的实验评估证实,OmniMotion-X显著超越了现有方法,在多个多模式任务上达到了最先进的性能,能够实现现实、连贯和可控的长期运动生成。
论文及项目相关链接
摘要
本文介绍了OmniMotion-X,一个多功能模态框架,能以统一序列到序列的方式生成全身人体运动。OmniMotion-X通过利用自回归扩散变压器有效地支持多样化的多任务模态,包括文本到运动、音乐到舞蹈、语音到手势以及全球时空控制场景等。此外,还引入了参考运动作为新的条件信号,大大提高了生成内容的连贯性、风格和重要的时间动态性,以呈现逼真的动画效果。处理多模态冲突方面,我们采用从弱到强的渐进式混合训练策略。为了进行高质量的多模态训练,我们构建了迄今为止最大的统一多模态运动数据集OmniMoCap-X,整合了涵盖十大不同任务的28个公开MoCap源数据,并统一采用SMPL-X格式和每秒30帧的速度。为确保详细且一致的注释,我们将序列渲染成视频并使用GPT-4o自动生成结构化和层次化的字幕,以捕捉低层次动作和高层次语义。实验评估表明,OmniMotion-X在多个多模态任务上显著超越了现有方法,展现了卓越的性能,能够实现逼真的、连贯的和可控制的长周期运动生成。
关键见解
- OmniMotion-X是一个多功能模态框架,支持多种运动生成任务,包括文本到运动、音乐到舞蹈等。
- 引入参考运动作为条件信号,提高生成内容的连贯性、风格和动态性。
- 采用渐进式弱到强的混合训练策略来处理多模态冲突。
- 构建了OmniMoCap-X数据集,集成了多个MoCap源数据,并统一格式以提高训练质量。
- 使用GPT-4o自动生成结构化和层次化的字幕,确保详细且一致的注释。
- 实验评估显示OmniMotion-X在多个多模态任务上表现卓越。
- OmniMotion-X能够实现逼真的、连贯的和可控制的长周期运动生成。
点此查看论文截图
Re-evaluating Minimum Bayes Risk Decoding for Automatic Speech Recognition
Authors:Yuu Jinnai
Recent work has shown that sample-based Minimum Bayes Risk (MBR) decoding outperforms beam search in text-to-text generation tasks, such as machine translation, text summarization, and image captioning. On the other hand, beam search is the current practice for speech-to-text tasks such as automatic speech recognition (ASR) and Speech Translation (ST). Given that MBR decoding is effective in text-to-text generation tasks, it is reasonable to expect it to also be effective for speech-to-text tasks. In this paper, we evaluate MBR decoding for ASR and ST tasks on English and Japanese using Whisper and its derivative models. We observe that the accuracy of MBR decoding outperforms that of beam search in most of the experimental settings we have evaluated. The results show that MBR decoding is a promising method for offline ASR and ST tasks that require high accuracy. The code is available at https://github.com/CyberAgentAILab/mbr-for-asr
最新研究表明,基于样本的最小贝叶斯风险(MBR)解码在文本到文本的生成任务(如机器翻译、文本摘要和图像描述)中表现优于束搜索。另一方面,束搜索是目前语音到文本任务(如自动语音识别(ASR)和语音翻译(ST))的常用方法。鉴于MBR解码在文本到文本生成任务中的有效性,预期其在语音到文本任务中同样有效是合理的。在本文中,我们评估了使用Whisper及其衍生模型对ASR和ST任务的MBR解码的英语和日语表现。我们观察到,在所评估的大部分实验设置中,MBR解码的准确性都优于束搜索。结果表明,MBR解码对于需要高准确率的离线ASR和ST任务是一种有前途的方法。代码可在[https://github.com/CyberAgentAILab/mbr-for-asr找到。]
论文及项目相关链接
Summary
本文探讨了样本基础上的最小贝叶斯风险解码在文本生成任务中的表现,指出其在机器翻译、文本摘要和图像标注等任务中优于光束搜索算法。尽管光束搜索在语音识别和语音翻译等语音到文本的任务中是常用方法,但考虑到最小贝叶斯风险解码在文本生成任务中的有效性,本文对其在语音识别和语音翻译任务中的表现进行了评估,实验结果显示,在多数测试环境下,最小贝叶斯风险解码的准确性高于光束搜索。这表明最小贝叶斯风险解码对于离线语音识别和语音翻译等要求高准确性的任务具有应用前景。
Key Takeaways
- 最小贝叶斯风险解码在文本生成任务中表现优于光束搜索。
- 语音到文本的任务中常使用光束搜索算法。
- 实验评估了最小贝叶斯风险解码在语音识别和语音翻译任务中的表现。
- 在多数测试环境下,最小贝叶斯风险解码的准确性高于光束搜索。
- 最小贝叶斯风险解码对离线语音识别和语音翻译的高准确性任务具有应用前景。
- 代码公开,便于研究使用和进一步开发。
点此查看论文截图
FLASH Viterbi: Fast and Adaptive Viterbi Decoding for Modern Data Systems
Authors:Ziheng Deng, Xue Liu, Jiantong Jiang, Yankai Li, Qingxu Deng, Xiaochun Yang
The Viterbi algorithm is a key operator for structured sequence inference in modern data systems, with applications in trajectory analysis, online recommendation, and speech recognition. As these workloads increasingly migrate to resource-constrained edge platforms, standard Viterbi decoding remains memory-intensive and computationally inflexible. Existing methods typically trade decoding time for space efficiency, but often incur significant runtime overhead and lack adaptability to various system constraints. This paper presents FLASH Viterbi, a Fast, Lightweight, Adaptive, and Hardware-Friendly Viterbi decoding operator that enhances adaptability and resource efficiency. FLASH Viterbi combines a non-recursive divide-and-conquer strategy with pruning and parallelization techniques to enhance both time and memory efficiency, making it well-suited for resource-constrained data systems. To further decouple space complexity from the hidden state space size, we present FLASH-BS Viterbi, a dynamic beam search variant built on a memory-efficient data structure. Both proposed algorithms exhibit strong adaptivity to diverse deployment scenarios by dynamically tuning internal parameters. To ensure practical deployment on edge devices, we also develop FPGA-based hardware accelerators for both algorithms, demonstrating high throughput and low resource usage. Extensive experiments show that our algorithms consistently outperform existing baselines in both decoding time and memory efficiency, while preserving adaptability and hardware-friendly characteristics essential for modern data systems. All codes are publicly available at https://github.com/Dzh-16/FLASH-Viterbi.
Viterbi算法是现代数据系统中结构化序列推断的关键算子,在轨迹分析、在线推荐和语音识别等领域有广泛应用。随着这些工作负载逐渐迁移到资源受限的边缘平台,标准Viterbi解码仍然需要大量内存并且在计算上不够灵活。现有方法通常以降低解码时间为代价来提高空间效率,但往往产生显著的运行时开销,并且缺乏对各种系统约束的适应性。本文提出了FLASH Viterbi,这是一种快速、轻量级、自适应和硬件友好的Viterbi解码算子,提高了适应性和资源效率。FLASH Viterbi结合非递归的分治策略与剪枝和并行化技术,提高了时间和内存效率,非常适合资源受限的数据系统。为了进一步将空间复杂度与隐藏状态空间大小解耦,我们提出了基于内存高效数据结构的动态束搜索变体FLASH-BS Viterbi。这两种算法通过动态调整内部参数,在多种部署场景中表现出强大的适应性。为确保在边缘设备上的实际部署,我们还为这两种算法开发了基于FPGA的硬件加速器,显示出高吞吐量和低资源使用率。大量实验表明,我们的算法在解码时间和内存效率方面始终优于现有基线,同时保持了适应性和对现代数据系统至关重要的硬件友好特性。所有代码均可在https://github.com/Dzh-16/FLASH-Viterbi上公开获取。
论文及项目相关链接
PDF Accepted for ICDE 2026
摘要
本文介绍了FLASH Viterbi算法,这是一种快速、轻量级、自适应且硬件友好的Viterbi解码操作符。它通过结合非递归的分治策略、修剪和并行化技术,提高了时间和内存效率,适用于资源受限的数据系统。另外,还推出了FLASH-BS Viterbi,一个基于内存高效数据结构的动态光束搜索变体。两种算法都通过动态调整内部参数,适应不同的部署场景。在边缘设备上,还开发了基于FPGA的硬件加速器,实验表明,与现有基线相比,这些算法在解码时间和内存效率方面表现更优秀,同时保持了现代数据系统所需的自适应性和硬件友好性。
关键见解
- Viterbi算法是现代数据系统中结构序列推断的关键算子,广泛应用于轨迹分析、在线推荐和语音识别。
- 随着工作负载迁移到资源受限的边缘平台,标准的Viterbi解码在内存使用和计算灵活性方面存在问题。
- 现有方法往往在解码时间和空间效率之间进行权衡,但运行时开销大且缺乏系统适应性。
- FLASH Viterbi算法通过结合分治策略、修剪和并行化技术,提高了时间和内存效率。
- FLASH-BS Viterbi是一种动态光束搜索变体,基于内存高效数据结构设计,进一步解耦了空间复杂度与隐藏状态空间大小。
- 两种算法都能通过动态调整内部参数,适应不同的部署场景。
点此查看论文截图
Diffusion Buffer for Online Generative Speech Enhancement
Authors:Bunlong Lay, Rostislav Makarov, Simon Welker, Maris Hillemann, Timo Gerkmann
Online Speech Enhancement was mainly reserved for predictive models. A key advantage of these models is that for an incoming signal frame from a stream of data, the model is called only once for enhancement. In contrast, generative Speech Enhancement models often require multiple calls, resulting in a computational complexity that is too high for many online speech enhancement applications. This work presents the Diffusion Buffer, a generative diffusion-based Speech Enhancement model which only requires one neural network call per incoming signal frame from a stream of data and performs enhancement in an online fashion on a consumer-grade GPU. The key idea of the Diffusion Buffer is to align physical time with Diffusion time-steps. The approach progressively denoises frames through physical time, where past frames have more noise removed. Consequently, an enhanced frame is output to the listener with a delay defined by the Diffusion Buffer, and the output frame has a corresponding look-ahead. In this work, we extend upon our previous work by carefully designing a 2D convolutional UNet architecture that specifically aligns with the Diffusion Buffer’s look-ahead. We observe that the proposed UNet improves performance, particularly when the algorithmic latency is low. Moreover, we show that using a Data Prediction loss instead of Denoising Score Matching loss enables flexible control over the trade-off between algorithmic latency and quality during inference. The extended Diffusion Buffer equipped with a novel NN and loss function drastically reduces the algorithmic latency from 320 - 960 ms to 32 - 176 ms with an even increased performance. While it has been shown before that offline generative diffusion models outperform predictive approaches in unseen noisy speech data, we confirm that the online Diffusion Buffer also outperforms its predictive counterpart on unseen noisy speech data.
在线语音增强最初主要用于预测模型。这些模型的一个主要优势在于,对于来自数据流的一帧输入信号,只需对模型进行一次调用即可进行增强。相比之下,生成式语音增强模型通常需要多次调用,导致计算复杂度过高,不适用于许多在线语音增强应用。本文提出了扩散缓冲区(Diffusion Buffer),这是一种基于生成扩散的语音增强模型,对于来自数据流的一帧输入信号,只需进行一次神经网络调用即可进行在线增强。扩散缓冲区的关键思想是将物理时间与扩散时间步长对齐。该方法通过物理时间逐步去噪帧,其中过去帧的噪声去除更多。因此,增强后的帧以扩散缓冲区定义的延迟输出给听众,输出帧具有相应的前瞻性。在这项工作中,我们通过精心设计一个与扩散缓冲区的前瞻性相匹配的二维卷积UNet架构,进一步扩展了我们之前的工作。我们发现,所提出的UNet在算法延迟较低时提高了性能。此外,我们表明,使用数据预测损失而不是去噪分数匹配损失,可以在推理过程中灵活地控制算法延迟和质量之间的权衡。配备新型神经网络和损失函数的扩展扩散缓冲区将算法延迟从320-960毫秒大幅降低到32-176毫秒,同时提高了性能。虽然之前已经表明,离线生成扩散模型在未知的噪声语音数据上优于预测方法,但我们证实,在线扩散缓冲区也在未知的噪声语音数据上优于其预测方法。
论文及项目相关链接
摘要
本文介绍了基于扩散缓冲器的在线语音增强模型。该模型只需对来自数据流中的每个输入信号帧进行一次神经网络调用,即可在线进行增强处理,适用于消费者级GPU。扩散缓冲器的关键思想是将物理时间与扩散时间步长对齐,逐步消除帧中的噪声。通过精心设计的2D卷积UNet架构,与扩散缓冲器的前瞻性相匹配,提高了性能,特别是在算法延迟较低的情况下。此外,使用数据预测损失而不是去噪分数匹配损失,可以在推理过程中灵活地控制算法延迟和质量之间的权衡。扩展的扩散缓冲器配合新型神经网络和损失函数,将算法延迟从320-960毫秒大幅减少到32-176毫秒,同时提高了性能。实验证实,在线扩散缓冲器在未见过的噪声语音数据上,其表现优于预测型方法。
关键见解
- 介绍了基于扩散缓冲器的在线语音增强模型,该模型只需一次神经网络调用即可完成增强处理。
- 扩散缓冲器的设计思想是将物理时间与扩散时间步长对齐,逐步消除帧噪声。
- 使用了精心设计的2D卷积UNet架构,与扩散缓冲器的前瞻性相匹配,提高了模型性能。
- 引入了数据预测损失,实现了算法延迟和质量之间的灵活控制。
- 扩展的扩散缓冲器大幅降低了算法延迟,同时提高了语音增强的性能。
- 首次证实在线扩散缓冲器在未见过的噪声语音数据上的表现优于预测型方法。
- 该模型适用于消费者级GPU进行在线语音增强处理。
点此查看论文截图
MLMA: Towards Multilingual ASR With Mamba-based Architectures
Authors:Mohamed Nabih Ali, Daniele Falavigna, Alessio Brutti
Multilingual automatic speech recognition (ASR) remains a challenging task, especially when balancing performance across high- and low-resource languages. Recent advances in sequence modeling suggest that architectures beyond Transformers may offer better scalability and efficiency. In this work, we introduce MLMA (Multilingual Language Modeling with Mamba for ASR), a new approach that leverages the Mamba architecture – an efficient state-space model optimized for long-context sequence processing – for multilingual ASR. Using Mamba, MLMA implicitly incorporates language-aware conditioning and shared representations to support robust recognition across diverse languages. Experiments on standard multilingual benchmarks show that MLMA achieves competitive performance compared to Transformer-based architectures. These results highlight Mamba’s potential as a strong backbone for scalable, efficient, and accurate multilingual speech recognition.
多语言自动语音识别(ASR)仍然是一个具有挑战性的任务,尤其是在平衡高资源和低资源语言的性能时。序列建模的最新进展表明,超越Transformer的架构可能会提供更好的可扩展性和效率。在这项工作中,我们介绍了MLMA(用于ASR的带有Mamba的多语言语言建模),这是一种利用Mamba架构的新方法——一种针对长上下文序列处理优化的高效状态空间模型——用于多语言ASR。通过使用Mamba,MLMA可以隐含地融入语言感知条件和共享表示,以支持跨不同语言的稳健识别。在标准多语言基准测试上的实验表明,与基于Transformer的架构相比,MLMA具有竞争力。这些结果突出了Mamba作为可扩展、高效和准确的多语言语音识别强大后盾的潜力。
论文及项目相关链接
PDF The paper is under review at ICASSP 2026
Summary
基于序列建模的最新进展,提出利用Mamba架构进行多语种自动语音识别(ASR)。Mamba是一种适用于长上下文序列处理的高效状态空间模型。通过引入Mamba架构,MLMA(多语种语言建模与Mamba用于ASR)实现了对多种语言的稳健识别,并达到了与基于Transformer的架构相当的性能表现。
Key Takeaways
- 多语种自动语音识别(ASR)仍然是一个挑战,特别是在平衡高资源和低资源语言性能时。
- 最近序列建模的进步表明,超越Transformer的架构可能提供更好的可扩展性和效率。
- 引入Mamba架构进行多语种ASR,这是一种适用于长上下文序列处理的高效状态空间模型。
- MLMA通过利用Mamba架构实现了对多种语言的稳健识别。
- MLMA利用语言感知条件和共享表示支持多语种识别。
- 在标准的多语种基准测试上,MLMA的表现与基于Transformer的架构相当。
点此查看论文截图
Shallow Flow Matching for Coarse-to-Fine Text-to-Speech Synthesis
Authors:Dong Yang, Yiyi Cai, Yuki Saito, Lixu Wang, Hiroshi Saruwatari
We propose Shallow Flow Matching (SFM), a novel mechanism that enhances flow matching (FM)-based text-to-speech (TTS) models within a coarse-to-fine generation paradigm. Unlike conventional FM modules, which use the coarse representations from the weak generator as conditions, SFM constructs intermediate states along the FM paths from these representations. During training, we introduce an orthogonal projection method to adaptively determine the temporal position of these states, and apply a principled construction strategy based on a single-segment piecewise flow. The SFM inference starts from the intermediate state rather than pure noise, thereby focusing computation on the latter stages of the FM paths. We integrate SFM into multiple TTS models with a lightweight SFM head. Experiments demonstrate that SFM yields consistent gains in speech naturalness across both objective and subjective evaluations, and significantly accelerates inference when using adaptive-step ODE solvers. Demo and codes are available at https://ydqmkkx.github.io/SFMDemo/.
我们提出了浅流匹配(SFM)这一新型机制,它在粗到细生成范式下增强了基于流匹配(FM)的文本到语音(TTS)模型。不同于传统使用弱生成器粗表示的FM模块作为条件,SFM沿着这些表示的FM路径构建中间状态。在训练过程中,我们引入正交投影方法来自适应确定这些状态的时间位置,并基于单段分段流应用有原则的构建策略。SFM推理从中间状态开始,而非纯噪声,从而将计算重点放在FM路径的后期阶段。我们将SFM集成到多个TTS模型中,并使用轻量级的SFM头。实验表明,SFM在客观和主观评估中均表现出一致的语音自然度提升,并且在使用自适应步长ODE求解器时显著加速了推理过程。演示和代码可通过https://ydqmkkx.github.io/SFMDemo/访问。
论文及项目相关链接
PDF Accepted by NeurIPS 2025
摘要
本文提出一种名为Shallow Flow Matching(SFM)的新机制,它改进了基于流匹配(FM)的文本到语音(TTS)模型的粗细生成范式。不同于传统FM模块使用弱生成器的粗糙表示作为条件,SFM在FM路径上构建中间状态。在训练过程中,引入正交投影方法自适应确定这些状态的时间位置,并采用基于单段分段流的构建策略。SFM推理从中间状态开始,而非纯噪声,从而将计算重点放在FM路径的后期阶段。我们将SFM集成到多个TTS模型中,并使用轻量级的SFM头。实验表明,SFM在客观和主观评估中均提高了语音的自然度,并在使用自适应步长ODE求解器时显著加速了推理过程。相关演示和代码可在https://ydqmkkx.github.io/SFMDemo/找到。
关键见解
- 提出了Shallow Flow Matching(SFM)机制,改进了基于流匹配的文本到语音转换模型的性能。
- SFM构建中间状态,沿流匹配路径形成从粗糙表示到精细生成的过渡。
- 采用正交投影方法自适应确定中间状态的时间位置,并采用单段分段流策略构建。
- SFM推理专注于流匹配路径的后期阶段,提高了计算效率。
- SFM机制可轻松集成到多种文本到语音转换模型中,并通过轻量级SFM头实现优化。
- 实验表明,SFM在客观和主观评估中均提高了语音的自然度。
点此查看论文截图
Wireless Hearables With Programmable Speech AI Accelerators
Authors:Malek Itani, Tuochao Chen, Arun Raghavan, Gavriel Kohlberg, Shyamnath Gollakota
The conventional wisdom has been that designing ultra-compact, battery-constrained wireless hearables with on-device speech AI models is challenging due to the high computational demands of streaming deep learning models. Speech AI models require continuous, real-time audio processing, imposing strict computational and I/O constraints. We present NeuralAids, a fully on-device speech AI system for wireless hearables, enabling real-time speech enhancement and denoising on compact, battery-constrained devices. Our system bridges the gap between state-of-the-art deep learning for speech enhancement and low-power AI hardware by making three key technical contributions: 1) a wireless hearable platform integrating a speech AI accelerator for efficient on-device streaming inference, 2) an optimized dual-path neural network designed for low-latency, high-quality speech enhancement, and 3) a hardware-software co-design that uses mixed-precision quantization and quantization-aware training to achieve real-time performance under strict power constraints. Our system processes 6 ms audio chunks in real-time, achieving an inference time of 5.54 ms while consuming 71.6 mW. In real-world evaluations, including a user study with 28 participants, our system outperforms prior on-device models in speech quality and noise suppression, paving the way for next-generation intelligent wireless hearables that can enhance hearing entirely on-device.
传统观点认为,设计超紧凑、受电池限制的无线可穿戴听力设备,并搭载设备端的语音人工智能模型是一项挑战,因为流式的深度学习模型计算需求较高。语音人工智能模型需要连续、实时的音频处理,对计算和输入/输出都有严格的要求。我们提出了NeuralAids,这是一个完全设备端的语音人工智能系统,用于无线可穿戴听力设备,能够在紧凑、电池受限的设备上实现实时语音增强和降噪。我们的系统通过三项关键技术贡献,填补了先进语音增强深度学习技术与低功耗人工智能硬件之间的空白:1)一个无线可穿戴平台,集成语音人工智能加速器,用于高效的设备端流式推理;2)一个针对低延迟、高质量语音增强的优化双路径神经网络;3)一个软硬件协同设计,使用混合精度量化和量化感知训练,在严格的功率限制下实现实时性能。我们的系统实时处理6毫秒的音频块,推理时间为5.54毫秒,功耗为71.6毫瓦。在包括28名参与者的用户研究在内的真实世界评估中,我们的系统在语音质量和噪声抑制方面超越了之前的设备端模型,为下一代智能无线可穿戴听力设备铺平了道路,这些设备可以在设备上完全增强听力。
论文及项目相关链接
Summary
本研究针对传统认知中的难题——设计具有设备端语音人工智能模型的超紧凑电池限制无线听力设备,提出了一种全新的解决方案。研究团队提出NeuralAids系统,可在实时语音增强和降噪的基础上实现全设备端语音人工智能系统。通过三项关键技术贡献缩小了顶尖深度学习语音增强技术与低功耗人工智能硬件之间的差距。该系统在严格的功耗限制下实现了实时性能,并对现实世界评估和用户研究进行了展示。
Key Takeaways
- NeuralAids系统解决了设计超紧凑电池限制无线听力设备的语音AI模型面临的挑战。
- 系统通过全设备端语音AI实现实时语音增强和降噪。
- 三项关键技术贡献包括:集成语音AI加速器的无线听力平台、针对低延迟和高品质语音增强的优化双路径神经网络以及软硬件协同设计。
- 该系统通过混合精度量化和量化感知训练达到实时性能。
- 系统的推理时间达到了每秒5.54毫秒的处理速度,并消耗71.6毫瓦的功率。
- 在现实世界评估和包含用户研究的测试中,该系统在语音质量和噪声抑制方面优于先前的设备端模型。
点此查看论文截图
LAMA-UT: Language Agnostic Multilingual ASR through Orthography Unification and Language-Specific Transliteration
Authors:Sangmin Lee, Woo-Jin Chung, Hong-Goo Kang
Building a universal multilingual automatic speech recognition (ASR) model that performs equitably across languages has long been a challenge due to its inherent difficulties. To address this task we introduce a Language-Agnostic Multilingual ASR pipeline through orthography Unification and language-specific Transliteration (LAMA-UT). LAMA-UT operates without any language-specific modules while matching the performance of state-of-the-art models trained on a minimal amount of data. Our pipeline consists of two key steps. First, we utilize a universal transcription generator to unify orthographic features into Romanized form and capture common phonetic characteristics across diverse languages. Second, we utilize a universal converter to transform these universal transcriptions into language-specific ones. In experiments, we demonstrate the effectiveness of our proposed method leveraging universal transcriptions for massively multilingual ASR. Our pipeline achieves a relative error reduction rate of 45% when compared to Whisper and performs comparably to MMS, despite being trained on only 0.1% of Whisper’s training data. Furthermore, our pipeline does not rely on any language-specific modules. However, it performs on par with zero-shot ASR approaches which utilize additional language-specific lexicons and language models. We expect this framework to serve as a cornerstone for flexible multilingual ASR systems that are generalizable even to unseen languages.
构建一个通用的多语种自动语音识别(ASR)模型,以在所有语种中实现均衡表现,长期以来一直是一个挑战,因为其本身就存在诸多困难。为了应对这一挑战,我们通过正字法统一和语种特定转写(LAMA-UT),引入了语种无关的多语种ASR管道。LAMA-UT在没有任何语种特定模块的情况下运行,同时匹配在少量数据上训练的最新模型的性能。我们的管道包括两个关键步骤。首先,我们利用通用转录生成器,将正字特征统一为罗马化形式,并捕捉不同语种之间共同的语音特征。其次,我们利用通用转换器将这些通用转录转化为特定语言的转录。在实验中,我们验证了利用通用转录进行大规模多语种ASR的方法的有效性。与whisper相比,我们的管道在相对误差减少率方面达到了45%,尽管它只在whisper的0.1%训练数据上进行训练。此外,我们的管道不依赖于任何语种特定模块,但它的性能与零射击ASR方法相当,后者利用额外的语种特定词汇和语言模型。我们预计这一框架将成为灵活的多语种ASR系统的基石,甚至可以对未见过的语种进行推广。
论文及项目相关链接
PDF Accepted to AAAI 2025 (Oral Presentation)
Summary
本文介绍了一种基于语言无关的多语种自动语音识别(ASR)管道,通过正交统一和语言特定转译(LAMA-UT)来解决跨语种平等性能的挑战。该管道包括两个关键步骤:首先使用通用转录生成器将正交特征统一转换为罗马化形式,捕捉不同语言之间的共同语音特征;然后使用通用转换器将这些通用转录转换为特定语言的转录。实验表明,该方法在大量多语种ASR中利用通用转录非常有效,与whisper相比实现了45%的相对误差降低率,并且在仅使用whisper 0.1%的训练数据的情况下表现良好。此外,该管道不依赖任何特定语言的模块,但表现与零射击ASR方法相当。
Key Takeaways
- 提出了一种新的多语种自动语音识别(ASR)模型LAMA-UT。
- LAMA-UT采用正交统一和语言特定转译两大步骤进行处理。
- 通用转录生成器将不同语言的正交特征转换为罗马化形式,并捕捉共同语音特征。
- 与whisper相比,LAMA-UT实现了相对误差降低率达到了45%。
- 该模型在仅使用少量训练数据的情况下表现良好。
- 该管道不依赖任何特定语言的模块,表现与零射击ASR方法相当。
点此查看论文截图