嘘~ 正在从服务器偷取页面 . . .

Speech


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-16 更新

Towards Leveraging Sequential Structure in Animal Vocalizations

Authors:Eklavya Sarkar, Mathew Magimai. -Doss

Animal vocalizations contain sequential structures that carry important communicative information, yet most computational bioacoustics studies average the extracted frame-level features across the temporal axis, discarding the order of the sub-units within a vocalization. This paper investigates whether discrete acoustic token sequences, derived through vector quantization and gumbel-softmax vector quantization of extracted self-supervised speech model representations can effectively capture and leverage temporal information. To that end, pairwise distance analysis of token sequences generated from HuBERT embeddings shows that they can discriminate call-types and callers across four bioacoustics datasets. Sequence classification experiments using $k$-Nearest Neighbour with Levenshtein distance show that the vector-quantized token sequences yield reasonable call-type and caller classification performances, and hold promise as alternative feature representations towards leveraging sequential information in animal vocalizations.

动物发出的声音包含连续的携带重要通信信息的结构,然而大多数计算生物声学研究的平均提取帧级别的特征会横跨时间轴,从而忽略了在某一发声内部子单元的次序。本文旨在探究通过矢量量化从提取的基于自监督的语音模型表示中的序列中提取离散声学标记序列是否有效地捕捉和利用时序信息,并用一系列巧妙的激活器提取训练学习出来提取得到的语音单元能否表达类似的预测函数目标来进行区分分析时它们能识别四种生物声学数据集上的呼叫类型和呼叫者。利用HuBERT嵌入生成的标记序列的成对距离分析表明它们能够区分呼叫类型和呼叫者。使用Levenshtein距离的k最近邻序列分类实验显示,矢量量化的标记序列可以实现合理的呼叫类型和呼叫者分类性能,并在动物叫声中的顺序信息特征表达上有良好的潜力成为动物发声分析的另一种特征表示方法。

论文及项目相关链接

PDF Accepted at NeurIPS workshop (AI for Non-Human Animal Communication)

Summary
动物发出的声音包含重要的沟通信息,其声音序列结构是关键部分。然而,大多数计算生物声学的研究都是平均提取的帧级特征,忽略了声音子单元的时间顺序。本文探讨了通过向量量化和gumbel-softmax向量量化提取的自监督语音模型表示中的离散声学令牌序列是否能有效捕获和利用时间信息。为此,使用HuBERT嵌入生成的令牌序列的成对距离分析表明,它们可以在四个生物声学数据集中区分呼叫类型和呼叫者。使用Levenshtein距离的k近邻分类实验表明,向量量化的令牌序列在呼叫类型和呼叫者分类方面表现出良好的性能,并有望作为利用动物叫声中的序列信息的替代特征表示。

Key Takeaways:

  1. 动物发出的声音包含重要的沟通信息,且其顺序结构是关键部分。
  2. 现有研究在生物声学领域常常忽略声音子单元的时间顺序,仅对帧级特征进行平均处理。
  3. 本文通过向量量化和gumbel-softmax向量量化探究了离散声学令牌序列的有效性。
  4. 令牌序列能够区分不同的呼叫类型和呼叫者,这在四个生物声学数据集中得到了验证。
  5. 使用Levenshtein距离的k近邻分类实验表明令牌序列在呼叫分类方面的良好性能。
  6. 向量量化的令牌序列作为一种替代特征表示方法,在利用动物叫声中的序列信息方面展现出潜力。

Cool Papers

点此查看论文截图

FabasedVC: Enhancing Voice Conversion with Text Modality Fusion and Phoneme-Level SSL Features

Authors:Wenyu Wang, Zhetao Hu, Yiquan Zhou, Jiacheng Xu, Zhiyu Wu, Chen Li, Shihao Li

In voice conversion (VC), it is crucial to preserve complete semantic information while accurately modeling the target speaker’s timbre and prosody. This paper proposes FabasedVC to achieve VC with enhanced similarity in timbre, prosody, and duration to the target speaker, as well as improved content integrity. It is an end-to-end VITS-based VC system that integrates relevant textual modality information, phoneme-level self-supervised learning (SSL) features, and a duration predictor. Specifically, we employ a text feature encoder to encode attributes such as text, phonemes, tones and BERT features. We then process the frame-level SSL features into phoneme-level features using two methods: average pooling and attention mechanism based on each phoneme’s duration. Moreover, a duration predictor is incorporated to better align the speech rate and prosody of the target speaker. Experimental results demonstrate that our method outperforms competing systems in terms of naturalness, similarity, and content integrity.

在语音转换(VC)中,保留完整的语义信息,同时准确地对目标说话者的音色和语调进行建模是至关重要的。本文提出了基于特征的FabasedVC,实现了语音转换的目标,并提高了与目标说话者在音色、语调和持续时间方面的相似性,以及内容的完整性。这是一个基于VITS端到端的语音转换系统,它融合了相关的文本模式信息、音素级别的自监督学习(SSL)特征以及持续时间预测器。具体来说,我们采用文本特征编码器对文本、音素、音调以及BERT特征等属性进行编码。然后我们通过两种方法将帧级别的SSL特征处理为音素级别的特征:一种是平均池化方法,另一种是基于每个音素的持续时间的注意力机制。此外,我们还将持续时间预测器相结合,以更好地匹配目标说话者的语速和语调。实验结果表明,我们的方法在自然度、相似度和内容完整性方面优于其他系统。

论文及项目相关链接

PDF Accepted by ACMMM-Asia 2025

Summary

本论文提出了一个基于Fabo的语音转换系统(FabasedVC),该系统能保留完整的语义信息,同时准确模拟目标说话者的音色和语调。该系统是一个端到端的VITS语音转换系统,融合了文本模态信息、基于音素级别的自监督学习特征以及时长预测器。通过采用文本特征编码器,系统能处理文本、音素、语调等属性,并通过平均池化和基于注意力机制的时长预测方法将帧级别的自监督特征转化为音素级别特征。该系统能有效提升目标说话者的音色、语调及内容的完整性。实验证明,该方法在自然度、相似度和内容完整性方面优于其他系统。

Key Takeaways

  1. FabasedVC是一个端到端的语音转换系统,旨在保留语义信息的同时模拟目标说话者的音色和语调。
  2. 系统融合了文本模态信息、音素级别的自监督学习特征和时长预测器。
  3. 采用文本特征编码器处理文本、音素、语调等属性。
  4. 通过平均池化和基于注意力机制的时长预测方法将帧级别的自监督特征转化为音素级别特征。
  5. 系统提升了目标说话者的音色、语调及时长预测的准确性。
  6. 实验证明,FabasedVC在自然度、相似度和内容完整性方面表现优越。

Cool Papers

点此查看论文截图

ELYADATA & LIA at NADI 2025: ASR and ADI Subtasks

Authors:Haroun Elleuch, Youssef Saidi, Salima Mdhaffar, Yannick Estève, Fethi Bougares

This paper describes Elyadata & LIA’s joint submission to the NADI multi-dialectal Arabic Speech Processing 2025. We participated in the Spoken Arabic Dialect Identification (ADI) and multi-dialectal Arabic ASR subtasks. Our submission ranked first for the ADI subtask and second for the multi-dialectal Arabic ASR subtask among all participants. Our ADI system is a fine-tuned Whisper-large-v3 encoder with data augmentation. This system obtained the highest ADI accuracy score of \textbf{79.83%} on the official test set. For multi-dialectal Arabic ASR, we fine-tuned SeamlessM4T-v2 Large (Egyptian variant) separately for each of the eight considered dialects. Overall, we obtained an average WER and CER of \textbf{38.54%} and \textbf{14.53%}, respectively, on the test set. Our results demonstrate the effectiveness of large pre-trained speech models with targeted fine-tuning for Arabic speech processing.

本文描述了Elyadata和LIA对NADI多方言阿拉伯语语音处理2025的联合提交。我们参加了口头阿拉伯语方言识别(ADI)和多方言阿拉伯语ASR子任务。我们的提交在ADI子任务中排名第一,在多方言阿拉伯语ASR子任务中排名第二。我们的ADI系统是对Whisper-large-v3编码器的微调,并进行了数据增强。该系统的ADI准确率得分最高,为79.83%,在官方测试集上。对于多方言阿拉伯语ASR,我们对每个考虑的八种方言分别微调了无缝M4T-v2 Large(埃及变种)。总体而言,我们在测试集上获得了平均的WER和CER分别为38.54%和14.53%。我们的结果证明了大型预训练语音模型通过有针对性的微调对于阿拉伯语语音处理的有效性。

论文及项目相关链接

PDF Published in Proceedings of the ArabicNLP 2025 Workshop (co-located with EMNLP 2025), Association for Computational Linguistics, 2025

摘要
本文介绍了Elyadata与LIA在NADI多方言阿拉伯语语音处理2025项目中的联合提交成果。在口头阿拉伯语方言识别(ADI)和多方言阿拉伯语自动语音识别(ASR)的子任务中,我们的提交作品在所有参与者中分别排名第一和第二。我们的ADI系统使用微调过的Whisper-large-v3编码器与数据增强技术,在官方测试集上获得最高的ADI准确率79.83%。在多方言阿拉伯语的ASR任务中,我们针对每种考虑的八种方言分别微调了SeamlessM4T-v2 Large(埃及变体)。总体而言,我们在测试集上获得了平均的字词错误率(WER)和字符错误率(CER)分别为38.54%和14.53%。我们的结果证明了针对阿拉伯语语音处理的大型预训练语音模型通过有针对性的微调是有效的。

要点掌握

  1. Elyadata和LIA在多方言阿拉伯语语音处理领域的杰出贡献。
  2. 在口头阿拉伯语方言识别(ADI)任务中取得第一名的好成绩。
  3. 多方言阿拉伯语的自动语音识别(ASR)系统通过针对每种方言的微调取得良好性能。
  4. ADI系统的最高准确率为79.83%,应用了数据增强技术和Whisper-large-v3编码器。
  5. ASR系统在测试集上的平均字词错误率(WER)和字符错误率(CER)分别为38.54%和14.53%。
  6. 研究结果证明了大型预训练语音模型在阿拉伯语语音处理中的有效性。

Cool Papers

点此查看论文截图

Time-Layer Adaptive Alignment for Speaker Similarity in Flow-Matching Based Zero-Shot TTS

Authors:Haoyu Li, Mingyang Han, Yu Xi, Dongxiao Wang, Hankun Wang, Haoxiang Shi, Boyu Li, Jun Song, Bo Zheng, Shuai Wang

Flow-Matching (FM)-based zero-shot text-to-speech (TTS) systems exhibit high-quality speech synthesis and robust generalization capabilities. However, the speaker representation ability of such systems remains underexplored, primarily due to the lack of explicit speaker-specific supervision in the FM framework. To this end, we conduct an empirical analysis of speaker information distribution and reveal its non-uniform allocation across time steps and network layers, underscoring the need for adaptive speaker alignment. Accordingly, we propose Time-Layer Adaptive Speaker Alignment (TLA-SA), a loss that enhances speaker consistency by jointly leveraging temporal and hierarchical variations in speaker information. Experimental results show that TLA-SA significantly improves speaker similarity compared to baseline systems on both research- and industrial-scale datasets and generalizes effectively across diverse model architectures, including decoder-only language models (LM) and FM-based TTS systems free of LM.

基于流匹配(FM)的零样本文本到语音(TTS)系统展现出高质量的语音合成和稳健的泛化能力。然而,此类系统的说话人表征能力尚未得到充分探索,这主要是因为FM框架中缺乏明确的说话人特定监督。为此,我们对说话人信息分布进行了实证分析,并揭示了其在时间步和网络层之间的非均匀分配,这强调了自适应说话人对齐的需求。因此,我们提出了时间层自适应说话人对齐(TLA-SA)方法,这是一种损失函数,通过联合利用说话人信息的时态和层次变化,提高说话人一致性。实验结果表明,与基准系统相比,TLA-SA在研究和工业规模的数据集上显著提高了说话人相似性,并且在不同的模型架构中都能有效泛化,包括仅解码器语言模型(LM)和基于FM的TTS系统(无需LM)。

论文及项目相关链接

PDF Submitted to ICASSP 2026

总结

基于流匹配(FM)的零样本文本到语音(TTS)系统展现出高质量的语音合成和稳健的泛化能力。但该系统在发言人表示能力方面仍存在不足,主要由于FM框架中缺乏明确的发言人特定监督。本文通过实证分析揭示了发言人信息分布的非均匀性,并指出需要自适应的发言人对齐。因此,我们提出了时间层自适应发言人对齐(TLA-SA)的损失函数,通过联合利用发言人在时间和层次结构上的变化,提高发言人的一致性。实验结果表明,与基线系统相比,TLA-SA在研究和工业规模的数据集上显著提高发言人相似性,并且在不同的模型架构中表现有效,包括无语言模型(LM)的解码器唯一LM和基于FM的TTS系统。

要点

  1. 基于流匹配的零样本文本到语音系统虽具有高质量语音合成和泛化能力,但发言人表示能力有待提升。
  2. 发言人信息在时间和网络层面上的分布是非均匀的。
  3. 需要自适应的发言人对齐来增强发言人的一致性。
  4. 提出了时间层自适应发言人对齐(TLA-SA)的损失函数。
  5. TLA-SA通过联合利用发言人在时间和层次结构上的变化,有效提高发言人一致性。
  6. 在研究和工业规模数据集上,TLA-SA显著提高发言人相似性。

Cool Papers

点此查看论文截图

Omnilingual ASR: Open-Source Multilingual Speech Recognition for 1600+ Languages

Authors: Omnilingual ASR team, Gil Keren, Artyom Kozhevnikov, Yen Meng, Christophe Ropers, Matthew Setzler, Skyler Wang, Ife Adebara, Michael Auli, Can Balioglu, Kevin Chan, Chierh Cheng, Joe Chuang, Caley Droof, Mark Duppenthaler, Paul-Ambroise Duquenne, Alexander Erben, Cynthia Gao, Gabriel Mejia Gonzalez, Kehan Lyu, Sagar Miglani, Vineel Pratap, Kaushik Ram Sadagopan, Safiyyah Saleem, Arina Turkatenko, Albert Ventayol-Boada, Zheng-Xin Yong, Yu-An Chung, Jean Maillard, Rashel Moritz, Alexandre Mourachko, Mary Williamson, Shireen Yates

Automatic speech recognition (ASR) has advanced in high-resource languages, but most of the world’s 7,000+ languages remain unsupported, leaving thousands of long-tail languages behind. Expanding ASR coverage has been costly and limited by architectures that restrict language support, making extension inaccessible to most–all while entangled with ethical concerns when pursued without community collaboration. To transcend these limitations, we introduce Omnilingual ASR, the first large-scale ASR system designed for extensibility. Omnilingual ASR enables communities to introduce unserved languages with only a handful of data samples. It scales self-supervised pre-training to 7B parameters to learn robust speech representations and introduces an encoder-decoder architecture designed for zero-shot generalization, leveraging a LLM-inspired decoder. This capability is grounded in a massive and diverse training corpus; by combining breadth of coverage with linguistic variety, the model learns representations robust enough to adapt to unseen languages. Incorporating public resources with community-sourced recordings gathered through compensated local partnerships, Omnilingual ASR expands coverage to over 1,600 languages, the largest such effort to date–including over 500 never before served by ASR. Automatic evaluations show substantial gains over prior systems, especially in low-resource conditions, and strong generalization. We release Omnilingual ASR as a family of models, from 300M variants for low-power devices to 7B for maximum accuracy. We reflect on the ethical considerations shaping this design and conclude by discussing its societal impact. In particular, we highlight how open-sourcing models and tools can lower barriers for researchers and communities, inviting new forms of participation. Open-source artifacts are available at https://github.com/facebookresearch/omnilingual-asr.

自动语音识别(ASR)在高资源语言中已经取得了进展,但世界上7000多种语言中,大部分仍不受支持,留下了许多长尾语言未被开发。扩大ASR的覆盖范围成本高昂,且受到语言支持架构的限制,使得大多数扩展无法实施,并且在没有社区合作的情况下追求这一目标会伴随着道德上的担忧。为了克服这些限制,我们推出了Omnilingual ASR,这是第一个为可扩展性设计的大型ASR系统。Omnilingual ASR让社区只需少量数据样本就能引入未服务过的语言。它通过自我监督的预训练扩展到7亿个参数,学习鲁棒的语音表示,并引入一种设计用于零启动泛化的编码器-解码器架构,该架构采用LLM驱动的解码器。这种能力建立在庞大而多样的训练语料库上;通过覆盖广泛与语言多样性相结合,模型学习到的表示足以适应未见过的语言。Omnilingual ASR结合了公共资源与通过有偿本地合作伙伴关系收集的社区来源录音,将覆盖范围扩大到超过1600种语言,这是迄今为止规模最大的此类努力——其中包括超过500种此前从未被ASR服务过的语言。自动评估表明,与之前的系统相比,它取得了重大进步,特别是在资源匮乏的条件下以及强大的泛化能力。我们发布了Omnilingual ASR系列模型,从适用于低功耗设备的3亿变种到为最大准确性而设的7亿模型。我们反思了塑造这项设计的道德考量,并通过讨论其社会影响来总结。特别是我们强调了开源模型和工具如何降低研究者和社区的壁垒,邀请新的参与形式。开源文物可在https://github.com/facebookresearch/omnilingual-asr上找到。

论文及项目相关链接

PDF

Summary

本文介绍了自动语音识别(ASR)在高资源语言中的发展,并指出仍有数千种长尾语言未得到支持。为了克服这些限制并扩大ASR的覆盖范围,提出了一种名为Omnilingual ASR的新型大规模ASR系统,该系统具有可扩展性,并能使社区引入仅少数数据样本的未服务语言。Omnilingual ASR通过自我监督的预训练、编码器-解码器架构以及大规模多样化的训练语料库,实现了对未见语言的适应。此外,通过与社区合作收集资源,Omnilingual ASR成功扩展了对超过1600种语言的支持,包括此前从未有过ASR支持的500多种语言。自动评估显示,与之前的系统相比,Omnilingual ASR有显著的改进,特别是在资源有限的情况下。同时,本文也讨论了其设计过程中的伦理考量和社会影响。

Key Takeaways

  1. 自动语音识别(ASR)在高资源语言中已经取得进展,但许多长尾语言仍未得到支持。
  2. Omnilingual ASR是第一个为可扩展性设计的大型ASR系统,可以轻松地引入未服务的语言,只需要少量数据样本。
  3. Omnilingual ASR通过自我监督的预训练、编码器-解码器架构以及大规模多样化的训练语料库,实现了对未见语言的适应。
  4. 该系统通过结合广泛的覆盖范围和语言多样性,学习了强大的语音表示。
  5. Omnilingual ASR成功扩展了对超过1600种语言的支持,包括之前未受支持的500多种语言。
  6. 自动评估显示,Omnilingual ASR在资源有限的情况下表现优异,与之前的系统相比有显著的改进。

Cool Papers

点此查看论文截图

End-to-end Contrastive Language-Speech Pretraining Model For Long-form Spoken Question Answering

Authors:Jiliang Hu, Zuchao Li, Baoyuan Qi, Liu Guoming, Ping Wang

Significant progress has been made in spoken question answering (SQA) in recent years. However, many existing methods, including large audio language models, struggle with processing long audio. Follow the success of retrieval augmented generation, a speech-related retriever shows promising in help preprocessing long-form speech. But the performance of existing speech-related retrievers is lacking. To address this challenge, we propose CLSR, an end-to-end contrastive language-speech retriever that efficiently extracts question-relevant segments from long audio recordings for downstream SQA task. Unlike conventional speech-text contrastive models, CLSR incorporates an intermediate step that converts acoustic features into text-like representations prior to alignment, thereby more effectively bridging the gap between modalities. Experimental results across four cross-modal retrieval datasets demonstrate that CLSR surpasses both end-to-end speech related retrievers and pipeline approaches combining speech recognition with text retrieval, providing a robust foundation for advancing practical long-form SQA applications.

近年来,语音问答(SQA)领域取得了显著进展。然而,包括大型音频语言模型在内的许多现有方法在处理长音频时都面临困难。随着检索增强生成方法的成功,语音相关检索器在帮助预处理长语音方面显示出广阔前景。但是现有语音相关检索器的性能仍然不足。为了应对这一挑战,我们提出了CLSR,这是一种端到端的对比语言语音检索器,能够高效地从长音频中提取与问题相关的片段,用于下游的语音问答任务。与传统的语音文本对比模型不同,CLSR加入了一个中间步骤,将声学特征转换为文本表示形式,然后再进行对齐,从而更有效地弥合了不同模态之间的差距。在四个跨模态检索数据集上的实验结果表明,CLSR超越了端到端的语音相关检索器和结合语音识别与文本检索的管道方法,为推进实际的长语音问答应用提供了坚实的基础。

论文及项目相关链接

PDF 12 pages, 7 figures, accepted by AAAI 2026

Summary

近期问答系统(SQA)在口语回答方面取得显著进展,但处理长音频仍是难题。现有语音相关检索器性能欠佳。为此,提出CLSR——一种端到端的对比语言语音检索器,它能从长音频中有效提取与问题相关的片段,用于下游问答任务。CLSR不同于传统语音文本对比模型,它在比对之前增加了将声音特征转化为文本表示的步骤,更有效地缩小了不同模态之间的差距。在四个跨模态检索数据集上的实验表明,CLSR的表现超过了端到端的语音相关检索器和结合语音识别与文本检索的管道方法,为推进实际长形式问答应用提供了坚实基础。

Key Takeaways

  1. 口语问答系统(SQA)在处理长音频时面临挑战。
  2. 现有语音相关检索器性能不足,需要更有效的解决方案。
  3. CLSR是一种新型的端到端对比语言语音检索器,用于从长音频中提取与问题相关的片段。
  4. CLSR在对比之前将声音特征转化为文本表示,缩小了不同模态之间的差距。
  5. CLSR在四个跨模态检索数据集上的表现超过了其他方法。
  6. CLSR为推进实际长形式问答应用提供了坚实基础。

Cool Papers

点此查看论文截图

Unifying Model and Layer Fusion for Speech Foundation Models

Authors:Yi-Jen Shih, David Harwath

Speech Foundation Models have gained significant attention recently. Prior works have shown that the fusion of representations from multiple layers of the same model or the fusion of multiple models can improve performance on downstream tasks. We unify these two fusion strategies by proposing an interface module that enables fusion across multiple upstream speech models while integrating information across their layers. We conduct extensive experiments on different self-supervised and supervised models across various speech tasks, including ASR and paralinguistic analysis, and demonstrate that our method outperforms prior fusion approaches. We further analyze its scalability concerning model size and count, highlighting the importance of selecting appropriate upstream models. Our results show that the proposed interface provides an additional performance boost when given a suitable upstream model selection, making it a promising approach for utilizing Speech Foundation Models.

语音基础模型近期受到了广泛关注。早期的研究工作已经表明,同一模型多层表示的融合或多模型的融合可以提高下游任务的性能。我们通过提出一个接口模块,统一了这两种融合策略,该接口模块能够在多个上游语音模型之间进行融合,同时整合其各层的信息。我们在不同的自监督模型和监督模型上进行了大量实验,涵盖了各种语音任务,包括自动语音识别和副语言分析,并证明我们的方法优于之前的融合方法。我们进一步分析了其关于模型大小和数量的可扩展性,强调了选择适当的上游模型的重要性。我们的结果表明,当给定合适的上游模型选择时,所提出的接口提供了额外的性能提升,使其成为利用语音基础模型的有前途的方法。

论文及项目相关链接

PDF Accepted by IEEE ASRU 2025

Summary

本文提出了一个跨多个上游语音模型的融合接口模块,该模块能够融合同一模型的多层表示或不同模型的信息,进而改善下游任务的性能。通过广泛的实验验证,该接口在多种自监督和有监督的语音模型上,包括语音识别和副语言分析任务,展现出优于先前融合方法的效果。同时,本文还分析了其关于模型大小和数量的可扩展性,并强调了选择适当上游模型的重要性。此接口为选择合适的上游模型提供了额外的性能提升,显示出其在应用语音基础模型中的前景。

Key Takeaways

  1. 提出了一个融合接口模块,实现跨多个上游语音模型的融合。
  2. 融合策略包括同一模型的多层表示融合和多个模型的融合。
  3. 通过广泛的实验验证,该接口在多种语音任务上表现出优异性能。
  4. 分析了所提方法在不同模型大小和数量上的可扩展性。
  5. 强调了选择适当上游模型的重要性。
  6. 该接口为选择合适的上游模型提供了额外的性能提升。

Cool Papers

点此查看论文截图

VocalBench-zh: Decomposing and Benchmarking the Speech Conversational Abilities in Mandarin Context

Authors:Heyang Liu, Ziyang Cheng, Yuhao Wang, Hongcheng Liu, Yiqi Li, Ronghua Wu, Qunshan Gu, Yanfeng Wang, Yu Wang

The development of multi-modal large language models (LLMs) leads to intelligent approaches capable of speech interactions. As one of the most widely spoken languages globally, Mandarin is supported by most models to enhance their applicability and reach. However, the scarcity of comprehensive speech-to-speech (S2S) benchmarks in Mandarin contexts impedes systematic evaluation for developers and hinders fair model comparison for users. In this work, we propose VocalBench-zh, an ability-level divided evaluation suite adapted to Mandarin context consisting of 10 well-crafted subsets and over 10K high-quality instances, covering 12 user-oriented characters. The evaluation experiment on 14 mainstream models reveals the common challenges for current routes, and highlights the need for new insights into next-generation speech interactive systems. The evaluation codes and datasets will be available at https://github.com/SJTU-OmniAgent/VocalBench-zh.

多模态大型语言模型(LLM)的发展推动了能够进行语音交互的智能方法。作为世界上使用最广泛的语种之一,普通话受到大多数模型的支持,增强了其适用性和覆盖范围。然而,普通话语境中全面的语音到语音(S2S)基准的缺乏阻碍了开发人员的系统评估和用户之间的公平模型比较。在这项工作中,我们提出了面向普通话语境的VocalBench-zh评估套件,这是一个以能力水平进行划分的能力套件,包括精心制作的10个子集和超过1万个高质量实例,涵盖面向用户的12个字符。在主流模型上进行的评估实验表明当前路线存在的普遍挑战,并突显了新一代语音交互系统的新视角的必要性。评估代码和数据集将可通过以下网址获得:https://github.com/SJTU-OmniAgent/VocalBench-zh。

论文及项目相关链接

PDF

Summary

本文介绍了多模态大型语言模型(LLMs)的发展及其在语音交互方面的智能应用。由于汉语是全球使用最广泛的语种之一,大多数模型都支持汉语以增强其适用性和覆盖范围。然而,由于缺乏全面的汉语语音到语音(S2S)基准测试,阻碍了开发者的系统评估和用户之间的公平模型比较。本文提出了面向汉语的评估套件VocalBench-zh,包含10个精心设计的子集和超过1万高质量实例,涵盖12个用户导向角色。对主流模型的评估实验揭示了当前路线的共同挑战,并强调了下一代语音交互系统的新见解的需求。

Key Takeaways

  1. 多模态大型语言模型(LLMs)已发展到支持语音交互的智能方法。
  2. 汉语是大多数语言模型支持的语种,以增强其适用性和覆盖范围。
  3. 缺乏全面的汉语语音到语音(S2S)基准测试,阻碍了模型的系统评估和公平比较。
  4. 提出了面向汉语的评估套件VocalBench-zh,包含10个子集和超过1万高质量实例。
  5. 评估实验揭示了当前路线上的挑战,需要下一代语音交互系统的新见解。
  6. VocalBench-zh包括多种用户导向角色,能够全面评估模型的性能。

Cool Papers

点此查看论文截图

Quantizing Whisper-small: How design choices affect ASR performance

Authors:Arthur Söhler, Julian Irigoyen, Andreas Søeborg Kirkedal

Large speech recognition models like Whisper-small achieve high accuracy but are difficult to deploy on edge devices due to their high computational demand. To this end, we present a unified, cross-library evaluation of post-training quantization (PTQ) on Whisper-small that disentangles the impact of quantization scheme, method, granularity, and bit-width. Our study is based on four libraries: PyTorch, Optimum-Quanto, HQQ, and bitsandbytes. Experiments on LibriSpeech test-clean and test-other show that dynamic int8 quantization with Quanto offers the best trade-off, reducing model size by 57% while improving on the baseline’s word error rate. Static quantization performed worse, likely due to Whisper’s Transformer architecture, while more aggressive formats (e.g., nf4, int3) achieved up to 71% compression at the cost of accuracy in noisy conditions. Overall, our results demonstrate that carefully chosen PTQ methods can substantially reduce model size and inference cost without retraining, enabling efficient deployment of Whisper-small on constrained hardware.

像whisper-small这样的大语音识别模型虽然具有很高的准确性,但由于其计算需求高,难以在边缘设备上部署。为此,我们对whisper-small的跨库训练后量化(PTQ)进行了统一的评估,以分析量化方案、方法、粒度以及位宽的影响。我们的研究基于四个库:PyTorch、Optimum-Quanto、HQQ和bitsandbytes。在LibriSpeech测试集(clean和other)上的实验表明,使用Quanto的动态int8量化提供了最佳的权衡方案,模型大小减少了57%,同时提高了基线模型的词错误率。静态量化表现较差,这可能是由于whisper的Transformer架构所致,而更激进的形式(如nf4、int3)在噪声条件下虽然能达到高达71%的压缩率,但准确性有所损失。总的来说,我们的结果表明,经过精心选择的PTQ方法可以在无需重新训练的情况下大幅降低模型大小和推理成本,从而使whisper-small能够在资源受限的硬件上实现高效部署。

论文及项目相关链接

PDF Submitted to ICASSP 2026

摘要

大型语音识别模型如Whisper-small具有高准确性,但由于计算需求高,难以在边缘设备上部署。针对这一问题,我们对Whisper-small进行了跨库的后训练量化(PTQ)评估,研究了量化方案、方法、粒度和位宽的影响。在PyTorch、Optimum-Quanto、HQQ和bitsandbytes四个库的基础上进行的实验表明,使用Quanto的动态int8量化在减小模型大小57%的同时,提高了基线词的错误率。静态量化效果较差,可能是由于Whisper的Transformer架构所致,而更激进格式(如nf4、int3)在噪声条件下虽然能达到71%的压缩率,但准确性有所下降。总体而言,我们的结果表明,精心选择的PTQ方法可以在不重新训练的情况下,大幅减小模型大小并降低推理成本,从而实现Whisper-small在受限硬件上的有效部署。

关键见解

  1. 大型语音识别模型如Whisper-small面临在边缘设备上的部署挑战,需要高计算资源和存储空间。
  2. 后训练量化(PTQ)是一种有效的解决方案,可以减小模型大小并降低推理成本。
  3. 在对Whisper-small进行PTQ评估时,考虑了量化方案、方法、粒度和位宽的影响。
  4. 在多个库(PyTorch、Optimum-Quanto、HQQ和bitsandbytes)的实验中,动态int8量化表现出最佳的性能,能够在减小模型大小的同时提高准确性。
  5. 静态量化效果较差,可能是由于模型的Transformer架构特性所致。
  6. 更激进的量化格式(如nf4和int3)可以实现更高的压缩率,但在噪声条件下可能会损失准确性。

Cool Papers

点此查看论文截图

SpikCommander: A High-performance Spiking Transformer with Multi-view Learning for Efficient Speech Command Recognition

Authors:Jiaqi Wang, Liutao Yu, Xiongri Shen, Sihang Guo, Chenlin Zhou, Leilei Zhao, Yi Zhong, Zhiguo Zhang, Zhengyu Ma

Spiking neural networks (SNNs) offer a promising path toward energy-efficient speech command recognition (SCR) by leveraging their event-driven processing paradigm. However, existing SNN-based SCR methods often struggle to capture rich temporal dependencies and contextual information from speech due to limited temporal modeling and binary spike-based representations. To address these challenges, we first introduce the multi-view spiking temporal-aware self-attention (MSTASA) module, which combines effective spiking temporal-aware attention with a multi-view learning framework to model complementary temporal dependencies in speech commands. Building on MSTASA, we further propose SpikCommander, a fully spike-driven transformer architecture that integrates MSTASA with a spiking contextual refinement channel MLP (SCR-MLP) to jointly enhance temporal context modeling and channel-wise feature integration. We evaluate our method on three benchmark datasets: the Spiking Heidelberg Dataset (SHD), the Spiking Speech Commands (SSC), and the Google Speech Commands V2 (GSC). Extensive experiments demonstrate that SpikCommander consistently outperforms state-of-the-art (SOTA) SNN approaches with fewer parameters under comparable time steps, highlighting its effectiveness and efficiency for robust speech command recognition.

脉冲神经网络(Spiking Neural Networks,简称SNNs)通过利用其事件驱动处理范式,为实现能源高效的语音指令识别(Speech Command Recognition,简称SCR)提供了前景。然而,现有的基于SNN的SCR方法往往因有限的时序建模和基于二进制的脉冲表示而难以从语音中捕获丰富的时序依赖和上下文信息。为了应对这些挑战,我们首先引入了多视角脉冲时序感知自注意力(Multi-View Spiking Temporal-Aware Self-Attention,简称MSTASA)模块,它将有效的脉冲时序感知注意力与多视角学习框架相结合,对语音命令中的互补时序依赖进行建模。基于MSTASA,我们进一步提出了SpikCommander,这是一种完全由脉冲驱动的变压器架构,它将MSTASA与脉冲上下文细化通道MLP(SCR-MLP)相结合,以共同增强时序上下文建模和通道级特征集成。我们在三个基准数据集上评估了我们的方法:Spiking Heidelberg数据集(SHD)、Spiking Speech Commands(SSC)和Google Speech Commands V2(GSC)。大量实验表明,SpikCommander在参数较少、时间步长相当的情况下,始终优于最先进(State-of-the-Art,简称SOTA)的SNN方法,凸显其在稳健的语音指令识别方面的有效性和效率。

论文及项目相关链接

PDF Accepted by The Fortieth AAAI Conference on Artificial Intelligence (AAAI 2026)

Summary

基于脉冲神经网络(SNNs)的事件驱动处理范式,其为实现能源高效的语音指令识别(SCR)提供了前景。针对现有SNN-based SCR方法在捕捉语音的丰富时间依赖性和上下文信息方面存在的局限性,研究引入了多视角脉冲时间感知自注意力(MSTASA)模块。在此基础上,进一步提出了完全脉冲驱动的SpikCommander转换器架构,结合MSTASA与脉冲上下文细化通道MLP(SCR-MLP),共同增强时间上下文建模和通道特征集成。在三个基准数据集上的实验表明,SpikCommander在参数较少的情况下,在时间步长相当的情况下始终优于最新的SNN方法,展现出其在稳健语音指令识别方面的有效性和高效性。

Key Takeaways

  1. 脉冲神经网络(SNNs)为实现能源高效的语音指令识别提供了潜力。
  2. 现有SNN方法在捕捉语音的时间依赖性和上下文信息方面存在挑战。
  3. 引入的多视角脉冲时间感知自注意力(MSTASA)模块,能有效建模语音命令中的时间依赖性。
  4. SpikCommander架构结合了MSTASA与脉冲上下文细化通道MLP(SCR-MLP),增强了时间上下文建模和通道特征集成。
  5. SpikCommander在三个基准数据集上的实验表现优于其他最新的SNN方法。
  6. SpikCommander在参数较少和时间步长相当的情况下表现出其有效性和高效性。

Cool Papers

点此查看论文截图

SynTTS-Commands: A Public Dataset for On-Device KWS via TTS-Synthesized Multilingual Speech

Authors:Lu Gan, Xi Li

The development of high-performance, on-device keyword spotting (KWS) systems for ultra-low-power hardware is critically constrained by the scarcity of specialized, multi-command training datasets. Traditional data collection through human recording is costly, slow, and lacks scalability. This paper introduces SYNTTS-COMMANDS, a novel, multilingual voice command dataset entirely generated using state-of-the-art Text-to-Speech (TTS) synthesis. By leveraging the CosyVoice 2 model and speaker embeddings from public corpora, we created a scalable collection of English and Chinese commands. Extensive benchmarking across a range of efficient acoustic models demonstrates that our synthetic dataset enables exceptional accuracy, achieving up to 99.5% on English and 98% on Chinese command recognition. These results robustly validate that synthetic speech can effectively replace human-recorded audio for training KWS classifiers. Our work directly addresses the data bottleneck in TinyML, providing a practical, scalable foundation for building private, low-latency, and energy-efficient voice interfaces on resource-constrained edge devices.

开发针对超低功耗硬件的高性能、设备内关键词识别(KWS)系统受到了专用多命令训练数据集稀缺性的严格限制。通过人工录制收集数据的方式成本高昂、速度慢且缺乏可扩展性。本文介绍了SYNTTS-COMMANDS,一种全新多语言语音命令数据集,完全使用最先进的文本到语音(TTS)合成生成。我们通过利用CosyVoice 2模型和公共语料库中的说话人嵌入技术,创建了一个可扩展的英语和中文命令集合。在一系列高效的声学模型上进行广泛基准测试表明,我们的合成数据集能够实现出色的准确性,英语命令识别率高达99.5%,中文命令识别率达98%。这些结果稳健地验证了合成语音可以有效地替代人类录制的音频,用于训练KWS分类器。我们的工作直接解决了TinyML中的数据瓶颈问题,为在资源受限的边缘设备上构建私密、低延迟和节能的语音接口提供了实用且可扩展的基础。

论文及项目相关链接

PDF

Summary

本文提出一种全新的多语种语音指令数据集SYNTTS-COMMANDS,该数据集完全通过先进的文本转语音(TTS)合成技术生成。利用CosyVoice 2模型和公开语料库的说话人嵌入技术,我们创建了包含英语和中文指令的可扩展数据集。实验表明,该合成数据集在声学模型上的表现优异,英语命令识别率高达99.5%,中文达98%。结果证明,合成语音可有效替代人类录音,用于训练关键词识别分类器。该研究直接解决了TinyML领域的数据瓶颈问题,为构建私有、低延迟、节能的语音接口提供了实用、可扩展的基础。

Key Takeaways

  1. SYNTTS-COMMANDS是一个基于文本转语音(TTS)合成的多语种语音指令数据集。
  2. 该数据集通过利用CosyVoice 2模型和公开语料库的说话人嵌入技术创建,包含英语和中文指令。
  3. 实验显示,该合成数据集在声学模型上的表现优秀,英语命令识别率高。
  4. 合成语音可以有效替代人类录音,用于训练关键词识别分类器。
  5. 该研究解决了TinyML领域的数据瓶颈问题。
  6. 研究为构建私有、低延迟、节能的语音接口提供了实用、可扩展的基础。
  7. 该方法具有广泛的应用前景,特别是在资源受限的边缘设备上。

Cool Papers

点此查看论文截图

Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models

Authors:Umberto Cappellazzo, Xubo Liu, Pingchuan Ma, Stavros Petridis, Maja Pantic

Large language models (LLMs) have recently achieved impressive results in speech recognition across multiple modalities, including Auditory Speech Recognition (ASR), Visual Speech Recognition (VSR), and Audio-Visual Speech Recognition (AVSR). Despite this progress, current LLM-based approaches typically address each task independently, training separate models that raise computational and deployment resource use while missing potential cross-task synergies. They also rely on fixed-rate token compression, which restricts flexibility in balancing accuracy with efficiency. These limitations highlight the need for a unified framework that can support ASR, VSR, and AVSR while enabling elastic inference. To this end, we present Omni-AVSR, a unified audio-visual LLM that combines efficient multi-granularity training with parameter-efficient adaptation. Specifically, we adapt the matryoshka representation learning paradigm to efficiently train across multiple audio and visual granularities, reducing its inherent training resource use. Furthermore, we explore three LoRA-based strategies for adapting the backbone LLM, balancing shared and task-specific specialization. Experiments on LRS2 and LRS3 show that Omni-AVSR achieves comparable or superior accuracy to state-of-the-art baselines while training a single model at substantially lower training and deployment resource use. The model also remains robust under acoustic noise, and we analyze its scaling behavior as LLM size increases, providing insights into the trade-off between performance and efficiency.

大型语言模型(LLM)最近在多模态语音识别的多个领域取得了令人印象深刻的结果,包括听觉语音识别(ASR)、视觉语音识别(VSR)和视听语音识别(AVSR)。尽管取得了进展,但当前的LLM方法通常独立处理每个任务,训练单独的模型,这增加了计算和部署资源的使用,同时忽略了潜在的跨任务协同作用。它们还依赖于固定速率令牌压缩,这限制了平衡准确性和效率时的灵活性。这些局限性突显了需要一种能够支持ASR、VSR和AVSR的统一框架,同时实现弹性推理。为此,我们提出了Omni-AVSR,这是一个统一的视听LLM,它结合了高效的多粒度训练和参数高效的适应性。具体来说,我们采用了俄罗斯套娃表示学习范式,在多个音频和视觉粒度上进行高效训练,降低了其固有的训练资源使用。此外,我们探索了三种基于LoRA的适应主干LLM的策略,平衡共享和特定任务的专长。在LRS2和LRS3上的实验表明,Omni-AVSR达到了或超过了最先进的基准测试精度,同时使用单一模型在训练和部署资源方面大大降低。该模型在声学噪声下保持稳健,我们分析了其随着LLM规模增加而扩展的行为,为性能和效率之间的权衡提供了见解。

论文及项目相关链接

PDF Project website: https://umbertocappellazzo.github.io/Omni-AVSR/

Summary

大型语言模型(LLM)在语音识别多个领域取得了显著成果,包括听觉语音识别(ASR)、视觉语音识别(VSR)和视听语音识别(AVSR)。然而,当前LLM方法通常独立处理每项任务,训练单独模型,导致计算与部署资源消耗较大,且无法充分利用跨任务协同作用。此外,它们依赖于固定速率令牌压缩,难以在准确性与效率之间取得平衡。为此,提出了Omni-AVSR统一音频视觉LLM框架,结合高效多粒度训练和参数高效适应技术。通过适应matryoshka表示学习范式,可在多个音频和视觉粒度上实现高效训练,降低固有资源消耗。实验表明,Omni-AVSR在LRS2和LRS3上实现了与最佳基准相当的准确率,同时大幅降低了训练和部署的资源消耗。模型在噪声环境下保持稳健性,并分析了随着LLM规模增加,性能与效率之间的权衡。

Key Takeaways

  1. LLM在语音识别多个领域表现优异,包括ASR、VSR和AVSR。
  2. 当前LLM方法独立处理任务,导致资源消耗大,且缺乏跨任务协同。
  3. Omni-AVSR框架旨在解决这些问题,实现统一音频视觉LLM。
  4. Omni-AVSR采用高效多粒度训练和参数高效适应技术。
  5. 通过matryoshka表示学习范式实现音频和视觉粒度上的高效训练。
  6. 实验证明Omni-AVSR在LRS2和LRS3上表现优秀,资源消耗降低。

Cool Papers

点此查看论文截图

E2E-VGuard: Adversarial Prevention for Production LLM-based End-To-End Speech Synthesis

Authors:Zhisheng Zhang, Derui Wang, Yifan Mi, Zhiyong Wu, Jie Gao, Yuxin Cao, Kai Ye, Minhui Xue, Jie Hao

Recent advancements in speech synthesis technology have enriched our daily lives, with high-quality and human-like audio widely adopted across real-world applications. However, malicious exploitation like voice-cloning fraud poses severe security risks. Existing defense techniques struggle to address the production large language model (LLM)-based speech synthesis. While previous studies have considered the protection for fine-tuning synthesizers, they assume manually annotated transcripts. Given the labor intensity of manual annotation, end-to-end (E2E) systems leveraging automatic speech recognition (ASR) to generate transcripts are becoming increasingly prevalent, e.g., voice cloning via commercial APIs. Therefore, this E2E speech synthesis also requires new security mechanisms. To tackle these challenges, we propose E2E-VGuard, a proactive defense framework for two emerging threats: (1) production LLM-based speech synthesis, and (2) the novel attack arising from ASR-driven E2E scenarios. Specifically, we employ the encoder ensemble with a feature extractor to protect timbre, while ASR-targeted adversarial examples disrupt pronunciation. Moreover, we incorporate the psychoacoustic model to ensure perturbative imperceptibility. For a comprehensive evaluation, we test 16 open-source synthesizers and 3 commercial APIs across Chinese and English datasets, confirming E2E-VGuard’s effectiveness in timbre and pronunciation protection. Real-world deployment validation is also conducted. Our code and demo page are available at https://wxzyd123.github.io/e2e-vguard/.

近期语音合成技术的进展丰富了我们的日常生活,高质量、拟人化的音频在真实世界的应用中得到了广泛采用。然而,像语音克隆欺诈这样的恶意利用却带来了严重的安全风险。现有的防御技术很难应对基于大型语言模型(LLM)的语音合成。虽然之前的研究已经考虑了合成器微调的保护,但它们假设了手动标注的文本。考虑到手动标注的劳动密集度,利用自动语音识别(ASR)生成文本的端到端(E2E)系统正变得越来越普遍,例如通过商业API进行语音克隆。因此,这种E2E语音合成也需要新的安全机制。为了应对这些挑战,我们提出了E2E-VGuard,这是一个针对两种新兴威胁的主动防御框架:(1)基于生产LLM的语音合成,(2)由ASR驱动的新型攻击场景。具体来说,我们采用编码器集合与特征提取器来保护音色,同时针对ASR的对抗性示例会破坏发音。此外,我们结合了心理声学模型来确保扰动的不易察觉性。为了全面评估,我们测试了16个开源合成器和跨越中文和英文数据集的3个商业API,证实了E2E-VGuard在音色和发音保护方面的有效性。还进行了现实世界部署验证。我们的代码和演示页面可在https://wxzyd123.github.io/e2e-vguard/访问。

论文及项目相关链接

PDF Accepted to NeurIPS 2025

摘要

近期语音合成技术的进展为日常生活带来了便捷,高质量、人性化的音频在实际应用中被广泛采用。然而,语音克隆等恶意行为带来的欺诈现象给安全带来了严重威胁。现有防御技术难以应对基于大型语言模型(LLM)的语音合成。虽然以前的研究已经考虑了合成器的精细调整保护,但它们依赖于手动注释的文本。考虑到手动注释的劳动密集性,利用自动语音识别(ASR)生成文本的端到端(E2E)系统越来越普遍,例如通过商业API进行语音克隆。因此,这种E2E语音合成也需要新的安全机制。为了应对这些挑战,我们提出了E2E-VGuard,这是一个针对两项新兴威胁的积极防御框架:一是基于生产的LLM语音合成,二是来自ASR驱动E2E场景的新攻击。我们通过编码器组合和特征提取器来保护音色,同时使用针对ASR的对抗性例子来干扰发音。此外,我们结合心理声学模型来确保扰动的不易察觉性。我们对16个开源合成器和3个商业API进行了中英文数据集的综合评估,证实了E2E-VGuard在音色和发音保护方面的有效性。还进行了实际部署验证。我们的代码和演示页面可在https://wxzyd123.github.io/e2e-vguard/访问。

要点

  1. 语音合成技术的最新进展及其在日常生活中的广泛应用。
  2. 语音克隆欺诈现象的出现及其带来的安全风险。
  3. 现有防御技术在应对基于大型语言模型的语音合成方面的挑战。
  4. 提议的E2E-VGuard框架旨在保护音色和发音,对抗新型威胁。
  5. E2E-VGuard采用编码器组合、特征提取和心理声学模型等技术来保护语音。
  6. 对多种开源合成器和商业API的评估证实了E2E-VGuard的有效性。

Cool Papers

点此查看论文截图

Aligning Attention with Human Rationales for Self-Explaining Hate Speech Detection

Authors:Brage Eilertsen, Røskva Bjørgfinsdóttir, Francielle Vargas, Ali Ramezani-Kebrya

The opaque nature of deep learning models presents significant challenges for the ethical deployment of hate speech detection systems. To address this limitation, we introduce Supervised Rational Attention (SRA), a framework that explicitly aligns model attention with human rationales, improving both interpretability and fairness in hate speech classification. SRA integrates a supervised attention mechanism into transformer-based classifiers, optimizing a joint objective that combines standard classification loss with an alignment loss term that minimizes the discrepancy between attention weights and human-annotated rationales. We evaluated SRA on hate speech benchmarks in English (HateXplain) and Portuguese (HateBRXplain) with rationale annotations. Empirically, SRA achieves 2.4x better explainability compared to current baselines, and produces token-level explanations that are more faithful and human-aligned. In terms of fairness, SRA achieves competitive fairness across all measures, with second-best performance in detecting toxic posts targeting identity groups, while maintaining comparable results on other metrics. These findings demonstrate that incorporating human rationales into attention mechanisms can enhance interpretability and faithfulness without compromising fairness.

深度学习模型的模糊性为仇恨言论检测系统的道德部署带来了重大挑战。为了解决这一局限性,我们引入了监督理性注意力(SRA)框架,该框架显式地将模型注意力与人类理性对齐,从而提高了仇恨言论分类中的可解释性和公平性。SRA将监督注意力机制集成到基于变压器的分类器中,优化了一个联合目标,该目标结合了标准分类损失与对齐损失项,以最小化注意力权重与人类注释理由之间的差异。我们在英语(HateXplain)和葡萄牙语(HateBRXplain)的仇恨言论基准测试上对SRA进行了评估,这些基准测试都有理由注释。从实证结果来看,SRA与当前基线相比,可实现2.4倍的可解释性提升,并产生更忠实、更符合人类视角的标记级解释。在公平性方面,SRA在所有衡量标准上都表现出有竞争力的公平性,在检测针对身份群体的有毒帖子时表现居次席,同时在其他指标上保持相当的结果。这些发现表明,将人类理性纳入注意力机制可以提高可解释性和忠实性,而不损害公平性。

论文及项目相关链接

PDF Accepted at the Annual AAAI Conference on Artificial Intelligence (AAAI26)

Summary

本摘要针对深度学习模型在仇恨言论检测系统中的不透明性所带来的伦理挑战,引入了一种名为Supervised Rational Attention(SRA)的框架。该框架通过明确将模型注意力与人类理性对齐,提高了仇恨言论分类中的可解释性和公平性。实验结果表明,SRA在英文(HateXplain)和葡萄牙语(HateBRXplain)的仇恨言论基准测试上取得了良好的表现,实现了比现有基线更高的解释性,并产生了更忠实于人类理解的词级解释。同时,SRA在公平性方面也表现出竞争力,在检测针对身份群体的有毒帖子时表现第二优秀,同时在其他指标上保持可比性结果。这些发现表明,将人类理性融入注意力机制可以在不损害公平性的情况下提高可解释性和忠实性。

Key Takeaways

  1. 深度学习模型的不透明性在仇恨言论检测系统的伦理部署中带来挑战。
  2. SRA框架通过明确对齐模型注意力与人类理性,提高了仇恨言论分类中的可解释性和公平性。
  3. SRA框架集成了监督式注意力机制到基于变压器的分类器。
  4. SRA框架优化了一个联合目标,该目标结合了标准分类损失和对齐损失项,以最小化注意力权重与人类注释理由之间的差异。
  5. 在英文和葡萄牙语的仇恨言论基准测试上,SRA实现了比现有方法更好的解释性。
  6. SRA产生的词级解释更忠实于人类理解。

Cool Papers

点此查看论文截图

HCFSLN: Adaptive Hyperbolic Few-Shot Learning for Multimodal Anxiety Detection

Authors:Aditya Sneh, Nilesh Kumar Sahu, Anushka Sanjay Shelke, Arya Adyasha, Haroon R. Lone

Anxiety disorders impact millions globally, yet traditional diagnosis relies on clinical interviews, while machine learning models struggle with overfitting due to limited data. Large-scale data collection remains costly and time-consuming, restricting accessibility. To address this, we introduce the Hyperbolic Curvature Few-Shot Learning Network (HCFSLN), a novel Few-Shot Learning (FSL) framework for multimodal anxiety detection, integrating speech, physiological signals, and video data. HCFSLN enhances feature separability through hyperbolic embeddings, cross-modal attention, and an adaptive gating network, enabling robust classification with minimal data. We collected a multimodal anxiety dataset from 108 participants and benchmarked HCFSLN against six FSL baselines, achieving 88% accuracy, outperforming the best baseline by 14%. These results highlight the effectiveness of hyperbolic space for modeling anxiety-related speech patterns and demonstrate FSL’s potential for anxiety classification.

焦虑障碍影响了全球数百万人,然而传统诊断依赖于临床访谈,而机器学习模型由于数据有限而面临过拟合的问题。大规模数据采集仍然成本高昂、耗时长,限制了可访问性。针对这一问题,我们引入了双曲曲面少量样本学习网络(Hyperbolic Curvature Few-Shot Learning Network,简称HCFSLN),这是一种用于多模式焦虑检测的新型少量样本学习(FSL)框架,融合了语音、生理信号和视频数据。HCFSLN通过双曲嵌入、跨模式注意力和自适应门控网络增强特征可分性,用最少的数据实现稳健的分类。我们从108名参与者中收集了多模式焦虑数据集,并将HCFSLN与六种FSL基准进行了评估,准确率达到88%,比最佳基准高出14%。这些结果突显了双曲空间在模拟焦虑相关语音模式方面的有效性,并展示了FSL在焦虑分类方面的潜力。

论文及项目相关链接

PDF

Summary

本文介绍了一种名为Hyperbolic Curvature Few-Shot Learning Network(HCFSLN)的新型Few-Shot Learning(FSL)框架,用于多模态焦虑检测。该框架结合了语音、生理信号和视频数据,通过超曲面嵌入、跨模态注意力和自适应门控网络等技术提高特征可分性,在有限数据下实现稳健分类。实验结果显示,HCFSLN在焦虑分类任务中表现出色,准确率达到了88%,并较最佳基线提高了14%。这表明超曲面空间在建模焦虑相关语音模式方面的有效性,以及FSL在焦虑分类方面的潜力。

Key Takeaways

  1. 焦虑障碍影响全球数百万人,但传统诊断方法依赖于临床访谈,存在局限性。
  2. 机器学习模型在焦虑障碍诊断方面存在过拟合问题,且大规模数据采集成本高昂、耗时。
  3. HCFSLN是一种新型的FSL框架,用于多模态焦虑检测,集成了语音、生理信号和视频数据。
  4. HCFSLN通过超曲面嵌入、跨模态注意力和自适应门控网络等技术提高特征可分性。
  5. 实验结果表明,HCFSLN在焦虑分类任务中准确率达到了88%,较最佳基线提高了14%。
  6. 超曲面空间在建模焦虑相关语音模式方面表现出有效性。

Cool Papers

点此查看论文截图

MedVoiceBias: A Controlled Study of Audio LLM Behavior in Clinical Decision-Making

Authors:Zhi Rui Tam, Yun-Nung Chen

As large language models transition from text-based interfaces to audio interactions in clinical settings, they might introduce new vulnerabilities through paralinguistic cues in audio. We evaluated these models on 170 clinical cases, each synthesized into speech from 36 distinct voice profiles spanning variations in age, gender, and emotion. Our findings reveal a severe modality bias: surgical recommendations for audio inputs varied by as much as 35% compared to identical text-based inputs, with one model providing 80% fewer recommendations. Further analysis uncovered age disparities of up to 12% between young and elderly voices, which persisted in most models despite chain-of-thought prompting. While explicit reasoning successfully eliminated gender bias, the impact of emotion was not detected due to poor recognition performance. These results demonstrate that audio LLMs are susceptible to making clinical decisions based on a patient’s voice characteristics rather than medical evidence, a flaw that risks perpetuating healthcare disparities. We conclude that bias-aware architectures are essential and urgently needed before the clinical deployment of these models.

随着大型语言模型从基于文本的用户界面过渡到临床环境中的语音交互,它们可能会通过语音中的副语言线索引入新的漏洞。我们在170个临床病例上对模型进行了评估,每个病例都从涵盖年龄、性别和情感变化的36个不同的语音特征中合成语音。我们的研究发现了一个严重的模式偏见:与基于文本的输入相比,音频输入的手术建议差异高达35%,其中一个模型提供的建议减少了80%。进一步的分析发现,年轻和老年声音之间的差异高达12%,这在大多数模型中仍然存在,尽管采用了链式思维提示。虽然明确的推理成功地消除了性别偏见,但由于识别性能不佳,情绪的影响并未被检测到。这些结果表明,音频大型语言模型容易根据患者的语音特征而不是医学证据做出临床决策,这是一个可能使医疗保健差异持续存在的缺陷。我们得出结论,在临床部署这些模型之前,采用偏见感知架构是至关重要且十分必要的。

论文及项目相关链接

PDF

Summary

语音交互在临床环境中引入新的安全隐患。对语音模型进行临床试验评估,发现不同声音模态可能影响医疗决策建议。年龄、性别差异在模型中尤为显著,性别影响尤为明显。模型根据患者声音特性而非医学证据做出决策的风险可能导致医疗不平等。亟需开发具有偏见意识的架构。

Key Takeaways

Cool Papers

点此查看论文截图

MT-HuBERT: Self-Supervised Mix-Training for Few-Shot Keyword Spotting in Mixed Speech

Authors:Junming Yuan, Ying Shi, Dong Wang, Lantian Li, Askar Hamdulla

Few-shot keyword spotting aims to detect previously unseen keywords with very limited labeled samples. A pre-training and adaptation paradigm is typically adopted for this task. While effective in clean conditions, most existing approaches struggle with mixed keyword spotting–detecting multiple overlapping keywords within a single utterance–a capability essential for real-world applications. We have previously proposed a pre-training approach based on Mix-Training (MT) to tackle the mixed keyword detection problem and demonstrated its efficiency. However, this approach is fully supervised, unable to utilize vast unlabeled data. To this end, we propose Mix-Training HuBERT (MT-HuBERT), a self-supervised learning (SSL) pre-training framework that implements the MT criterion during pre-training. MT-HuBERT predicts, in a self-supervised manner, the clean acoustic units of each constituent signal from contextual cues, in contrast to predicting compositional patterns of mixed speech. Experiments conducted on the Google Speech Commands (GSC v2) corpus demonstrate that our proposed MT-HuBERT consistently outperforms several state-of-the-art baselines in few-shot KWS tasks under both mixed and clean conditions.

少数关键词识别旨在使用非常有限的标记样本检测先前未见的关键词。通常为此任务采用预训练和适应范式。尽管在清洁条件下有效,但大多数现有方法在处理混合关键词识别方面存在困难——在同一句话内检测多个重叠关键词——这是现实世界应用中的基本能力。我们之前提出了基于混合训练(MT)的预训练方法来解决混合关键词检测问题,并证明了其有效性。然而,这种方法是完全监督的,无法利用大量未标记数据。为此,我们提出了混合训练HuBERT(MT-HuBERT),这是一种自监督学习(SSL)预训练框架,在预训练期间实现了MT标准。MT-HuBERT以自监督的方式预测每个组成信号的清洁声学单元,而不是预测混合语音的组合模式。在Google语音命令(GSC v2)语料库上进行的实验表明,我们提出的MT-HuBERT在混合和清洁条件下均优于少数关键词识别任务中的几种最新基线方法。

论文及项目相关链接

PDF

Summary

该文本介绍了针对少样本关键词识别任务的混合训练HuBERT(MT-HuBERT)模型。该模型采用自监督学习(SSL)预训练框架,实现了混合训练准则以处理混合关键词检测问题。MT-HuBERT通过上下文线索以自监督的方式预测各个组成部分信号的纯净声学单元,而非预测混合语音的组合模式。实验证明,在Google语音命令(GSC v2)语料库上,MT-HuBERT在混合和清洁条件下均优于多个前沿基线模型。

Key Takeaways

  1. 少样本关键词识别旨在检测先前未见过的关键词,且只有非常有限的标记样本可用。
  2. 预训练和适应范式通常用于此任务,在清洁条件下有效,但在混合关键词检测方面存在挑战。
  3. 混合训练(MT)方法被用来解决混合关键词检测问题,但它是全监督的,无法利用大量未标记数据。
  4. 提出了混合训练HuBERT(MT-HuBERT)模型,这是一个基于自监督学习(SSL)的预训练框架,实现了MT准则。
  5. MT-HuBERT以自监督的方式预测各个组成部分信号的纯净声学单元。
  6. 实验证明,在Google语音命令(GSC v2)语料库上,MT-HuBERT在混合和清洁条件下均优于多个最新技术模型。

Cool Papers

点此查看论文截图

IDMap: A Pseudo-Speaker Generator Framework Based on Speaker Identity Index to Vector Mapping

Authors:Zeyan Liu, Liping Chen, Kong Aik Lee, Zhenhua Ling

Facilitated by the speech generation framework that disentangles speech into content, speaker, and prosody, voice anonymization is accomplished by substituting the original speaker embedding vector with that of a pseudo-speaker. In this framework, the pseudo-speaker generation forms a fundamental challenge. Current pseudo-speaker generation methods demonstrate limitations in the uniqueness of pseudo-speakers, consequently restricting their effectiveness in voice privacy protection. Besides, existing model-based methods suffer from heavy computation costs. Especially, in the large-scale scenario where a huge number of pseudo-speakers are generated, the limitations of uniqueness and computational inefficiency become more significant. To this end, this paper proposes a framework for pseudo-speaker generation, which establishes a mapping from speaker identity index to speaker vector in the feedforward architecture, termed IDMap. Specifically, the framework is specified into two models: IDMap-MLP and IDMap-Diff. Experiments were conducted on both small- and large-scale evaluation datasets. Small-scale evaluations on the LibriSpeech dataset validated the effectiveness of the proposed IDMap framework in enhancing the uniqueness of pseudo-speakers, thereby improving voice privacy protection, while at a reduced computational cost. Large-scale evaluations on the MLS and Common Voice datasets further justified the superiority of the IDMap framework regarding the stability of the voice privacy protection capability as the number of pseudo-speakers increased. Audio samples and open-source code can be found in https://github.com/VoicePrivacy/IDMap.

借助将语音分解为内容、说话者和韵律的语音生成框架,语音匿名化是通过用伪说话者的嵌入向量替换原始说话者的嵌入向量来实现的。在这个框架中,伪说话者的生成是一个基本挑战。现有的伪说话者生成方法在伪说话者的唯一性方面显示出局限性,从而限制了它们在保护语音隐私方面的有效性。此外,基于现有模型的方法计算成本较高。尤其在大规模场景下生成大量伪说话者时,唯一性和计算效率低下的问题变得更加显著。为此,本文提出了一个伪说话者生成框架,该框架在前馈架构中建立了从说话人身份指数到说话人向量的映射,称为IDMap。具体来说,该框架分为两个模型:IDMap-MLP和IDMap-Diff。实验是在小型和大型评估数据集上进行的。在LibriSpeech数据集上的小型规模评估验证了所提IDMap框架在提高伪说话者的唯一性、提高语音隐私保护能力的同时,降低了计算成本的有效性。在MLS和Common Voice数据集上的大规模评估进一步证明了IDMap框架在随着伪说话者数量增加时,其语音隐私保护能力的稳定性方面的优越性。音频样本和开源代码可在https://github.com/VoicePrivacy/IDMap找到。

论文及项目相关链接

PDF

Summary
语音匿名化通过替代原说话者的嵌入向量以实现。该框架涉及一个重大的挑战——伪说话者生成,它对大规模场景中数以万计的伪说话者生成表现出独特性上的局限和计算效率低下的问题。为解决这些问题,本文提出了IDMap框架,建立说话者身份索引到说话者向量的映射关系。实验证明,IDMap框架在小规模数据集上提高了伪说话者的独特性,降低了计算成本,并在大规模数据集上验证了其语音隐私保护能力的稳定性。具体详情可参见相关开源代码库。

Key Takeaways

  • 语音匿名化是通过替代原说话者的嵌入向量实现。
  • 伪说话者生成是语音匿名化的一个重大挑战,现有方法存在局限性和计算成本问题。
  • IDMap框架通过建立说话者身份索引与说话者向量的映射关系来解决上述问题。
  • IDMap框架分为IDMap-MLP和IDMap-Diff两个模型。
  • 小规模数据集上的实验证明了IDMap框架在提高伪说话者的独特性和降低计算成本方面的有效性。

Cool Papers

点此查看论文截图

Augmenting Open-Vocabulary Dysarthric Speech Assessment with Human Perceptual Supervision

Authors:Kaimeng Jia, Minzhu Tu, Zengrui Jin, Siyin Wang, Chao Zhang

Dysarthria is a speech disorder characterized by impaired intelligibility and reduced communicative effectiveness. Automatic dysarthria assessment provides a scalable, cost-effective approach for supporting the diagnosis and treatment of neurological conditions such as Parkinson’s disease, Alzheimer’s disease, and stroke. This study investigates leveraging human perceptual annotations from speech synthesis assessment as reliable out-of-domain knowledge for dysarthric speech assessment. Experimental results suggest that such supervision can yield consistent and substantial performance improvements in self-supervised learning pre-trained models. These findings suggest that perceptual ratings aligned with human judgments from speech synthesis evaluations represent valuable resources for dysarthric speech modeling, enabling effective cross-domain knowledge transfer.

构音障碍是一种表现为发音不清和沟通效率降低的言语障碍。自动构音障碍评估为帕金森病、阿尔茨海默症和中风等神经性疾病的诊断和治疗提供了一种可扩展、经济高效的辅助方法。本研究探讨了如何利用语音合成评估中的人感知注释作为可靠的领域外知识,用于构音障碍语音评估。实验结果表明,这种监督可以为自监督学习预训练模型带来一致且显著的性能提升。这些发现表明,与语音合成评估中人类判断相一致的感知评分代表着构音障碍语音建模的宝贵资源,能够实现有效的跨域知识迁移。

论文及项目相关链接

PDF Submission of IEEE ICASSP 2026

Summary

本文研究了如何利用语音合成评估中的人感知注释作为可靠的跨域知识,以支持对发音障碍的自动评估。实验结果表明,这种监督可以为预训练模型带来一致且显著的性能提升。因此,与发音障碍语音建模相匹配的感知评分代表了宝贵的资源,可实现有效的跨域知识迁移。

Key Takeaways

  1. 发音障碍是一种表现为语音清晰度受损和沟通效果降低的言语障碍。
  2. 自动发音障碍评估是支持帕金森病、阿尔茨海默症和脑卒中等神经性疾病诊断和治疗的一种可扩展且经济高效的方法。
  3. 利用语音合成评估中的人感知注释可作为可靠的跨域知识,用于支持发音障碍的语音评估。
  4. 实验结果表明,监督学习可以提高预训练模型在发音障碍评估中的性能。
  5. 感知评分与语音合成评估中的人类判断相符,为发音障碍语音建模提供了有价值的资源。
  6. 通过利用这些资源,可以实现有效的跨域知识迁移。

Cool Papers

点此查看论文截图

SPEAR: A Unified SSL Framework for Learning Speech and Audio Representations

Authors:Xiaoyu Yang, Yifan Yang, Zengrui Jin, Ziyun Cui, Wen Wu, Baoxiang Li, Chao Zhang, Phil Woodland

Self-Supervised Learning (SSL) excels at learning generic representations of acoustic signals, yet prevailing methods remain domain-specific, tailored to either speech or general audio, hindering the development of a unified representation model with a comprehensive capability over both domains. To address this, we present SPEAR (SPEech and Audio Representations), the first SSL framework to successfully learn unified speech and audio representations from a mixture of speech and audio data. SPEAR proposes a unified pre-training objective based on masked prediction of fine-grained discrete tokens for both speech and general audio. These tokens are derived from continuous speech and audio representations using a Multi-codebook Vector Quantisation (MVQ) method, retaining rich acoustic detail essential for modelling both speech and complex audio events. SPEAR is applied to pre-train both single-domain and unified speech-and-audio SSL models. Our speech-domain model establishes a new state-of-the-art on the SUPERB benchmark, a speech processing benchmark for SSL models, matching or surpassing the highly competitive WavLM Large on 12 out of 15 tasks with the same pre-training corpora and a similar model size. Crucially, our unified model learns complementary features and demonstrates comprehensive capabilities across two major benchmarks, SUPERB and HEAR, for evaluating audio representations. By further scaling up the model size and pre-training data, we present a unified model with 600M parameters that excels in both domains, establishing it as one of the most powerful and versatile open-source SSL models for auditory understanding. The inference code and pre-trained models will be made publicly available.

自我监督学习(SSL)在声学信号的通用表示学习上表现出色。然而,现有的方法仍然是针对特定领域的,专门为语音或通用音频定制,这阻碍了在两者领域上都具有综合能力的统一表示模型的发展。为了解决这一问题,我们推出了SPEAR(语音和音频表示),这是第一个成功地从语音和音频数据的混合中学习统一语音和音频表示的SSL框架。SPEAR提出了一个基于精细粒度离散标记的掩码预测的统一预训练目标,适用于语音和通用音频。这些标记是从连续的语音和音频表示中使用多码本矢量量化(MVQ)方法得出的,保留了丰富的声学细节,对于建模语音和复杂音频事件都至关重要。SPEAR被应用于预训练单域和统一的语音与音频SSL模型。我们的语音领域模型在SUPERB基准测试上建立了新的最先进的水平,这是一个用于SSL模型的语音处理基准测试。在相同的预训练语料库和相似的模型大小下,我们在15项任务中的12项上匹配或超越了极具竞争力的WavLM Large。关键的是,我们的统一模型学习了互补特征,并在两个主要基准测试SUPERB和HEAR上展示了综合的能力,用于评估音频表示。通过进一步扩展模型大小和预训练数据,我们推出了一个具有6亿参数的统一模型,在两个领域都表现出色,成为最强大和最通用的开源SSL模型之一,用于听觉理解。推理代码和预训练模型将公开发布。

论文及项目相关链接

PDF

Summary

本文提出一种名为SPEAR的自监督学习框架,旨在从语音和音频数据的混合中学习统一表示。SPEAR基于精细离散标记的掩码预测,提出了一个统一的预训练目标,适用于语音和通用音频。通过多编码簿矢量量化方法从连续语音和音频表示中导出这些标记,保留了建模语音和复杂音频事件所需的丰富声学细节。SPEAR应用于预训练单域和统一语音与音频自监督学习模型。实验结果显示,其语音域模型在SUPERB基准测试中达到最新水平,与高度竞争的WavLM Large模型在相同预训练语料库和相似模型大小的情况下,在15项任务中的12项上达到或超过其性能。其统一模型学习互补特征,并在两大基准测试SUPERB和HEAR上表现出全面的能力。通过扩大模型规模和预训练数据,他们提出了一种具有6亿参数的统一模型,在各个领域都表现出卓越性能,成为听觉理解领域最强大和最通用的开源自监督学习模型之一。

Key Takeaways

  1. SPEAR是首个成功学习统一语音和音频表示的自监督学习框架。
  2. SPEAR通过掩码预测精细离散标记的方法实现预训练目标,适用于语音和通用音频。
  3. 多编码簿矢量量化方法用于从连续表示中导出标记,保留丰富的声学细节。
  4. SPEAR的语音域模型在SUPERB基准测试中表现优异,与WavLM Large相比在多数任务上更胜一筹。
  5. 统一模型学习互补特征,在两大基准测试上表现出全面的能力。
  6. 扩大模型规模和预训练数据进一步提升了模型的性能。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
Face Swapping Face Swapping
Face Swapping 方向最新论文已更新,请持续关注 Update in 2025-11-16 DiffSwap++ 3D Latent-Controlled Diffusion for Identity-Preserving Face Swapping
2025-11-16
下一篇 
医学影像/Breast Ultrasound 医学影像/Breast Ultrasound
医学影像/Breast Ultrasound 方向最新论文已更新,请持续关注 Update in 2025-11-16 A Dual-Mode ViT-Conditioned Diffusion Framework with an Adaptive Conditioning Bridge for Breast Cancer Segmentation
  目录