嘘~ 正在从服务器偷取页面 . . .

Speech


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-09-12 更新

Streaming Sequence-to-Sequence Learning with Delayed Streams Modeling

Authors:Neil Zeghidour, Eugene Kharitonov, Manu Orsini, Václav Volhejn, Gabriel de Marmiesse, Edouard Grave, Patrick Pérez, Laurent Mazaré, Alexandre Défossez

We introduce Delayed Streams Modeling (DSM), a flexible formulation for streaming, multimodal sequence-to-sequence learning. Sequence-to-sequence generation is often cast in an offline manner, where the model consumes the complete input sequence before generating the first output timestep. Alternatively, streaming sequence-to-sequence rely on learning a policy for choosing when to advance on the input stream, or write to the output stream. DSM instead models already time-aligned streams with a decoder-only language model. By moving the alignment to a pre-processing step,and introducing appropriate delays between streams, DSM provides streaming inference of arbitrary output sequences, from any input combination, making it applicable to many sequence-to-sequence problems. In particular, given text and audio streams, automatic speech recognition (ASR) corresponds to the text stream being delayed, while the opposite gives a text-to-speech (TTS) model. We perform extensive experiments for these two major sequence-to-sequence tasks, showing that DSM provides state-of-the-art performance and latency while supporting arbitrary long sequences, being even competitive with offline baselines. Code, samples and demos are available at https://github.com/kyutai-labs/delayed-streams-modeling

我们介绍了延迟流建模(DSM),这是一种用于流式、多模态序列到序列学习的灵活公式。序列到序列生成通常以一种离线的方式进行,模型在生成第一个输出时间步之前会消耗完整的输入序列。相比之下,流式序列到序列则依赖于学习一个策略,以确定何时推进输入流,或写入输出流。然而,DSM使用仅解码的语言模型对已经时间对齐的流进行建模。通过将对齐移动到预处理步骤,并在流之间引入适当的延迟,DSM可以对任意输出序列进行流式推理,适用于许多序列到序列问题,适用于任何输入组合。特别是给定文本和音频流时,语音识别(ASR)对应于文本流延迟,而相反则给出了文本到语音(TTS)模型。我们为这两个主要的序列到序列任务进行了大量实验,结果表明,DSM在提供最先进的性能和延迟的同时,还支持任意长序列,甚至与离线基准测试相竞争。代码、样本和演示可在https://github.com/kyutai-labs/delayed-streams-modeling找到。

论文及项目相关链接

PDF

Summary

本文介绍了延迟流建模(DSM),这是一种灵活的多模态序列到序列学习的流式处理方法。传统的序列到序列生成多为离线模式,而DSM将输入序列与输出流的时序对齐转移至预处理步骤,通过引入适当的延迟来实现任意输出序列的流式推断,适用于多种序列到序列问题。在自动语音识别(ASR)和文本到语音(TTS)等关键任务上表现优秀。

Key Takeaways

  1. 延迟流建模(DSM)是一种灵活的多模态序列到序列学习的流式处理方法。
  2. 传统序列到序列生成多为离线模式,而DSM能实现任意输出序列的流式推断。
  3. DSM通过预处理的时序对齐和引入适当的延迟来实现流式推断。
  4. DSM适用于多种序列到序列问题。
  5. 在自动语音识别(ASR)任务上,DSM表现优秀,可延迟文本流以实现ASR。
  6. 在文本到语音(TTS)任务上,DSM通过延迟音频流实现TTS模型。

Cool Papers

点此查看论文截图

Joint Learning using Mixture-of-Expert-Based Representation for Enhanced Speech Generation and Robust Emotion Recognition

Authors:Jing-Tong Tzeng, Carlos Busso, Chi-Chun Lee

Speech emotion recognition (SER) plays a critical role in building emotion-aware speech systems, but its performance degrades significantly under noisy conditions. Although speech enhancement (SE) can improve robustness, it often introduces artifacts that obscure emotional cues and adds computational overhead to the pipeline. Multi-task learning (MTL) offers an alternative by jointly optimizing SE and SER tasks. However, conventional shared-backbone models frequently suffer from gradient interference and representational conflicts between tasks. To address these challenges, we propose the Sparse Mixture-of-Experts Representation Integration Technique (Sparse MERIT), a flexible MTL framework that applies frame-wise expert routing over self-supervised speech representations. Sparse MERIT incorporates task-specific gating networks that dynamically select from a shared pool of experts for each frame, enabling parameter-efficient and task-adaptive representation learning. Experiments on the MSP-Podcast corpus show that Sparse MERIT consistently outperforms baseline models on both SER and SE tasks. Under the most challenging condition of -5 dB signal-to-noise ratio (SNR), Sparse MERIT improves SER F1-macro by an average of 12.0% over a baseline relying on a SE pre-processing strategy, and by 3.4% over a naive MTL baseline, with statistical significance on unseen noise conditions. For SE, Sparse MERIT improves segmental SNR (SSNR) by 28.2% over the SE pre-processing baseline and by 20.0% over the naive MTL baseline. These results demonstrate that Sparse MERIT provides robust and generalizable performance for both emotion recognition and enhancement tasks in noisy environments.

语音情感识别(SER)在构建情感感知语音系统中起着关键作用,但在噪声环境下其性能会显著下降。虽然语音增强(SE)可以提高稳健性,但它往往会引入掩盖情感线索的伪影,并为管道增加计算开销。多任务学习(MTL)通过联合优化SE和SER任务提供了一种替代方案。然而,传统的共享骨干模型经常受到梯度干扰和任务表示冲突的影响。为了解决这些挑战,我们提出了灵活的MTL框架——稀疏混合专家表示集成技术(Sparse MERIT),它应用帧级专家路由对自监督语音表示进行建模。Sparse MERIT结合了特定任务的门控网络,可以动态地从共享的专家池中为每一帧选择专家,从而实现参数高效和任务自适应的表示学习。在MSP-Podcast语料库上的实验表明,Sparse MERIT在SER和SE任务上均优于基线模型。在信噪比(SNR)为-5 dB的最具挑战性的条件下,与依赖SE预处理策略的基线相比,Sparse MERIT的SER F1-macro平均提高了12.0%,与简单的MTL基线相比提高了3.4%,在未见过的噪声条件下具有统计学上的显著意义。对于SE,Sparse MERIT比SE预处理基线提高了28.2%的段SNR(SSNR),比简单的MTL基线提高了20.0%。这些结果表明,Sparse MERIT在噪声环境下的情感识别和增强任务中都提供了稳健和通用的性能。

论文及项目相关链接

PDF

Summary
语音情感识别在构建情感感知语音系统中扮演着关键角色,但在噪声环境下性能显著下降。虽然语音增强可以提高稳健性,但它常常引入掩盖情感线索的伪影并增加计算开销。多任务学习提供了一个替代方案,通过联合优化语音增强和语音情感识别任务。然而,常规共享骨干模型常受梯度干扰和任务表示冲突的影响。为解决这些挑战,提出了灵活的多任务学习框架——Sparse Mixture-of-Experts Representation Integration Technique (Sparse MERIT),它应用帧级专家路由于自我监督的语音表示上。Sparse MERIT结合了任务特定门控网络,动态为每帧选择共享专家池中的专家,实现参数高效和任务自适应的表示学习。实验表明,Sparse MERIT在语音情感识别和语音增强任务上均优于基线模型,在信噪比-5 dB的最具挑战条件下,相较于依赖语音增强预处理的基线模型,Sparse MERIT在情感识别的F1-macro得分上平均提高了12.0%,相较于简单的多任务学习基线提高了3.4%,在未见过的噪声条件下具有统计显著性。对于语音增强,Sparse MERIT在分段信噪比(SSNR)上比语音增强预处理基线提高了28.2%,比简单的多任务学习基线提高了20.0%。结果表明,Sparse MERIT在噪声环境下为语音情感识别和增强任务提供了稳健和可泛化的性能。

Key Takeaways

  1. 语音情感识别(SER)在噪声环境下性能下降。
  2. 语音增强(SE)能提高稳健性,但可能引入掩盖情感线索的伪影。
  3. 多任务学习(MTL)通过联合优化SE和SER任务作为替代方案。
  4. 常规共享骨干模型面临梯度干扰和表示冲突的挑战。
  5. Sparse MERIT通过帧级专家路由和自我监督的语音表示提供灵活多任务学习。
  6. Sparse MERIT在噪声环境下显著优于基线模型,尤其在-5 dB的SNR条件下。

Cool Papers

点此查看论文截图

Few-shot Personalization via In-Context Learning for Speech Emotion Recognition based on Speech-Language Model

Authors:Mana Ihori, Taiga Yamane, Naotaka Kawata, Naoki Makishima, Tomohiro Tanaka, Satoshi Suzuki, Shota Orihashi, Ryo Masumura

This paper proposes a personalization method for speech emotion recognition (SER) through in-context learning (ICL). Since the expression of emotions varies from person to person, speaker-specific adaptation is crucial for improving the SER performance. Conventional SER methods have been personalized using emotional utterances of a target speaker, but it is often difficult to prepare utterances corresponding to all emotion labels in advance. Our idea to overcome this difficulty is to obtain speaker characteristics by conditioning a few emotional utterances of the target speaker in ICL-based inference. ICL is a method to perform unseen tasks by conditioning a few input-output examples through inference in large language models (LLMs). We meta-train a speech-language model extended from the LLM to learn how to perform personalized SER via ICL. Experimental results using our newly collected SER dataset demonstrate that the proposed method outperforms conventional methods.

本文提出了一种基于上下文学习(ICL)的语音情感识别(SER)个性化方法。由于情感的表达因人而异,因此针对特定说话人的适应对于提高SER性能至关重要。传统的SER方法已经通过目标说话人的情感话语进行了个性化处理,但往往难以提前准备与所有情感标签相对应的话语。我们克服这一困难的想法是通过在基于ICL的推理中条件化目标说话人的少数情感话语来获得说话人特征。ICL是一种通过在大语言模型(LLM)中进行推理来执行未见任务的方法,通过少数输入-输出示例进行条件处理。我们对从LLM扩展的语音语言模型进行元训练,以学习如何通过ICL执行个性化的SER。使用我们新收集的SER数据集进行的实验结果表明,该方法优于传统方法。

论文及项目相关链接

PDF Accepted by ASRU 2025

总结

本文提出了一种基于上下文学习(ICL)的个性化语音情感识别(SER)方法。由于情感表达具有个体差异,针对特定说话人的适应性对于提高SER性能至关重要。虽然传统方法已尝试通过目标说话人的情感话语实现个性化,但预先准备所有情感标签的语句往往非常困难。本研究通过ICL推理中的条件语句获得说话人的特性来克服这一难题。ICL是一种在大语言模型(LLM)中通过推理处理未见任务的方法。本研究通过元训练扩展了语音语言模型,使其能够学习如何通过ICL执行个性化SER。使用新收集的SER数据集的实验结果表明,该方法优于传统方法。

要点分析

  1. 论文提出了一种针对语音情感识别(SER)的个性化方法,该方法基于上下文学习(ICL)。
  2. 情感表达具有个体差异,因此针对特定说话人的适应性对于提高SER性能至关重要。
  3. 传统方法使用目标说话人的情感话语进行个性化,但预先准备所有情感标签的语句是一个挑战。
  4. ICL是一种在大语言模型(LLM)中进行推理的方法,可以通过少量的输入-输出示例来处理未见任务。
  5. 研究中的语音语言模型通过元训练学习如何通过ICL执行个性化SER。
  6. 使用新收集的SER数据集进行的实验表明,该方法在性能上超越了传统方法。
  7. 该方法提供了一种有效利用少量情感语句来捕捉目标说话人的特性,从而提高了SER的性能。

Cool Papers

点此查看论文截图

A Bottom-up Framework with Language-universal Speech Attribute Modeling for Syllable-based ASR

Authors:Hao Yen, Pin-Jui Ku, Sabato Marco Siniscalchi, Chin-Hui Lee

We propose a bottom-up framework for automatic speech recognition (ASR) in syllable-based languages by unifying language-universal articulatory attribute modeling with syllable-level prediction. The system first recognizes sequences or lattices of articulatory attributes that serve as a language-universal, interpretable representation of pronunciation, and then transforms them into syllables through a structured knowledge integration process. We introduce two evaluation metrics, namely Pronunciation Error Rate (PrER) and Syllable Homonym Error Rate (SHER), to evaluate the model’s ability to capture pronunciation and handle syllable ambiguities. Experimental results on the AISHELL-1 Mandarin corpus demonstrate that the proposed bottom-up framework achieves competitive performance and exhibits better robustness under low-resource conditions compared to the direct syllable prediction model. Furthermore, we investigate the zero-shot cross-lingual transferability on Japanese and demonstrate significant improvements over character- and phoneme-based baselines by 40% error rate reduction.

我们提出了一种基于底层的自动语音识别(ASR)框架,用于音节类语言,通过统一语言通用的发音属性建模与音节级预测来实现。该系统首先识别发音属性的序列或网格,作为语言通用的可解释发音表示,然后通过结构化知识整合过程将它们转换为音节。我们引入了两种评估指标,即发音错误率(PrER)和音节同音字错误率(SHER),以评估模型捕捉发音和处理音节歧义的能力。在AISHELL-1普通话语料库上的实验结果表明,所提底层框架的性能具有竞争力,与直接音节预测模型相比,在低资源条件下表现出更好的稳健性。此外,我们在日语上进行了零样本跨语言可迁移性的研究,相较于字符和音素基准线,实现了40%的错误率降低,取得了显著改进。

论文及项目相关链接

PDF

Summary

本文提出一种面向音节语言的自动语音识别(ASR)的自下而上框架,该框架结合了语言通用的发音属性建模与音节级别的预测。系统首先识别发音属性的序列或格网,作为语言通用的可解释发音表示,然后通过结构化知识整合过程将它们转化为音节。引入两种评估指标——发音错误率和音节同音词错误率,以评估模型捕捉发音和处理音节歧义的能力。在AISHELL-1普通话语料库上的实验结果表明,与直接音节预测模型相比,所提自下而上框架具有竞争力,并在低资源条件下表现出更好的稳健性。此外,在日语上的零样本跨语言迁移能力测试也证明了该框架的显著改进,相比字符和音素基线误差率降低了40%。

Key Takeaways

  • 提出一种针对音节语言的自动语音识别(ASR)自下而上框架。
  • 结合语言通用的发音属性建模与音节级别预测。
  • 通过识别发音属性序列或格网,转化为语言通用的可解释发音表示。
  • 引入发音错误率和音节同音词错误率两种评估指标。
  • 在AISHELL-1普通话语料库上表现出良好性能,特别是在低资源条件下。
  • 显示出显著的跨语言迁移能力,特别是在日语上的表现。

Cool Papers

点此查看论文截图

Affine Modulation-based Audiogram Fusion Network for Joint Noise Reduction and Hearing Loss Compensation

Authors:Ye Ni, Ruiyu Liang, Xiaoshuai Hao, Jiaming Cheng, Qingyun Wang, Chengwei Huang, Cairong Zou, Wei Zhou, Weiping Ding, Björn W. Schuller

Hearing aids (HAs) are widely used to provide personalized speech enhancement (PSE) services, improving the quality of life for individuals with hearing loss. However, HA performance significantly declines in noisy environments as it treats noise reduction (NR) and hearing loss compensation (HLC) as separate tasks. This separation leads to a lack of systematic optimization, overlooking the interactions between these two critical tasks, and increases the system complexity. To address these challenges, we propose a novel audiogram fusion network, named AFN-HearNet, which simultaneously tackles the NR and HLC tasks by fusing cross-domain audiogram and spectrum features. We propose an audiogram-specific encoder that transforms the sparse audiogram profile into a deep representation, addressing the alignment problem of cross-domain features prior to fusion. To incorporate the interactions between NR and HLC tasks, we propose the affine modulation-based audiogram fusion frequency-temporal Conformer that adaptively fuses these two features into a unified deep representation for speech reconstruction. Furthermore, we introduce a voice activity detection auxiliary training task to embed speech and non-speech patterns into the unified deep representation implicitly. We conduct comprehensive experiments across multiple datasets to validate the effectiveness of each proposed module. The results indicate that the AFN-HearNet significantly outperforms state-of-the-art in-context fusion joint models regarding key metrics such as HASQI and PESQ, achieving a considerable trade-off between performance and efficiency. The source code and data will be released at https://github.com/deepnetni/AFN-HearNet.

助听器(HAs)广泛应用于个性化语音增强(PSE)服务,以提高听障人士的生活质量。然而,在嘈杂的环境中,助听器的性能会大幅下降,因为它将降噪(NR)和听力损失补偿(HLC)视为单独的任务。这种分离导致缺乏系统优化,忽视了这两个关键任务之间的相互作用,并增加了系统复杂性。为了解决这些挑战,我们提出了一种新型音频图融合网络,名为AFN-HearNet,它通过融合跨域音频图和光谱特征,同时解决NR和HLC任务。我们提出了一种针对音频图的特定编码器,将稀疏音频图轮廓转换为深度表示,解决跨域特征融合之前的对齐问题。为了结合NR和HLC任务之间的相互作用,我们提出了基于仿射调制的音频图融合时空卷积网络,该网络自适应地将这两个特征融合为统一的深度表示,用于语音重建。此外,我们引入了一个语音活动检测辅助训练任务,将语音和非语音模式隐式地嵌入到统一的深度表示中。我们在多个数据集上进行了全面的实验,以验证所提出模块的有效性。结果表明,AFN-HearNet在关键指标HASQI和PESQ方面显著优于最新的上下文融合联合模型,在性能和效率之间实现了可观的权衡。源代码和数据将在https://github.com/deepnetni/AFN-HearNet上发布。

论文及项目相关链接

PDF

摘要

助听器(HA)提供个性化语音增强(PSE)服务,提高听障人士的生活质量。然而,在嘈杂环境中,助听器性能显著下降,它将噪声降低(NR)和听力损失补偿(HLC)视为单独的任务处理。这种分离导致缺乏系统优化,忽略了这两个关键任务之间的相互作用,并增加了系统复杂性。为解决这些挑战,我们提出了一种名为AFN-HearNet的新型听力图融合网络,可同时解决NR和HLC任务,通过融合跨域听力图和频谱特征。我们提出了一个听力图特定编码器,将稀疏听力图转换为深度表示,解决了跨域特征对齐问题。为了融入NR和HLC任务间的交互作用,我们提出了基于仿射调制的听力图融合频时卷积神经网络(Conformer),自适应地将这两个特征融合为统一的深度表示用于语音重建。此外,我们还引入了语音活动检测辅助训练任务,将语音和非语音模式嵌入到统一的深度表示中。我们在多个数据集上进行了全面的实验,验证了每个模块的有效性。结果表明,AFN-HearNet在关键指标HASQI和PESQ上显著优于最新的上下文融合联合模型,实现了性能和效率之间的良好权衡。源代码和数据将在https://github.com/deepnetni/AFN-HearNet发布。

要点

  1. 助听器在嘈杂环境中性能下降,因为将噪声降低和听力损失补偿视为独立任务处理。
  2. 提出新型AFN-HearNet网络,融合跨域听力图和频谱特征以改善助听器性能。
  3. AFN-HearNet引入听力图特定编码器以转换稀疏听力图到深度表示形式。
  4. 引入仿射调制Conformer模块来适应地融合NR和HLC特征。
  5. 通过语音活动检测辅助训练任务嵌入语音和非语音模式到统一深度表示中。
  6. 实验证明AFN-HearNet在关键指标上优于其他模型,实现了性能和效率的平衡。

Cool Papers

点此查看论文截图

SaD: A Scenario-Aware Discriminator for Speech Enhancement

Authors:Xihao Yuan, Siqi Liu, Yan Chen, Hang Zhou, Chang Liu, Hanting Chen, Jie Hu

Generative adversarial network-based models have shown remarkable performance in the field of speech enhancement. However, the current optimization strategies for these models predominantly focus on refining the architecture of the generator or enhancing the quality evaluation metrics of the discriminator. This approach often overlooks the rich contextual information inherent in diverse scenarios. In this paper, we propose a scenario-aware discriminator that captures scene-specific features and performs frequency-domain division, thereby enabling a more accurate quality assessment of the enhanced speech generated by the generator. We conducted comprehensive experiments on three representative models using two publicly available datasets. The results demonstrate that our method can effectively adapt to various generator architectures without altering their structure, thereby unlocking further performance gains in speech enhancement across different scenarios.

基于生成对抗网络(GAN)的模型在语音增强领域表现出卓越的性能。然而,当前针对这些模型的优化策略主要集中在改进生成器的架构或提高判别器的质量评估指标上。这种方法往往会忽略不同场景中丰富的上下文信息。在本文中,我们提出了一种场景感知判别器,该判别器能够捕获场景特定特征并执行频域分割,从而实现对生成器生成的增强语音的更准确质量评估。我们在三个代表性模型上使用了两个公开数据集进行了全面的实验。结果表明,我们的方法可以有效地适应各种生成器架构,而无需改变其结构,从而在不同场景的语音增强中实现了进一步的性能提升。

论文及项目相关链接

PDF 5 pages, 2 figures. Accepted by InterSpeech2025

Summary

本文提出一种基于场景感知的判别器,用于捕捉场景特定特征并执行频域分割,从而更准确地对生成器生成的增强语音进行质量评估。实验结果表明,该方法可有效适应各种生成器架构,无需改变其结构,可在不同场景下实现语音增强的性能提升。

Key Takeaways

  1. 生成对抗网络模型在语音增强领域表现出卓越性能。
  2. 当前优化策略主要关注生成器的架构或判别器质量评估指标的改进。
  3. 提出的场景感知判别器能捕捉场景特定特征,并进行频域分割。
  4. 判别器能提高对生成器产生的增强语音的质量评估准确性。
  5. 方法适应多种生成器架构,无需改变其结构。
  6. 在不同场景下,该方法能实现语音增强的性能提升。

Cool Papers

点此查看论文截图

The Model Hears You: Audio Language Model Deployments Should Consider the Principle of Least Privilege

Authors:Luxi He, Xiangyu Qi, Michel Liao, Inyoung Cheong, Prateek Mittal, Danqi Chen, Peter Henderson

The latest Audio Language Models (Audio LMs) process speech directly instead of relying on a separate transcription step. This shift preserves detailed information, such as intonation or the presence of multiple speakers, that would otherwise be lost in transcription. However, it also introduces new safety risks, including the potential misuse of speaker identity cues and other sensitive vocal attributes, which could have legal implications. In this paper, we urge a closer examination of how these models are built and deployed. Our experiments show that end-to-end modeling, compared with cascaded pipelines, creates socio-technical safety risks such as identity inference, biased decision-making, and emotion detection. This raises concerns about whether Audio LMs store voiceprints and function in ways that create uncertainty under existing legal regimes. We then argue that the Principle of Least Privilege should be considered to guide the development and deployment of these models. Specifically, evaluations should assess (1) the privacy and safety risks associated with end-to-end modeling; and (2) the appropriate scope of information access. Finally, we highlight related gaps in current audio LM benchmarks and identify key open research questions, both technical and policy-related, that must be addressed to enable the responsible deployment of end-to-end Audio LMs.

最新的音频语言模型(Audio LMs)能够直接处理语音,而无需依赖单独的转录步骤。这种转变保留了详细信息,如语调或多名演讲者的存在,这些信息在转录过程中可能会丢失。然而,这也带来了新的安全风险,包括可能滥用说话人身份线索和其他敏感语音特征,并可能涉及法律风险。在本文中,我们敦促对如何构建和部署这些模型进行更深入的审查。我们的实验表明,与级联管道相比,端到端的建模会产生社会技术安全风险,如身份推断、决策偏见和情绪检测。这引发了人们对Audio LMs是否存储语音特征并以在当前法律体系下产生不确定性方式运行的担忧。然后,我们主张考虑“最小特权原则”来指导这些模型的开发和部署。具体而言,评估应该包括(1)与端到端建模相关的隐私和安全风险;(2)信息访问的适当范围。最后,我们强调了当前音频LM基准测试中的相关空白,并确定了必须解决的关键开放研究问题,包括技术和政策相关问题,以实现端到端Audio LMs的责任部署。

论文及项目相关链接

PDF Published at AIES 2025

摘要
语音识别领域的研究中,最新推出的音频语言模型可直接处理语音信息,无需经过单独的转录步骤。这一变革能够保留如语调、多人对话等细节信息,避免了转录过程中可能产生的信息损失。然而,这也带来了新的安全风险,如滥用说话人身份线索和其他敏感语音特征,并可能引发法律争议。本文呼吁更深入地研究这些模型的构建与部署过程。实验显示,端到端的建模方式与级联管道相比,会引发社会技术安全风险,如身份推断、决策偏见和情感检测等。这引发了关于音频语言模型是否存储语音特征以及如何以现有法律体系下不确定的方式运行的担忧。本文主张采用最小特权原则来指导这些模型的发展和应用,并对其进行评估:一是对端到端建模的隐私和安全风险进行评估;二是评估信息访问的适当范围。最后,本文强调了当前音频语言模型基准测试中的空白,并指出了必须解决的关键开放研究问题,包括技术和政策方面的问题,以实现端到端的音频语言模型的负责任部署。

关键见解

  1. 最新音频语言模型可直接处理语音信息,避免了转录过程中的信息损失。
  2. 直接处理语音信息也带来了新的安全风险,如滥用说话人身份线索和其他敏感语音特征。
  3. 端到端的建模方式可能引发社会技术安全风险,如身份推断、决策偏见和情感检测等。
  4. 引发了关于音频语言模型是否存储语音特征以及如何以现有法律体系下不确定的方式运行的担忧。
  5. 应采用最小特权原则来指导音频语言模型的发展和应用,并进行隐私和安全风险评估。
  6. 当前音频语言模型基准测试存在空白。

Cool Papers

点此查看论文截图

VINP: Variational Bayesian Inference with Neural Speech Prior for Joint ASR-Effective Speech Dereverberation and Blind RIR Identification

Authors:Pengyu Wang, Ying Fang, Xiaofei Li

Reverberant speech, denoting the speech signal degraded by reverberation, contains crucial knowledge of both anechoic source speech and room impulse response (RIR). This work proposes a variational Bayesian inference (VBI) framework with neural speech prior (VINP) for joint speech dereverberation and blind RIR identification. In VINP, a probabilistic signal model is constructed in the time-frequency (T-F) domain based on convolution transfer function (CTF) approximation. For the first time, we propose using an arbitrary discriminative dereverberation deep neural network (DNN) to estimate the prior distribution of anechoic speech within a probabilistic model. By integrating both reverberant speech and the anechoic speech prior, VINP yields the maximum a posteriori (MAP) and maximum likelihood (ML) estimations of the anechoic speech spectrum and CTF filter, respectively. After simple transformations, the waveforms of anechoic speech and RIR are estimated. VINP is effective for automatic speech recognition (ASR) systems, which sets it apart from most deep learning (DL)-based single-channel dereverberation approaches. Experiments on single-channel speech dereverberation demonstrate that VINP attains state-of-the-art (SOTA) performance in mean opinion score (MOS) and word error rate (WER). For blind RIR identification, experiments demonstrate that VINP achieves SOTA performance in estimating reverberation time at 60 dB (RT60) and advanced performance in direct-to-reverberation ratio (DRR) estimation. Codes and audio samples are available online.

带有混响的语音信号体现了原始无混响语音信号和房间脉冲响应(RIR)的关键知识。本研究提出了一个结合了神经语音先验的变贝叶斯推理(VBI)框架,用于联合语音去混响和盲RIR识别。在VINP中,基于卷积传递函数(CTF)近似值在时频(T-F)域构建了概率信号模型。我们首次提出使用任意的判别去混响深度神经网络(DNN)来估计概率模型中的无混响语音的先验分布。通过整合带混响的语音和无混响语音先验,VINP可以得到无混响语音谱和CTF滤波器的最大后验(MAP)和最大似然(ML)估计。经过简单的转换,可以估算出无混响语音和RIR的波形。VINP对于自动语音识别(ASR)系统非常有效,这与大多数基于深度学习的单通道去混响方法有所不同。在单通道语音去混响的实验中,VINP在平均意见得分(MOS)和词错误率(WER)方面达到了最新水平(SOTA)。对于盲RIR识别,实验表明VINP在估计60分贝的混响时间(RT60)方面达到了最新水平,并且在直接-混响比率(DRR)估计方面取得了先进的性能。相关代码和音频样本可以在网上找到。

论文及项目相关链接

PDF Submitted to IEEE/ACM Trans. on TASLP

Summary
该研究利用变分贝叶斯推断(VBI)框架与神经网络语音先验(VINP)联合进行语音去混响和盲房间冲击响应(RIR)识别。基于卷积传递函数(CTF)近似值在时间频率(T-F)域构建概率信号模型,首次提出使用任意判别去混响深度神经网络(DNN)来估计无混响语音的先验分布。整合混响语音和无混响语音先验信息,VINP可获得无混响语音谱和CTF滤波器的最大后验(MAP)和最大似然(ML)估计值。经过简单变换,可估计无混响语音和RIR的波形。该研究方法对自动语音识别(ASR)系统有效,在单通道语音去混响方面取得了最佳性能。同时盲RIR识别实验结果亦显示其性能优异。

Key Takeaways

  1. 变分贝叶斯推断(VBI)框架结合神经网络语音先验(VINP)用于联合语音去混响和盲房间冲击响应(RIR)识别。
  2. 基于卷积传递函数(CTF)在T-F域构建概率信号模型。
  3. 使用任意判别去混响深度神经网络(DNN)估计无混响语音的先验分布。
  4. VINP可以获得无混响语音谱和CTF滤波器的MAP和ML估计。
  5. VINP对自动语音识别(ASR)系统有效。
  6. 在单通道语音去混响方面,VINP达到了最佳性能,体现在平均意见得分(MOS)和词错误率(WER)上。

Cool Papers

点此查看论文截图

Neural-Enhanced Dynamic Range Compression Inversion: A Hybrid Approach for Restoring Audio Dynamics

Authors:Haoran Sun, Dominique Fourer, Hichem Maaref

Dynamic Range Compression (DRC) is a widely used audio effect that adjusts signal dynamics for applications in music production, broadcasting, and speech processing. Inverting DRC is of broad importance for restoring the original dynamics, enabling remixing, and enhancing the overall audio quality. Existing DRC inversion methods either overlook key parameters or rely on precise parameter values, which can be challenging to estimate accurately. To address this limitation, we introduce a hybrid approach that combines model-based DRC inversion with neural networks to achieve robust DRC parameter estimation and audio restoration simultaneously. Our method uses tailored neural network architectures (classification and regression), which are then integrated into a model-based inversion framework to reconstruct the original signal. Experimental evaluations on various music and speech datasets confirm the effectiveness and robustness of our approach, outperforming several state-of-the-art techniques.

动态范围压缩(DRC)是一种广泛应用于音乐制作、广播和语音处理等应用的音频效果,它用于调整信号动态。对DRC进行反转对于恢复原始动态、实现混音和增强整体音频质量具有重大意义。现有的DRC反转方法要么忽略了关键参数,要么依赖于精确的参数值,而准确估计这些参数值可能具有挑战性。为了解决这一局限性,我们引入了一种混合方法,它将基于模型的DRC反转与神经网络相结合,同时实现稳健的DRC参数估计和音频恢复。我们的方法使用定制化的神经网络架构(分类和回归),然后将其集成到基于模型的反转框架中来重建原始信号。对各种音乐和语音数据集的实验评估证实了我们方法的有效性和稳健性,优于几种最新技术。

论文及项目相关链接

PDF This work has been submitted to the IEEE for possible publication

总结

动态范围压缩(DRC)是一种广泛应用于音频处理的效应,用于调整信号动态,应用于音乐制作、广播和语音处理等。对DRC进行反转对于恢复原始动态、混音和增强整体音频质量具有重要意义。现有的DRC反转方法要么忽略关键参数,要么依赖于难以准确估计的精确参数值。为了解决这一局限性,我们提出了一种混合方法,将基于模型的DRC反转与神经网络相结合,实现稳健的DRC参数估计和音频恢复。我们的方法使用定制化的神经网络架构(分类和回归),然后将其集成到基于模型的反转框架中以重建原始信号。在各种音乐和语音数据集上的实验评估证实了我们方法的有效性和稳健性,优于几种先进技术。

要点

  1. 动态范围压缩(DRC)是一种广泛应用于音频处理的效应,用于调整信号动态。
  2. DRC反转对于恢复原始动态、混音和增强整体音频质量具有重要意义。
  3. 现有DRC反转方法存在挑战,如忽略关键参数或依赖难以准确估计的参数值。
  4. 提出了一种混合方法,结合模型驱动的DRC反转和神经网络,实现稳健的DRC参数估计和音频恢复。
  5. 使用定制化的神经网络架构(分类和回归),集成到基于模型的反转框架中重建原始信号。
  6. 实验评估表明,该方法在多种数据集上表现有效且稳健,优于现有技术。
  7. 该方法对于音频处理和语音处理等领域具有广泛的应用前景。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
  目录