嘘~ 正在从服务器偷取页面 . . .

Speech


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-22 更新

SUNAC: Source-aware Unified Neural Audio Codec

Authors:Ryo Aihara, Yoshiki Masuyama, Francesco Paissan, François G. Germain, Gordon Wichern, Jonathan Le Roux

Neural audio codecs (NACs) provide compact representations that can be leveraged in many downstream applications, in particular large language models. Yet most NACs encode mixtures of multiple sources in an entangled manner, which may impede efficient downstream processing in applications that need access to only a subset of the sources (e.g., analysis of a particular type of sound, transcription of a given speaker, etc). To address this, we propose a source-aware codec that encodes individual sources directly from mixtures, conditioned on source type prompts. This enables user-driven selection of which source(s) to encode, including separately encoding multiple sources of the same type (e.g., multiple speech signals). Experiments show that our model achieves competitive resynthesis and separation quality relative to a cascade of source separation followed by a conventional NAC, with lower computational cost.

神经音频编解码器(NAC)提供了紧凑的表示形式,可以在许多下游应用(尤其是大型语言模型)中加以利用。然而,大多数NAC以纠缠的方式对多个源进行编码,这可能会阻碍只需要一部分源的下游应用程序中的高效处理(例如,分析特定类型的声音、给定说话人的转录等)。为了解决这一问题,我们提出了一种源感知编解码器,它可以直接从混合物中对单个源进行编码,以源类型提示为条件。这使得用户可以驱动选择哪个(哪些)源进行编码,包括单独编码同一类型的多个源(例如,多个语音信号)。实验表明,我们的模型在重新合成和分离质量方面与先进行源分离然后进行常规NAC的级联方法相比具有竞争力,同时计算成本更低。

论文及项目相关链接

PDF Submitted to ICASSP 2026

Summary

神经网络音频编码(NAC)提供紧凑的表示形式,可广泛应用于多种下游应用,尤其是大型语言模型。然而,大多数NAC以纠缠的方式编码多个源的混合物,这可能阻碍仅需要访问源子集的下游应用的高效处理。为解决此问题,我们提出了一种源感知编码方式,直接从混合物中编码单个源,并根据源类型提示进行条件处理。这使用户可以选择要编码的源,包括单独编码同一类型的多个源(例如,多个语音信号)。实验表明,与先经过源分离再经过常规NAC的级联模型相比,我们的模型在重新合成和分离质量方面表现具有竞争力,同时计算成本更低。

Key Takeaways

  1. 神经网络音频编码(NAC)为多种下游应用提供紧凑的音频表示形式。
  2. 大多数NAC以纠缠方式编码多个源的混合物,这可能不适用于需要访问特定源的下游应用。
  3. 为解决这一问题,提出了一种源感知编码方式,可以单独编码不同源的音频混合物。
  4. 该编码方式允许用户选择哪些源进行编码,包括同一类型的多个源。
  5. 实验显示,该模型的重新合成和分离质量与级联模型相当,但计算成本更低。
  6. 该方法特别适用于需要对特定类型的音频进行分析或特定说话人的语音进行转录等应用场景。

Cool Papers

点此查看论文截图

SceneGuard: Training-Time Voice Protection with Scene-Consistent Audible Background Noise

Authors:Rui Sang, Yuxuan Liu

Voice cloning technology poses significant privacy threats by enabling unauthorized speech synthesis from limited audio samples. Existing defenses based on imperceptible adversarial perturbations are vulnerable to common audio preprocessing such as denoising and compression. We propose SceneGuard, a training-time voice protection method that applies scene-consistent audible background noise to speech recordings. Unlike imperceptible perturbations, SceneGuard leverages naturally occurring acoustic scenes (e.g., airport, street, park) to create protective noise that is contextually appropriate and robust to countermeasures. We evaluate SceneGuard on text-to-speech training attacks, demonstrating 5.5% speaker similarity degradation with extremely high statistical significance (p < 10^{-15}, Cohen’s d = 2.18) while preserving 98.6% speech intelligibility (STOI = 0.986). Robustness evaluation shows that SceneGuard maintains or enhances protection under five common countermeasures including MP3 compression, spectral subtraction, lowpass filtering, and downsampling. Our results suggest that audible, scene-consistent noise provides a more robust alternative to imperceptible perturbations for training-time voice protection. The source code are available at: https://github.com/richael-sang/SceneGuard.

语音克隆技术能够通过有限的音频样本进行未经授权的语音合成,从而构成重大隐私威胁。基于不可察觉对抗性扰动的现有防御措施容易受到去噪和压缩等常见音频预处理的攻击。我们提出了SceneGuard,一种训练时语音保护方法,对语音记录应用与场景一致的可听背景噪声。与不可察觉的扰动不同,SceneGuard利用自然发生的声学场景(例如机场、街道、公园)来创建保护性的噪声,该噪声在上下文上适当且对对策具有鲁棒性。我们在文本到语音训练攻击上评估了SceneGuard,结果显示演讲者相似性降低了5.5%,具有极高的统计显著性(p < 10^-15,Cohen的d = 2.18),同时保留了98.6%的语音清晰度(STOI = 0.986)。稳健性评估显示,SceneGuard在包括MP3压缩、谱减法、低通滤波和降采样等五种常见对策下保持或增强了保护效果。我们的结果表明,可听的和与场景一致噪声为训练时语音保护提供了比不可察觉扰动更稳健的替代方案。源代码可在https://github.com/richael-sang/SceneGuard获得。

论文及项目相关链接

PDF

摘要

声音克隆技术对隐私构成了重大威胁,可通过有限的音频样本进行未经授权的语音合成。现有的基于不可察觉对抗性扰动的防御措施容易受到如去噪和压缩等常见音频预处理的影响。本文提出SceneGuard,一种训练时语音保护方法,通过向语音记录中添加与场景一致的可听背景噪声来增强安全性。不同于不可察觉的扰动,SceneGuard利用自然发生的声学场景(如机场、街道、公园等)创建保护性的噪声,这种噪声在上下文中是合适的,并且对对抗措施具有稳健性。我们针对文本到语音训练攻击评估了SceneGuard的效果,结果显示其降低了5.5%的说话人相似性,并具有极高的统计显著性(p < 10^-15,Cohen’s d = 2.18),同时保持了98.6%的语音清晰度(STOI = 0.986)。稳健性评估表明,SceneGuard在五种常见的对抗措施下保持了或增强了保护效果,包括MP3压缩、谱减法、低通滤波和降采样。结果表明,可听见的、与场景一致的声音提供了一种更稳健的替代方案来增强训练时的语音保护。源代码可访问:https://github.com/richlet-sang/SceneGuard。

关键见解

  1. 声音克隆技术对隐私构成威胁,能通过有限音频样本进行未经授权的语音合成。
  2. 现有的基于不可察觉对抗性扰动的防御措施容易受到音频预处理的影响。
  3. SceneGuard方法通过添加与场景一致的可听背景噪声来保护语音隐私。
  4. SceneGuard利用自然声学场景作为保护噪声,提高说话人识别的难度。
  5. SceneGuard在文本到语音训练攻击中表现出显著效果,降低了说话人相似性,同时保持高语音清晰度。
  6. SceneGuard在多种常见的音频处理操作下保持稳健性,包括MP3压缩、谱减法等。

Cool Papers

点此查看论文截图

Train Short, Infer Long: Speech-LLM Enables Zero-Shot Streamable Joint ASR and Diarization on Long Audio

Authors:Mohan Shi, Xiong Xiao, Ruchao Fan, Shaoshi Ling, Jinyu Li

Joint automatic speech recognition (ASR) and speaker diarization aim to answer the question “who spoke what” in multi-speaker scenarios. In this paper, we present an end-to-end speech large language model (Speech-LLM) for Joint strEamable DIarization and aSr (JEDIS-LLM). The model is trained only on short audio under 20s but is capable of streamable inference on long-form audio without additional training. This is achieved by introducing a Speaker Prompt Cache (SPC) with an on-the-fly update mechanism during chunk-wise streaming inference, inspired by the autoregressive nature of LLMs. The SPC also allows the seamless use of pre-enrolled speaker profiles which is common in many scenarios like meeting transcription. To further enhance diarization capability, we incorporate word-level speaker supervision into the speech encoder during training. Experimental results demonstrate that our system outperforms strong baselines, including Sortformer and Meta-Cat in the local setting on audio up to 20s, and DiarizationLM on long-form audio, despite being fully end-to-end and streamable while DiarizationLM follows a cascaded offline pipeline. To the best of our knowledge, this is the first work enabling zero-shot streamable joint ASR and diarization on long audio using a Speech-LLM trained only on short audio, achieving state-of-the-art performance.

联合自动语音识别(ASR)和说话人分类旨在解决多说话人场景中的“谁说了什么”的问题。在本文中,我们提出了一种用于联合流式可配置的说话人分类和ASR的端到端语音大型语言模型(Speech-LLM),即JEDIS-LLM。该模型仅在20秒以下的短音频上进行训练,但能够在长音频上进行流式推理而无需额外训练。这是通过引入带有在线更新机制的Speaker Prompt Cache(SPC)来实现的,这种机制是在分段流式推理期间所获得的灵感,并借鉴了LLM的自回归性质。SPC还允许无缝使用预先注册的说话人配置文件,这在会议转录等许多场景中都很常见。为了进一步提高分类能力,我们在训练过程中将词级说话人监督纳入语音编码器。实验结果表明,我们的系统在长达20秒的音频上超越了Sortformer和Meta-Cat等强大的基线系统,并在长音频上超越了DiarizationLM。尽管我们的系统是完全端到端和流式的,而DiarizationLM采用的是级联的离线管道,但我们仍然表现出了最佳性能。据我们所知,这是第一项能够在长音频上实现零滞后流式联合ASR和分类的Speech-LLM工作,且只接受短音频训练,取得了最新技术水平的效果。

论文及项目相关链接

PDF Submitted to ICASSP2026

Summary

本文介绍了一种用于联合流式语音识别和说话人身份识别的端到端语音大型语言模型(Speech-LLM)。该模型仅在短音频(小于20秒)上进行训练,但能够在无需额外训练的情况下对长音频进行流式推理。通过引入带有在线更新机制的Speaker Prompt Cache(SPC),实现了在分块流式推理中的说话人身份识别。此外,该模型还可以无缝使用预注册的说话人配置文件,这在会议转录等场景中很常见。为了进一步提高说话人识别的能力,在训练期间将词级说话人监督融入语音编码器。实验结果表明,该系统在短音频上的性能超过了Sortformer和Meta-Cat等强大的基线系统,在长音频上的性能超过了级联离线管道形式的DiarizationLM,尽管该系统是完全端到端和可流式的。据我们所知,这是首次使用仅在短音频上训练的Speech-LLM实现零样本可流式的联合ASR和说话人身份识别的研究,并达到了业界领先水平。

Key Takeaways

  1. 该论文提出了一种端到端的语音大型语言模型(Speech-LLM),用于联合流式语音识别(ASR)和说话人身份识别。
  2. 模型通过引入Speaker Prompt Cache(SPC)实现了在分块流式推理中的说话人身份识别,并带有在线更新机制。
  3. 模型能够无缝使用预注册的说话人配置文件,适用于会议转录等场景。
  4. 通过在训练期间融入词级说话人监督,提高了说话人识别的能力。
  5. 系统性能在短音频上超过了其他强大的基线系统,并且在长音频上的性能超过了DiarizationLM。
  6. 该系统是零样本可流式的,且完全端到端,尽管只在短音频上进行训练。

Cool Papers

点此查看论文截图

UniVoice: Unifying Autoregressive ASR and Flow-Matching based TTS with Large Language Models

Authors:Wenhao Guan, Zhikang Niu, Ziyue Jiang, Kaidi Wang, Peijie Chen, Qingyang Hong, Lin Li, Xie Chen

Large language models (LLMs) have demonstrated promising performance in both automatic speech recognition (ASR) and text-to-speech (TTS) systems, gradually becoming the mainstream approach. However, most current approaches address these tasks separately rather than through a unified framework. This work aims to integrate these two tasks into one unified model. Although discrete speech tokenization enables joint modeling, its inherent information loss limits performance in both recognition and generation. In this work, we present UniVoice, a unified LLM framework through continuous representations that seamlessly integrates speech recognition and synthesis within a single model. Our approach combines the strengths of autoregressive modeling for speech recognition with flow matching for high-quality generation. To mitigate the inherent divergence between autoregressive and flow-matching models, we further design a dual attention mechanism, which switches between a causal mask for recognition and a bidirectional attention mask for synthesis. Furthermore, the proposed text-prefix-conditioned speech infilling method enables high-fidelity zero-shot voice cloning. Experimental results demonstrate that our method can achieve or exceed current single-task modeling methods in both ASR and zero-shot TTS tasks. This work explores new possibilities for end-to-end speech understanding and generation. Code is available at https://github.com/gwh22/UniVoice.

大规模语言模型(LLM)在自动语音识别(ASR)和文本到语音(TTS)系统中表现出了有前景的性能,逐渐成为主流方法。然而,当前大多数方法都是分别处理这两个任务,而不是通过一个统一框架来处理。本研究旨在将这两个任务集成到一个统一模型中。尽管离散语音标记化可以实现联合建模,但其固有的信息损失限制了识别和生成的性能。在这项工作中,我们提出了UniVoice,这是一个通过连续表示的统一LLM框架,无缝地将语音识别和合成集成到一个单一模型中。我们的方法结合了用于语音识别的自回归建模和用于高质量生成的流匹配的优势。为了缓解自回归模型和流匹配模型之间的固有差异,我们进一步设计了一种双重注意力机制,该机制可以在识别和合成之间切换因果掩码和双向注意力掩码。此外,所提出的文本前缀条件语音填充方法实现了高保真零样本声音克隆。实验结果表明,我们的方法在ASR和零样本TTS任务中能达到或超过当前单任务建模方法的效果。本研究为端到端的语音理解和生成探索了新的可能性。代码可通过https://github.com/gwh22/UniVoice获取。

论文及项目相关链接

PDF

Summary

本文提出了一种名为UniVoice的统一大语言模型框架,该框架通过连续表示方式无缝集成了语音识别和语音合成,旨在解决目前大多数模型在任务上的局限性。该方法结合了用于语音识别的自回归建模的优势以及用于高质量生成的流匹配技术。此外,本文还提出了一种双注意力机制,能够在识别和合成之间灵活切换,并实现了文本前缀条件下的语音填充方法,实现了高保真零样本语音克隆。实验结果表明,该方法在语音识别和零样本语音合成任务上达到了或超越了当前单任务建模方法的性能。

Key Takeaways

  1. UniVoice是一个统一的大语言模型框架,能够同时处理语音识别和语音合成任务。
  2. UniVoice通过连续表示方式进行集成,避免了离散语音令牌化带来的信息损失。
  3. 该方法结合了自回归建模和流匹配技术,以提高性能和生成质量。
  4. 双注意力机制的设计可以在识别和合成之间灵活切换。
  5. 文本前缀条件下的语音填充方法实现了高保真零样本语音克隆。
  6. 实验结果表明,UniVoice在语音识别和零样本语音合成任务上的性能达到了或超越了现有方法。

Cool Papers

点此查看论文截图

Decoding Deception: Understanding Automatic Speech Recognition Vulnerabilities in Evasion and Poisoning Attacks

Authors:Aravindhan G, Yuvaraj Govindarajulu, Parin Shah

Recent studies have demonstrated the vulnerability of Automatic Speech Recognition systems to adversarial examples, which can deceive these systems into misinterpreting input speech commands. While previous research has primarily focused on white-box attacks with constrained optimizations, and transferability based black-box attacks against commercial Automatic Speech Recognition devices, this paper explores cost efficient white-box attack and non transferability black-box adversarial attacks on Automatic Speech Recognition systems, drawing insights from approaches such as Fast Gradient Sign Method and Zeroth-Order Optimization. Further, the novelty of the paper includes how poisoning attack can degrade the performances of state-of-the-art models leading to misinterpretation of audio signals. Through experimentation and analysis, we illustrate how hybrid models can generate subtle yet impactful adversarial examples with very little perturbation having Signal Noise Ratio of 35dB that can be generated within a minute. These vulnerabilities of state-of-the-art open source model have practical security implications, and emphasize the need for adversarial security.

近期研究表明,自动语音识别系统易受对抗性示例的威胁,这些对抗性示例可能会欺骗这些系统,导致其对输入语音命令产生误解。虽然之前的研究主要集中在具有约束优化的白盒攻击和基于迁移性的黑盒攻击针对商业自动语音识别设备,本文则探讨了成本效益高的白盒攻击和非迁移性黑盒对抗性攻击在自动语音识别系统上的应用,并从快速梯度符号法和零阶优化等方法中获得了启示。此外,本文的新颖性还包括如何使先进模型受到中毒攻击而导致其性能下降,进而误解音频信号。通过实验和分析,我们展示了混合模型如何生成具有细微但影响重大的对抗性示例,这些示例的噪声信号比为35dB,并且可以在一分钟内生成。这些先进开源模型的漏洞具有实际的安全影响,并强调了对抗安全性的需求。

论文及项目相关链接

PDF Remove due to conflict in authors

Summary

本文探讨了自动语音识别系统面临的安全隐患,特别是针对其易受对抗性实例攻击的问题。研究涉及成本效益高的白盒攻击和非转移性黑盒对抗性攻击,通过快梯度符号法和零阶优化等方法,揭示了自动语音识别系统存在的风险。同时,研究也探索了通过毒化攻击使高性能模型性能下降的方法,强调对音频信号的误解读。实验和分析显示,混合模型能够生成微小但影响深远的对抗性实例,具有极高的信噪比(SNR 35dB),且生成时间仅需一分钟。这一发现凸显了开源模型在实际安全方面的隐患,并强调了对抗性安全研究的必要性。

Key Takeaways

  1. 自动语音识别系统面临对抗性实例攻击的风险,这些攻击可以导致系统误解读输入语音命令。
  2. 研究涉及了成本效益高的白盒攻击和非转移性黑盒对抗性攻击。
  3. 快梯度符号法和零阶优化等方法被用于探索自动语音识别系统的攻击方法。
  4. 毒化攻击可以导致高性能模型性能下降,进一步强调对音频信号的误解读问题。
  5. 实验显示混合模型能够生成信噪比为35dB的对抗性实例,且生成时间短。
  6. 开源自动语音识别模型在实际安全方面存在隐患。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
元宇宙/虚拟人 元宇宙/虚拟人
元宇宙/虚拟人 方向最新论文已更新,请持续关注 Update in 2025-11-22 NoPo-Avatar Generalizable and Animatable Avatars from Sparse Inputs without Human Poses
下一篇 
医学影像/Breast Ultrasound 医学影像/Breast Ultrasound
医学影像/Breast Ultrasound 方向最新论文已更新,请持续关注 Update in 2025-11-22 Externally Validated Multi-Task Learning via Consistency Regularization Using Differentiable BI-RADS Features for Breast Ultrasound Tumor Segmentation
  目录