TTS

发布日期: 2025-09-16

更新日期: 2025-10-07

文章字数: 3.2k

阅读时长: 12 分

阅读次数:

⚠️ 以下所有内容总结都来自于大语言模型的能力，如有错误，仅供参考，谨慎使用
🔴 请注意：千万不要用于严肃的学术场景，只能用于论文阅读前的初筛！
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ，还请您给我们一些鼓励！⭐️ HuggingFace免费体验

2025-09-16 更新

WhisTLE: Deeply Supervised, Text-Only Domain Adaptation for Pretrained Speech Recognition Transformers

Authors:Akshat Pandey, Karun Kumar, Raphael Tang

Pretrained automatic speech recognition (ASR) models such as Whisper perform well but still need domain adaptation to handle unseen vocabulary and parlance. In many real-world settings, collecting speech data is impractical, necessitating text-only adaptation. We propose WhisTLE, a deeply supervised, text-only adaptation method for pretrained encoder-decoder ASR models. WhisTLE trains a variational autoencoder (VAE) to model encoder outputs from text and fine-tunes the decoder using the learned text-to-latent encoder, optionally combined with text-to-speech (TTS) adaptation. At inference, the original encoder is restored, incurring no extra runtime cost. Across four out-of-domain datasets and four ASR models, WhisTLE with TTS reduces word error rate (WER) by 12.3% relative to TTS-only adaptation and outperforms all non-WhisTLE baselines in 27 of 32 scenarios.

预训练的自动语音识别（ASR）模型，如Whisper，表现良好，但仍然需要领域适应来处理未见过的词汇和习惯用语。在许多真实场景中，收集语音数据是不切实际的，因此需要进行纯文本适应。我们提出了WhisTLE，这是一种深度监督的、纯文本的适应方法，用于预训练的编码器-解码器ASR模型。WhisTLE训练一个变分自动编码器（VAE）来从文本模拟编码器输出，并使用学习到的文本到潜在编码器微调解码器，可选择性地与文本到语音（TTS）适应相结合。在推理过程中，原始编码器得以恢复，不会造成额外的运行成本。在四个跨域数据集和四个ASR模型上，带有TTS的WhisTLE将词错误率（WER）相对于仅使用TTS的适应降低了12.3%，并在32个场景中的27个场景中表现优于所有非WhisTLE基线。

论文及项目相关链接

PDF 5 pages, 2 figures

摘要

预训练自动语音识别（ASR）模型如Whisper表现良好，但仍需领域适应以处理未见词汇和习惯用语。在真实场景中，收集语音数据不切实际，需要进行纯文本适应。我们提出WhisTLE，一种深度监督的纯文本适应方法，用于预训练的编码器-解码器ASR模型。WhisTLE训练变分自动编码器（VAE）以模拟编码器的文本输出，并使用学习到的文本到潜在编码器微调解码器，可选择与文本到语音（TTS）适应相结合。在推理过程中，恢复原始编码器，无需额外运行成本。在四个跨领域数据集和四个ASR模型的测试中，带有TTS的WhisTLE相对TTS-only适应方法可降低单词错误率（WER）达12.3%，并在32个场景中的27个场景中表现优于非WhisTLE基线。

关键见解

预训练ASR模型如Whisper需要领域适应以处理未见词汇和习惯用语。
在真实场景中，纯文本适应是一种有效的解决方案，因为收集语音数据可能不切实际。
WhisTLE是一种深度监督的纯文本适应方法，适用于预训练的编码器-解码器ASR模型。
WhisTLE通过训练变分自动编码器（VAE）来模拟编码器的文本输出，并使用这些输出微调解码器。
引入TTS适应作为可选方案，进一步提高性能。
在推理过程中，使用原始编码器，无需额外运行成本。

Cool Papers

点此查看论文截图

DiFlow-TTS: Discrete Flow Matching with Factorized Speech Tokens for Low-Latency Zero-Shot Text-To-Speech

Authors:Ngoc-Son Nguyen, Hieu-Nghia Huynh-Nguyen, Thanh V. T. Tran, Truong-Son Hy, Van Nguyen

Zero-shot Text-to-Speech (TTS) aims to synthesize high-quality speech that mimics the voice of an unseen speaker using only a short reference sample, requiring not only speaker adaptation but also accurate modeling of prosodic attributes. Recent approaches based on language models, diffusion, and flow matching have shown promising results in zero-shot TTS, but still suffer from slow inference and repetition artifacts. Discrete codec representations have been widely adopted for speech synthesis, and recent works have begun to explore diffusion models in purely discrete settings, suggesting the potential of discrete generative modeling for speech synthesis. However, existing flow-matching methods typically embed these discrete tokens into a continuous space and apply continuous flow matching, which may not fully leverage the advantages of discrete representations. To address these challenges, we introduce DiFlow-TTS, which, to the best of our knowledge, is the first model to explore purely Discrete Flow Matching for speech synthesis. DiFlow-TTS explicitly models factorized speech attributes within a compact and unified architecture. It leverages in-context learning by conditioning on textual content, along with prosodic and acoustic attributes extracted from a reference speech, enabling effective attribute cloning in a zero-shot setting. In addition, the model employs a factorized flow prediction mechanism with distinct heads for prosody and acoustic details, allowing it to learn aspect-specific distributions. Experimental results demonstrate that DiFlow-TTS achieves promising performance in several key metrics, including naturalness, prosody, preservation of speaker style, and energy control. It also maintains a compact model size and achieves low-latency inference, generating speech up to 25.8 times faster than the latest existing baselines.

零样本文本到语音（TTS）旨在仅使用短暂的参考样本合成高质量语音，模仿未见过的说话人的声音，这不仅需要适应说话人，还需要对韵律属性进行精确建模。基于语言模型、扩散和流程匹配的最新方法在多讲者文本转语音方面显示了令人鼓舞的结果，但仍存在推理速度慢和重复痕迹等问题。离散编解码器表示已被广泛应用于语音合成，近期工作开始探索纯粹的离散环境中的扩散模型，这暗示离散生成建模在语音合成中的潜力。然而，现有的流程匹配方法通常将这些离散符号嵌入到连续空间中，并应用连续流程匹配，这可能没有完全利用离散表示的优势。为了应对这些挑战，我们引入了DiFlow-TTS，据我们所知，这是第一个探索纯粹离散流程匹配的语音合成模型。DiFlow-TTS在一个紧凑且统一的结构中显式建模分解的语音属性。它通过文本内容以及从参考语音中提取的韵律和声学属性来进行上下文学习，从而实现零样本设置中的有效属性克隆。此外，该模型采用分解的流程预测机制，具有针对韵律和声学细节的独立头，使其能够学习特定方面的分布。实验结果表明，DiFlow-TTS在几个关键指标上取得了令人鼓舞的表现，包括自然度、韵律、保持说话人风格以及能量控制。同时，它保持了紧凑的模型大小并实现了低延迟推理，生成语音的速度是最新的现有基准的25.8倍。

论文及项目相关链接

PDF

摘要

零样本文本转语音（TTS）旨在仅使用简短参考样本合成高质量语音，模仿未见过的说话人的声音，这需要不仅进行说话人适配，还要准确建模韵律属性。虽然基于语言模型、扩散和流程匹配的方法在零样本TTS中显示出有希望的结果，但它们仍存在推理速度慢和重复伪影的问题。本文引入DiFlow-TTS，它是首个探索纯粹离散流程匹配的语音合成模型。DiFlow-TTS在紧凑的统一架构内显式建模因子化的语音属性。它通过文本内容、韵律和从参考语音中提取的声学属性进行上下文学习，实现在零样本设置中的有效属性克隆。此外，该模型采用因子化的流程预测机制，具有针对韵律和声学细节的独立头，使其能够学习特定方面的分布。实验结果表明，DiFlow-TTS在几个关键指标上取得了有希望的性能，包括自然度、韵律、保持说话人风格和控制能量。它还能保持模型大小紧凑，实现低延迟推理，生成语音的速度是最新的现有基线模型的25.8倍。

要点

零样本TTS旨在使用简短参考样本合成高质量语音，需进行说话人适配及准确建模韵律属性。
现有流程匹配方法将离散令牌嵌入到连续空间中并进行连续流程匹配，可能没有完全利用离散表示的优势。
DiFlow-TTS是首个探索纯粹离散流程匹配的语音合成模型，在紧凑的统一架构内显式建模因子化的语音属性。
DiFlow-TTS通过文本内容、韵律和参考语音的声学属性进行上下文学习，实现有效属性克隆。
模型采用因子化的流程预测机制，针对韵律和声音细节进行特定学习。
DiFlow-TTS在自然度、韵律、保持说话人风格和控制能量等关键指标上表现出色。

Cool Papers

点此查看论文截图

Faster and Better LLMs via Latency-Aware Test-Time Scaling

Authors:Zili Wang, Tianyu Zhang, Haoli Bai, Lu Hou, Xianzhi Yu, Wulong Liu, Shiming Xiang, Lei Zhu

Test-Time Scaling (TTS) has proven effective in improving the performance of Large Language Models (LLMs) during inference. However, existing research has overlooked the efficiency of TTS from a latency-sensitive perspective. Through a latency-aware evaluation of representative TTS methods, we demonstrate that a compute-optimal TTS does not always result in the lowest latency in scenarios where latency is critical. To address this gap and achieve latency-optimal TTS, we propose two key approaches by optimizing the concurrency configurations: (1) branch-wise parallelism, which leverages multiple concurrent inference branches, and (2) sequence-wise parallelism, enabled by speculative decoding. By integrating these two approaches and allocating computational resources properly to each, our latency-optimal TTS enables a 32B model to reach 82.3% accuracy on MATH-500 within 1 minute and a smaller 3B model to achieve 72.4% within 10 seconds. Our work emphasizes the importance of latency-aware TTS and demonstrates its ability to deliver both speed and accuracy in latency-sensitive scenarios.

测试时缩放（TTS）已证明在推理过程中可以提高大型语言模型（LLM）的性能。然而，现有研究从延迟敏感的角度忽视了TTS的效率。通过对代表性TTS方法进行延迟感知评估，我们证明计算最优的TTS并不总是导致延迟最低，这在延迟至关重要的场景中尤为关键。为了解决这一差距并实现延迟最优的TTS，我们提出了两种通过优化并发配置的关键方法：（1）分支并行性，利用多个并发推理分支；（2）序列并行性，通过投机解码实现。通过整合这两种方法并为每种方法适当分配计算资源，我们的延迟最优TTS使32B模型能够在1分钟内达到MATH-500的82.3%准确率，较小的3B模型能在10秒内达到72.4%的准确率。我们的工作强调了延迟感知TTS的重要性，并展示了其在延迟敏感场景中实现速度和准确性的能力。

论文及项目相关链接

PDF

摘要
测试时间缩放（TTS）在改善大型语言模型（LLM）的推理性能上表现出有效性。然而，现有研究忽视了TTS从延迟敏感性角度的效率问题。本研究以延迟敏感性评估具有代表性的TTS方法，发现计算最优的TTS并不总是导致延迟最低，这在延迟至关重要的情况下尤为重要。为解决这一空白并实现延迟最优的TTS，我们提出两种通过优化并发配置的关键方法：（1）分支并行性，利用多个并发推理分支；（2）序列并行性，通过投机解码实现。通过整合这两种方法并为每种方法适当分配计算资源，我们的延迟最优TTS使32B模型在MATH-500上1分钟内达到82.3%的准确率，较小的3B模型在10秒内达到72.4%的准确率。我们的研究强调了延迟感知TTS的重要性，并展示了其在延迟敏感场景中实现速度和准确性的能力。

要点

测试时间缩放（TTS）能提升大型语言模型（LLM）的推理性能。
现有研究忽视了TTS在延迟敏感性方面的效率。
计算最优的TTS并不总是导致最低延迟，特别是在延迟关键的情况下。
提出两种优化并发配置的方法：分支并行性和序列并行性。
分支并行性利用多个并发推理分支。
序列并行性通过投机解码实现。
通过整合这两种方法，延迟最优的TTS能在短时间内实现较高的准确率。

Cool Papers

点此查看论文截图

Kedreamix

https://kedreamix.github.io/Talk2Paper/Paper/2025-09-16/TTS/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !

TTS

Interactive

Interactive 方向最新论文已更新，请持续关注 Update in 2025-09-16 Multi-Intent Recognition in Dialogue Understanding A Comparison Between Smaller Open-Source LLMs

2025-09-16 Interactive

Interactive

医学图像

医学图像方向最新论文已更新，请持续关注 Update in 2025-09-16 Joint X-ray, kinetic Sunyaev-Zeldovich, and weak lensing measurements toward a consensus picture of efficient gas expulsion from groups and clusters

2025-09-16 医学图像

医学图像