⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-09-20 更新
MELA-TTS: Joint transformer-diffusion model with representation alignment for speech synthesis
Authors:Keyu An, Zhiyu Zhang, Changfeng Gao, Yabin Li, Zhendong Peng, Haoxu Wang, Zhihao Du, Han Zhao, Zhifu Gao, Xiangang Li
This work introduces MELA-TTS, a novel joint transformer-diffusion framework for end-to-end text-to-speech synthesis. By autoregressively generating continuous mel-spectrogram frames from linguistic and speaker conditions, our architecture eliminates the need for speech tokenization and multi-stage processing pipelines. To address the inherent difficulties of modeling continuous features, we propose a representation alignment module that aligns output representations of the transformer decoder with semantic embeddings from a pretrained ASR encoder during training. This mechanism not only speeds up training convergence, but also enhances cross-modal coherence between the textual and acoustic domains. Comprehensive experiments demonstrate that MELA-TTS achieves state-of-the-art performance across multiple evaluation metrics while maintaining robust zero-shot voice cloning capabilities, in both offline and streaming synthesis modes. Our results establish a new benchmark for continuous feature generation approaches in TTS, offering a compelling alternative to discrete-token-based paradigms.
本文介绍了MELA-TTS,这是一种新型联合转换器-扩散框架,用于端到端的文本到语音合成。通过自回归生成语言条件和说话人条件下的连续梅尔频谱帧,我们的架构消除了对语音标记化和多阶段处理管道的需求。为了解决对连续特征建模的固有困难,我们提出了一种表示对齐模块,该模块在训练过程中将对齐转换器解码器的输出表示与预训练语音识别编码器的语义嵌入。这种机制不仅加快了训练收敛速度,还增强了文本和声音领域之间的跨模态一致性。综合实验表明,MELA-TTS在多个评估指标上达到了最先进的性能,同时在离线合成模式和流式合成模式下保持了强大的零样本声音克隆能力。我们的结果为TTS中的连续特征生成方法建立了新的基准,为基于离散符号的范式提供了引人注目的替代方案。
论文及项目相关链接
PDF submitted to ICASSP 2026
Summary
本文介绍了MELA-TTS,这是一种新颖的联合transformer-diffusion框架,用于端到端的文本到语音合成。通过自回归生成连续的mel频谱图帧,该架构消除了对语音标记化和多阶段处理管道的需求。为解决连续特征建模的固有困难,本文提出了一个表示对齐模块,该模块在训练期间将transformer解码器的输出表示与预训练ASR编码器的语义嵌入进行对齐。这种机制不仅加快了训练收敛速度,而且增强了文本和声音域之间的跨模态一致性。实验表明,MELA-TTS在多个评估指标上达到了最先进的性能,同时保持了离线及流式合成模式下的零样本声纹克隆能力。这为TTS中的连续特征生成方法建立了新的基准,为基于离散标记的方法提供了引人注目的替代方案。
Key Takeaways
- MELA-TTS是一种新颖的联合transformer-diffusion框架,用于端到端的文本到语音合成。
- 通过自回归生成连续的mel频谱图帧,消除了对语音标记化和多阶段处理的需求。
- 提出了一个表示对齐模块,该模块在训练期间将输出表示与预训练ASR编码器的语义嵌入进行对齐,提高了跨模态一致性并加快了训练收敛速度。
- MELA-TTS实现了多个评估指标上的先进性能。
- MELA-TTS在离线及流式合成模式下具有零样本声纹克隆能力。
- MELA-TTS为TTS中的连续特征生成方法建立了新的基准。
点此查看论文截图





DAIEN-TTS: Disentangled Audio Infilling for Environment-Aware Text-to-Speech Synthesis
Authors:Ye-Xin Lu, Yu Gu, Kun Wei, Hui-Peng Du, Yang Ai, Zhen-Hua Ling
This paper presents DAIEN-TTS, a zero-shot text-to-speech (TTS) framework that enables ENvironment-aware synthesis through Disentangled Audio Infilling. By leveraging separate speaker and environment prompts, DAIEN-TTS allows independent control over the timbre and the background environment of the synthesized speech. Built upon F5-TTS, the proposed DAIEN-TTS first incorporates a pretrained speech-environment separation (SES) module to disentangle the environmental speech into mel-spectrograms of clean speech and environment audio. Two random span masks of varying lengths are then applied to both mel-spectrograms, which, together with the text embedding, serve as conditions for infilling the masked environmental mel-spectrogram, enabling the simultaneous continuation of personalized speech and time-varying environmental audio. To further enhance controllability during inference, we adopt dual class-free guidance (DCFG) for the speech and environment components and introduce a signal-to-noise ratio (SNR) adaptation strategy to align the synthesized speech with the environment prompt. Experimental results demonstrate that DAIEN-TTS generates environmental personalized speech with high naturalness, strong speaker similarity, and high environmental fidelity.
本文介绍了DAIEN-TTS,这是一个零样本文本到语音(TTS)框架,它通过解耦音频填充(Disentangled Audio Infilling)实现了环境感知合成。通过利用单独的说话人和环境提示,DAIEN-TTS可以对合成语音的音调和背景环境进行独立控制。基于F5-TTS构建,提出的DAIEN-TTS首先引入预训练的语音环境分离(SES)模块,将环境语音解耦为清洁语音的梅尔频谱图和环境音频。然后,对梅尔频谱图应用两种不同长度的随机跨度掩码,与文本嵌入一起作为填充掩蔽环境梅尔频谱图的条件,从而实现个性化语音和随时间变化的环境音频的同时延续。为了进一步提高推理过程中的可控性,我们对语音和环境成分采用无类别双重指导(DCFG),并引入信噪比(SNR)自适应策略来对合成语音与环境提示进行对齐。实验结果表明,DAIEN-TTS生成的环境个性化语音具有高度的自然性、强烈的说话人相似性和高环境保真度。
论文及项目相关链接
PDF Submitted to ICASSP 2026
Summary
新一代文本转语音技术:基于分离音频填充技术的环境感知合成框架DAIEN-TTS问世。它能在不依赖样本的情况下实现个性化语音合成,同时融合环境声音,生成自然度极高、说话人相似度强、环境保真度高的语音。
Key Takeaways
- DAIEN-TTS是一种零样本文本转语音(TTS)框架,具备环境感知合成功能。
- 通过利用分离音频填充技术,DAIEN-TTS能够在合成语音时独立控制音色和背景环境。
- 该框架基于F5-TTS构建,引入预训练的语音环境分离模块,将环境语音分解为纯净语音和环境音频的mel-spectrogram。
- 通过应用随机长度掩码于mel-spectrogram,结合文本嵌入,实现对掩码环境mel-spectrogram的填充,实现个性化语音与时间变化环境音频的同时延续。
- 采用无类别双指导(DCFG)增强推理阶段的可控性,并引入信噪比(SNR)自适应策略,使合成语音与环境提示对齐。
- 实验结果表明,DAIEN-TTS能生成具有高度自然性、强说话人相似性和高环境保真度的环境个性化语音。
点此查看论文截图




SpeechOp: Inference-Time Task Composition for Generative Speech Processing
Authors:Justin Lovelace, Rithesh Kumar, Jiaqi Su, Ke Chen, Kilian Q Weinberger, Zeyu Jin
While generative Text-to-Speech (TTS) systems leverage vast ``in-the-wild” data to achieve remarkable success, speech-to-speech processing tasks like enhancement face data limitations, which lead data-hungry generative approaches to distort speech content and speaker identity. To bridge this gap, we present SpeechOp, a multi-task latent diffusion model that transforms pre-trained TTS models into a universal speech processor capable of performing a wide range of speech tasks and composing them in novel ways at inference time. By adapting a pre-trained TTS model, SpeechOp inherits a rich understanding of natural speech, accelerating training and improving S2S task quality, while simultaneously enhancing core TTS performance. Finally, we introduce Implicit Task Composition (ITC), a novel pipeline where ASR-derived transcripts (e.g., from Whisper) guide SpeechOp’s enhancement via our principled inference-time task composition. ITC achieves state-of-the-art content preservation by robustly combining web-scale speech understanding with SpeechOp’s generative capabilities. Audio samples are available at https://justinlovelace.github.io/projects/speechop
虽然生成式文本到语音(TTS)系统利用了大量的“野生”数据并取得了显著的成功,但诸如增强面部数据等语音到语音的处理任务仍然面临局限,这导致数据饥渴的生成式方法在语音内容和说话人身份上产生失真。为了弥补这一差距,我们提出了SpeechOp,这是一个多任务潜在扩散模型,它将预训练的TTS模型转化为通用语音处理器,能够在推理时间执行多种语音任务并以新颖的方式组合它们。通过适应预训练的TTS模型,SpeechOp继承了丰富的自然语音理解,加速了训练,提高了S2S任务质量,同时提高了核心TTS性能。最后,我们介绍了隐式任务组合(ITC),这是一个新型管道,其中ASR衍生的转录本(例如来自Whisper)通过我们的原则性推理时间任务组合来指导SpeechOp的增强。ITC通过稳健地将网页规模的语音理解与SpeechOp的生成能力相结合,实现了业界领先的内容保留。音频样本可在https://justinlovelace.github.io/projects/speechop找到。
论文及项目相关链接
Summary
本文介绍了SpeechOp,一个基于多任务潜在扩散模型的技术,该技术能够将预训练的文本转语音(TTS)模型转化为通用的语音处理器。SpeechOp不仅提升了语音转语音(S2S)任务的质量,而且通过适应预训练的TTS模型,继承了自然语言丰富理解,加速了训练过程并提高了TTS的核心性能。此外,还引入了隐式任务组合(ITC)管道,利用自动语音识别(ASR)产生的文本(如来自Whisper)来指导SpeechOp的增强功能,通过推理任务组合实现网络规模语音理解的稳健结合与SpeechOp的生成能力。
Key Takeaways
- SpeechOp是一个多任务潜在扩散模型,可将预训练的TTS模型转化为通用的语音处理器。
- SpeechOp能够执行多种语音任务,并在推理时间以新颖的方式组合它们。
- 通过适应预训练的TTS模型,SpeechOp继承了丰富的自然语言理解。
- SpeechOp提高了S2S任务的质量和TTS的核心性能。
- 引入隐式任务组合(ITC)管道,结合ASR产生的文本,指导SpeechOp进行语音增强。
- ITC实现了内容保全的最佳效果。
点此查看论文截图





Do You Hear What I Mean? Quantifying the Instruction-Perception Gap in Instruction-Guided Expressive Text-To-Speech Systems
Authors:Yi-Cheng Lin, Huang-Cheng Chou, Tzu-Chieh Wei, Kuan-Yu Chen, Hung-yi Lee
Instruction-guided text-to-speech (ITTS) enables users to control speech generation through natural language prompts, offering a more intuitive interface than traditional TTS. However, the alignment between user style instructions and listener perception remains largely unexplored. This work first presents a perceptual analysis of ITTS controllability across two expressive dimensions (adverbs of degree and graded emotion intensity) and collects human ratings on speaker age and word-level emphasis attributes. To comprehensively reveal the instruction-perception gap, we provide a data collection with large-scale human evaluations, named Expressive VOice Control (E-VOC) corpus. Furthermore, we reveal that (1) gpt-4o-mini-tts is the most reliable ITTS model with great alignment between instruction and generated utterances across acoustic dimensions. (2) The 5 analyzed ITTS systems tend to generate Adult voices even when the instructions ask to use child or Elderly voices. (3) Fine-grained control remains a major challenge, indicating that most ITTS systems have substantial room for improvement in interpreting slightly different attribute instructions.
指令引导型文本转语音(ITTS)允许用户通过自然语言提示来控制语音生成,为用户提供了一个比传统TTS更直观的界面。然而,用户风格指令和听众感知之间的对齐关系在很大程度上尚未被探索。这项工作首先针对ITTS在表达程度的两个维度(程度副词和情绪强度的分级)的可控性进行了感知分析,并收集了关于说话人年龄和单词级别强调属性的人类评分。为了全面揭示指令感知差距,我们提供了一个大规模人类评估的数据收集,名为表达性语音控制(E-VOC)语料库。此外,我们揭示:(1)gpt-4o-mini-tts是最可靠的ITTS模型,其在声学维度上实现了指令和生成语音的高度对齐。(2)在使用的5个ITTS系统中,即使指令要求使用儿童或老年语音,它们仍然倾向于生成成年语音。(3)精细控制仍然是一个主要挑战,这表明大多数ITTS系统在解释稍微不同的属性指令方面还有很大的提升空间。
论文及项目相关链接
PDF Submission to ICASSP 2026
摘要
指令式文本转语音(ITTS)通过自然语言提示控制语音生成,为用户提供比传统TTS更直观的界面。然而,用户指令风格与听众感知之间的对齐程度尚未得到广泛研究。本研究首先针对ITTS在两个表达维度(程度副词和情绪强度分级)上的可控性进行感知分析,并对说话人的年龄和单词级别的强调属性进行人类评分。为了全面揭示指令与感知之间的差距,我们提供了一个大规模人类评估的数据收集,名为表达性语音控制(E-VOC)语料库。此外,我们发现:(1)gpt-4o-mini-tts是最可靠的ITTS模型,在声学维度上指令与生成的语音之间对齐度较高。(2)五个分析的ITTS系统即使在要求使用儿童或老年声音时也有产生成人声音的倾向。(3)精细控制仍是主要挑战,这表明大多数ITTS系统在解释略有不同的属性指令方面仍有很大提升空间。
要点分析
- ITTS通过自然语言提示实现语音生成控制,相较于传统TTS更为直观。
- 用户指令风格与听众感知之间的对齐在ITTS中尚未得到充分研究。
- 本研究通过感知分析探讨ITTS在表达维度上的可控性,并收集关于说话人年龄和单词强调属性的人类评分。
- 引入E-VOC语料库,进行大规模人类评估以揭示指令与感知之间的差距。
- gpt-4o-mini-tts是最可靠的ITTS模型,在声学维度上表现最佳。
- ITTS系统在模拟特定年龄(儿童、老年)的语音时存在倾向性偏差,更偏向于生成成人语音。
点此查看论文截图




