TTS

发布日期: 2025-11-15

更新日期: 2025-11-27

文章字数: 955

阅读时长: 3 分

阅读次数:

⚠️ 以下所有内容总结都来自于大语言模型的能力，如有错误，仅供参考，谨慎使用
🔴 请注意：千万不要用于严肃的学术场景，只能用于论文阅读前的初筛！
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ，还请您给我们一些鼓励！⭐️ HuggingFace免费体验

2025-11-15 更新

End-to-end Contrastive Language-Speech Pretraining Model For Long-form Spoken Question Answering

Authors:Jiliang Hu, Zuchao Li, Baoyuan Qi, Liu Guoming, Ping Wang

Significant progress has been made in spoken question answering (SQA) in recent years. However, many existing methods, including large audio language models, struggle with processing long audio. Follow the success of retrieval augmented generation, a speech-related retriever shows promising in help preprocessing long-form speech. But the performance of existing speech-related retrievers is lacking. To address this challenge, we propose CLSR, an end-to-end contrastive language-speech retriever that efficiently extracts question-relevant segments from long audio recordings for downstream SQA task. Unlike conventional speech-text contrastive models, CLSR incorporates an intermediate step that converts acoustic features into text-like representations prior to alignment, thereby more effectively bridging the gap between modalities. Experimental results across four cross-modal retrieval datasets demonstrate that CLSR surpasses both end-to-end speech related retrievers and pipeline approaches combining speech recognition with text retrieval, providing a robust foundation for advancing practical long-form SQA applications.

近年来，语音问答（SQA）领域取得了重大进展。然而，许多现有方法，包括大型音频语言模型，在处理长音频时都面临困难。随着检索增强生成的成功，语音相关检索器在帮助预处理长格式语音方面显示出希望。但是现有语音相关检索器的性能仍然不足。为了应对这一挑战，我们提出了CLSR，这是一种端到端的对比语言语音检索器，能够高效地从长音频记录中提取与问题相关的片段，用于下游SQA任务。与传统的语音文本对比模型不同，CLSR加入了一个中间步骤，将声学特征转换为文本表示形式，然后进行对齐，从而更有效地弥合了不同模态之间的差距。在四个跨模态检索数据集上的实验结果表明，CLSR超越了端到端的语音相关检索器和结合语音识别与文本检索的管道方法，为推进实用的长格式SQA应用提供了坚实的基础。

论文及项目相关链接

PDF 12 pages, 7 figures, accepted by AAAI 2026

摘要

近年语音问答（SQA）领域取得显著进展，但现有方法在处理长音频时仍面临挑战。为应对这一难题，本文提出CLSR，一种端到端的对比语言-语音检索器，可从长音频记录中有效提取与问题相关的片段，供下游SQA任务使用。不同于传统的语音-文本对比模型，CLSR在对齐之前增加了一个将声学特征转换为文本表示的中间步骤，从而更有效地弥合了不同模态之间的差距。实验结果表明，CLSR在四种跨模态检索数据集上的表现均超越了端到端的语音相关检索器和结合语音识别与文本检索的管道方法，为推进实用长形式SQA应用提供了稳健基础。

要点