嘘~ 正在从服务器偷取页面 . . .

Speech


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-17 更新

SAC: Neural Speech Codec with Semantic-Acoustic Dual-Stream Quantization

Authors:Wenxi Chen, Xinsheng Wang, Ruiqi Yan, Yushen Chen, Zhikang Niu, Ziyang Ma, Xiquan Li, Yuzhe Liang, Hanlin Wen, Shunshun Yin, Ming Tao, Xie Chen

Speech codecs that convert continuous speech signals into discrete tokens have become essential for speech language models (SLMs). However, existing codecs struggle to balance high-quality reconstruction with semantically rich representations, limiting their effectiveness in both generative and understanding tasks. In this work, we propose SAC, a neural speech codec with semantic-acoustic dual-stream quantization. By disentangling semantic and acoustic modeling into two dedicated streams, SAC enables each to be optimized for its respective role. Comprehensive evaluations show that SAC achieves strong reconstruction performance across diverse bitrates under both clean and noisy conditions, with particularly high scores on UTMOS and WER, demonstrating superior perceptual quality and intelligibility. Moreover, SAC substantially outperforms state-of-the-art codecs in semantic representation, achieving a level comparable to that of self-supervised learning (SSL) continuous embeddings. Finally, our analysis of speech disentanglement highlights the effectiveness of the dual-stream design, offering new potential for controllable speech applications.

语音编解码器将连续的语音信号转换为离散的符号,对于语音语言模型(SLM)而言已经变得至关重要。然而,现有的编解码器在高质量重建与语义丰富表示之间难以取得平衡,在生成和理解任务中的有效性受到限制。在这项工作中,我们提出了SAC,这是一种具有语义声双流传量化的神经语音编解码器。通过将语义和声音建模分离为两个专用流,SAC使每个流都能针对其特定角色进行优化。综合评估表明,SAC在干净和嘈杂的条件下,在不同比特率下实现了强大的重建性能,特别是在UTMOS和WER上的得分很高,证明了其在感知质量和清晰度方面的优越性。此外,SAC在语义表示方面大大优于最先进的编解码器,达到了与自监督学习(SSL)连续嵌入相当的水平。最后,我们对语音解缠的分析突出了双流传感设计的有效性,为可控语音应用提供了新的潜力。

论文及项目相关链接

PDF

Summary

神经网络语音编解码器SAC被提出用于解决现有语音编解码器在重建质量和语义表示方面的不足。SAC具有语义声双流传化量化功能,能将语义和声音建模分开处理并优化。研究表明,SAC在清洁和嘈杂条件下跨不同比特率的重建性能出色,且语义表示明显优于当前领先的编解码器。双流传设计可大幅提高语音的解耦效果,为可控语音应用提供了新的潜力。

Key Takeaways:

  1. 神经网络语音编解码器SAC解决了现有编解码器在重建质量和语义表示方面的难题。
  2. SAC采用语义声双流传化量化,将语义和声音建模分开处理。
  3. SAC在多种条件下的重建性能出色,特别是在UTMOS和WER上的得分较高,显示出其优越的感知质量和清晰度。
  4. SAC在语义表示方面明显优于当前领先的编解码器,达到了与自监督学习连续嵌入相当的水平。
  5. 双流传设计使得SAC能够有效解耦语音,为可控语音应用提供了新的可能性。
  6. SAC的设计使其能够适应不同的比特率,具有广泛的应用前景。

Cool Papers

点此查看论文截图

WavJEPA: Semantic learning unlocks robust audio foundation models for raw waveforms

Authors:Goksenin Yuksel, Pierre Guetschel, Michael Tangermann, Marcel van Gerven, Kiki van der Heijden

Learning audio representations from raw waveforms overcomes key limitations of spectrogram-based audio representation learning, such as the long latency of spectrogram computation and the loss of phase information. Yet, while self-supervised speech representation learning from raw waveforms has been remarkably successful, these approaches have not achieved similar feats for general-purpose audio representation learning from waveforms. Here, we propose WavJEPA, a waveform-based version of the Joint-Embedding Predictive Architecture. WavJEPA leverages high-level semantic representation learning to tackle the shortcomings of representation learning at the speech unit or token level. We show that this approach substantially outperforms state-of-the-art time-domain audio foundation models across a wide variety of downstream benchmark tasks, while requiring considerably fewer computational resources. Additionally, to overcome the performance drop that time-domain models typically exhibit in noisy and reverberant real-world acoustic environments, we present WavJEPA-Nat. WavJEPA-Nat is a multi-channel extension of the WavJEPA architecture trained on simulated naturalistic scenes. We find that WavJEPA-Nat is highly robust to reverberation and noise. These results highlight the feasibility and computational efficiency of general-purpose audio representation learning from raw waveforms, showcasing the potential for low-latency, robust time-domain audio foundation models for real-world applications.

从原始波形中学习音频表示克服了基于频谱图的音频表示学习的主要局限性,如频谱图计算的长延迟和相位信息的损失。然而,虽然从原始波形中进行自我监督的语音表示学习已经取得了显著的成功,但这些方法在波形上进行通用音频表示学习方面尚未实现类似的成就。在这里,我们提出了基于波形的联合嵌入预测架构的波形版本——WavJEPA。WavJEPA利用高级语义表示学习来解决语音单元或标记级别表示学习的不足之处。我们表明,该方法在多种下游基准任务上显著优于最新的时域音频基础模型,同时需要更少的计算资源。此外,为了克服时域模型通常在嘈杂和混响的现实世界声学环境中表现出的性能下降,我们推出了WavJEPA的自然版本——WavJEPA-Nat。WavJEPA-Nat是WavJEPA架构的多通道扩展,经过模拟的自然场景训练。我们发现WavJEPA-Nat对混响和噪声具有高度的鲁棒性。这些结果突出了从原始波形进行通用音频表示学习的可行性和计算效率,展示了时域音频基础模型在现实世界应用中实现低延迟、稳健性的潜力。

论文及项目相关链接

PDF Still under review

Summary:从原始波形学习音频表示克服了基于光谱图的音频表示学习的关键限制,如光谱图计算的长延迟和相位信息的丢失。虽然自监督语音表示学习从原始波形中取得了显著的成功,但这些方法并未在通用音频表示的波形学习中取得类似成果。为此,我们提出了WavJEPA,一个基于波形的联合嵌入预测架构。WavJEPA利用高级语义表示学习来解决在语音单元或令牌级别的表示学习的不足。我们的方法显著优于时域音频基础模型的最新技术,在各种下游基准测试中表现优异,同时所需的计算资源大大减少。此外,为了克服时域模型在嘈杂和混响的现实世界声学环境中通常出现的性能下降问题,我们推出了WavJEPA-Nat。WavJEPA-Nat是WavJEPA架构的多通道扩展,经过模拟的自然场景训练。我们发现WavJEPA-Nat对混响和噪声具有高度的鲁棒性。这些结果突出了从原始波形进行通用音频表示学习的可行性和计算效率,展示了时域音频基础模型在现实世界应用中的低延迟和稳健性潜力。

Key Takeaways

  1. 学习音频表示从原始波形克服了基于光谱图的表示学习的限制,如计算延迟和相位信息丢失。
  2. 自监督学习方法在语音表示的波形学习中表现优秀,但在通用音频表示的波形学习中仍有提升空间。
  3. WavJEPA是一个基于波形的联合嵌入预测架构,旨在解决语音单元或令牌级别的表示学习中的不足。
  4. WavJEPA在多种下游基准任务上表现优异,优于时域音频基础模型的最新技术,且计算资源消耗较少。
  5. WavJEPA-Nat是WavJEPA的多通道扩展,对混响和噪声具有高度的鲁棒性。
  6. 从原始波形进行通用音频表示学习具有可行性和计算效率。

Cool Papers

点此查看论文截图

Hybrid Pruning: In-Situ Compression of Self-Supervised Speech Models for Speaker Verification and Anti-Spoofing

Authors:Junyi Peng, Lin Zhang, Jiangyu Han, Oldřich Plchot, Johan Rohdin, Themos Stafylakis, Shuai Wang, Jan Černocký

Although large-scale self-supervised learning (SSL) models like WavLM have achieved state-of-the-art performance in speech processing, their significant size impedes deployment on resource-constrained devices. While structured pruning is a key technique for model compression, existing methods typically separate it from task-specific fine-tuning. This multi-stage approach struggles to create optimal architectures tailored for diverse downstream tasks. In this work, we introduce a unified framework that integrates structured pruning into the downstream fine-tuning process. Our framework unifies these steps, jointly optimizing for task performance and model sparsity in a single stage. This allows the model to learn a compressed architecture specifically for the end task, eliminating the need for complex multi-stage pipelines and knowledge distillation. Our pruned models achieve up to a 70% parameter reduction with negligible performance degradation on large-scale datasets, achieving equal error rates of 0.7%, 0.8%, and 1.6% on Vox1-O, -E, and -H, respectively. Furthermore, our approach demonstrates improved generalization in low-resource scenarios, reducing overfitting and achieving a state-of-the-art 3.7% EER on ASVspoof5.

虽然像WavLM这样的大规模自监督学习(SSL)模型在语音识别中取得了最先进的性能,但它们的大规模部署在资源受限的设备上存在困难。虽然结构化剪枝是模型压缩的关键技术,但现有方法通常将其与特定任务的微调分开。这种多阶段的方法很难为各种下游任务创建最佳架构。在这项工作中,我们介绍了一个统一的框架,该框架将结构化剪枝集成到下游微调过程中。我们的框架统一了这些步骤,联合优化任务性能和模型稀疏性,在一个阶段内完成。这允许模型为终端任务学习特定的压缩架构,从而消除了复杂的多阶段管道和知识蒸馏的需求。我们的修剪模型实现了高达70%的参数减少,在大规模数据集上的性能下降微乎其微,在Vox1-O、-E和-H上的错误率分别为0.7%、0.8%和1.6%。此外,我们的方法在资源稀缺的场景中展示出了更好的泛化能力,减少了过拟合现象,并在ASVspoof5上达到了最先进的3.7%的EER(等错误率)。

论文及项目相关链接

PDF

Summary
本研究提出一个统一框架,将结构化剪枝集成到下游微调过程中,以针对终端任务学习压缩架构。该方法实现了在单阶段中对任务性能和模型稀疏性的联合优化,消除了复杂的多阶段管道和知识蒸馏的需求。经过剪枝的模型在大型数据集上实现了高达70%的参数减少,同时性能几乎没有降低,特别是在语音处理任务中。

Key Takeaways

  1. 提出统一框架,将结构化剪枝与下游微调过程结合,实现模型压缩。
  2. 框架在单阶段联合优化任务性能和模型稀疏性。
  3. 剪枝模型在大型数据集上实现高达70%的参数减少。
  4. 剪枝模型在语音处理任务中性能几乎没有降低。
  5. 框架消除了复杂的多阶段管道和知识蒸馏的需求。
  6. 框架在多种下游任务中表现出优异的性能,包括Vox1-O、-E和-H等数据集。

Cool Papers

点此查看论文截图

MiDashengLM: Efficient Audio Understanding with General Audio Captions

Authors:Heinrich Dinkel, Gang Li, Jizhong Liu, Jian Luan, Yadong Niu, Xingwei Sun, Tianzi Wang, Qiyang Xiao, Junbo Zhang, Jiahao Zhou

Current approaches for large audio language models (LALMs) often rely on closed data sources or proprietary models, limiting their generalization and accessibility. This paper introduces MiDashengLM, a novel open audio-language model designed for efficient and comprehensive audio understanding through the use of general audio captions using our novel ACAVCaps training dataset. MiDashengLM exclusively relies on publicly available pretraining and supervised fine-tuning (SFT) datasets, ensuring full transparency and reproducibility. At its core, MiDashengLM integrates Dasheng, an open-source audio encoder, specifically engineered to process diverse auditory information effectively. Unlike previous works primarily focused on Automatic Speech Recognition (ASR) based audio-text alignment, our strategy centers on general audio captions, fusing speech, sound and music information into one textual representation, enabling a holistic textual representation of complex audio scenes. Lastly, MiDashengLM provides an up to 4x speedup in terms of time-to-first-token (TTFT) and up to 20x higher throughput than comparable models. Checkpoints are available online at https://huggingface.co/mispeech/midashenglm-7b and https://github.com/xiaomi-research/dasheng-lm.

当前的大型音频语言模型(LALM)方法往往依赖于封闭的数据源或专有模型,这限制了其通用性和可访问性。本文介绍了MiDashengLM,这是一种新型开放音频语言模型,通过使用我们创新性的ACAVCaps训练数据集,设计用于高效且全面的音频理解。MiDashengLM仅依赖于公开可用的预训练和监督微调(SFT)数据集,确保完全透明和可重复性。其核心结合了Dasheng这一开源音频编码器,专门用于有效处理各种听觉信息。不同于主要关注基于自动语音识别(ASR)的音频文本对齐的先前工作,我们的策略侧重于通用音频字幕,将语音、声音和音乐信息融合到一个文本表示中,实现对复杂音频场景的整体文本表示。最后,MiDashengLM在首次出词时间(TTFT)方面提供了高达4倍的加速,并且在吞吐量方面高出同类模型高达20倍。检查点数据可在https://huggingface.co/mispeech/midashenglm-7b和https://github.com/xiaomi-research/dasheng-lm在线获取。

论文及项目相关链接

PDF

Summary

MiDashengLM是一个基于公开数据集的开放音频语言模型,通过使用ACAVCaps训练数据集实现高效且全面的音频理解。其核心特点是使用开源音频编码器Dasheng处理多样化的听觉信息,并专注于一般音频字幕,将语音、声音和音乐信息融合到一种文本表示中。与其他模型相比,MiDashengLM提供更快的首次令牌时间和更高的吞吐量。

Key Takeaways

  1. MiDashengLM是一个开放的音频语言模型,基于公开数据集构建,确保了透明性和可重复性。
  2. 该模型使用ACAVCaps训练数据集,提升了音频理解的效率和全面性。
  3. MiDashengLM的核心是开源音频编码器Dasheng,能有效处理多样化的听觉信息。
  4. 该模型专注于一般音频字幕,能够融合语音、声音和音乐信息到一种文本表示中。
  5. MiDashengLM提供更快的首次令牌时间,相比其他模型最高可达4倍速提升。
  6. MiDashengLM的吞吐量相比其他模型最高可达20倍提升。

Cool Papers

点此查看论文截图

Hearing More with Less: Multi-Modal Retrieval-and-Selection Augmented Conversational LLM-Based ASR

Authors:Bingshen Mu, Hexin Liu, Hongfei Xue, Kun Wei, Lei Xie

Automatic Speech Recognition (ASR) aims to convert human speech content into corresponding text. In conversational scenarios, effectively utilizing context can enhance its accuracy. Large Language Models’ (LLMs) exceptional long-context understanding and reasoning abilities enable LLM-based ASR (LLM-ASR) to leverage historical context for recognizing conversational speech, which has a high degree of contextual relevance. However, existing conversational LLM-ASR methods use a fixed number of preceding utterances or the entire conversation history as context, resulting in significant ASR confusion and computational costs due to massive irrelevant and redundant information. This paper proposes a multi-modal retrieval-and-selection method named MARS that augments conversational LLM-ASR by enabling it to retrieve and select the most relevant acoustic and textual historical context for the current utterance. Specifically, multi-modal retrieval obtains a set of candidate historical contexts, each exhibiting high acoustic or textual similarity to the current utterance. Multi-modal selection calculates the acoustic and textual similarities for each retrieved candidate historical context and, by employing our proposed near-ideal ranking method to consider both similarities, selects the best historical context. Evaluations on the Interspeech 2025 Multilingual Conversational Speech Language Model Challenge dataset show that the LLM-ASR, when trained on only 1.5K hours of data and equipped with the MARS, outperforms the state-of-the-art top-ranking system trained on 179K hours of data.

自动语音识别(ASR)旨在将人类语音内容转换为相应的文本。在对话场景中,有效地利用上下文可以提高其准确性。大型语言模型(LLM)出色的长文本理解和推理能力,使基于LLM的ASR(LLM-ASR)能够利用历史上下文来识别对话语音,这些语音具有高度的上下文相关性。然而,现有的对话式LLM-ASR方法使用固定数量的先前发言或整个对话历史作为上下文,这会导致大量的无关和冗余信息,从而导致ASR混淆和计算成本。本文针对这一问题,提出了一种名为MARS的多模态检索与选择方法,它通过检索和选择与当前发言最相关的声音和文字历史上下文,增强了对话式LLM-ASR的功能。具体来说,多模态检索会获取一组候选历史上下文,每个上下文都表现出与当前发言高度相似的声音或文字。多模态选择会计算每个检索到的候选历史上下文的语音和文字相似性,并通过采用我们提出的理想排名方法,综合考虑这两种相似性,选择最佳历史上下文。在Interspeech 2025多语种对话语音语言模型挑战赛数据集上的评估显示,仅经过1.5K小时数据训练的LLM-ASR,配备MARS后,其性能优于在17.9万小时数据上训练的最新顶尖系统。

论文及项目相关链接

PDF AAAI 2026

Summary

本文介绍了基于大型语言模型(LLM)的自动语音识别(ASR)技术在对话场景中的应用。现有方法使用固定数量的前面的话语或整个对话历史作为上下文,导致ASR混淆和计算成本高。本文提出了一种名为MARS的多模态检索与选择方法,能够检索并选择当前话语最相关的声音和文字历史上下文。在Interspeech 2025多语种对话语音语言模型挑战数据集上的评估显示,配备MARS的LLM-ASR表现优于在17.9万小时数据上训练的当前顶尖系统。

Key Takeaways

  1. ASR技术可将人类语音内容转化为相应的文本。
  2. 在对话场景中,有效利用上下文可以提高ASR的准确性。
  3. LLM具有出色的长语境理解和推理能力,使LLM-ASR能够利用历史语境来识别具有高度语境相关性的对话语音。
  4. 现有对话LLM-ASR方法使用固定数量的前面的话语或整个对话历史作为上下文,这会导致ASR混淆和计算成本高。
  5. MARS方法通过多模态检索与选择,能够选择当前话语最相关的声音和文字历史上下文。
  6. 多模态检索获取一组候选历史上下文,每个候选上下文与当前话语在声音或文字上高度相似。

Cool Papers

点此查看论文截图

Post-training for Deepfake Speech Detection

Authors:Wanying Ge, Xin Wang, Xuechen Liu, Junichi Yamagishi

We introduce a post-training approach that adapts self-supervised learning (SSL) models for deepfake speech detection by bridging the gap between general pre-training and domain-specific fine-tuning. We present AntiDeepfake models, a series of post-trained models developed using a large-scale multilingual speech dataset containing over 56,000 hours of genuine speech and 18,000 hours of speech with various artifacts in over one hundred languages. Experimental results show that the post-trained models already exhibit strong robustness and generalization to unseen deepfake speech. When they are further fine-tuned on the Deepfake-Eval-2024 dataset, these models consistently surpass existing state-of-the-art detectors that do not leverage post-training. Model checkpoints and source code are available online.

我们介绍了一种后训练的方法,该方法通过弥合通用预训练和特定领域微调之间的差距,使自我监督学习(SSL)模型适应于深度伪造语音检测。我们展示了AntiDeepfake模型系列,这是一系列使用大规模多语言语音数据集开发的后训练模型,包含超过5.6万小时的真实语音和包含各种伪造的超过一万八千小时的语音,涉及一百多种语言。实验结果表明,这些后训练模型已经表现出对未见过的深度伪造语音的强大鲁棒性和泛化能力。当它们在Deepfake-Eval-2024数据集上进行进一步微调时,这些模型的性能始终超过了现有的最先进的检测器,而这些检测器并未利用后训练。模型检查点和源代码均可在网上获取。

论文及项目相关链接

PDF Corrected previous implementation of EER calculation. Slight numerical changes in some of the results

Summary:提出了一种结合自监督学习(SSL)模型的深度伪造语音检测的后训练技术,该技术旨在缩小通用预训练和特定领域微调之间的差距。采用大型多语种语音数据集开发的AntiDeepfake系列后训练模型可抵抗各种伪造语音攻击。初步实验结果证明后训练模型具有良好的鲁棒性和泛化能力。当进一步在Deepfake-Eval-2024数据集上进行微调时,该模型表现超过当前不利用后训练的最先进检测器。模型检查点和源代码已在线发布。

Key Takeaways:

  1. 引入了一种基于自监督学习(SSL)模型的深度伪造语音检测的后训练技术。
  2. 开发了AntiDeepfake系列后训练模型,使用大型多语种语音数据集进行训练。
  3. 模型能应对多种语言下的真实和伪造语音样本。
  4. 后训练模型已展示出色的鲁棒性和泛化能力。
  5. 与现有前沿技术相比,经过微调的后训练模型性能更佳。
  6. 模型检查点和源代码已公开可供使用。
  7. 该技术为深度伪造语音检测提供了新的解决方案。

Cool Papers

点此查看论文截图

UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation

Authors:Jinting Wang, Shan Yang, Chenxing Li, Dong Yu, Li Liu

Cued Speech (CS) enhances lipreading via hand coding, offering visual phonemic cues that support precise speech perception for the hearing-impaired. The task of CS Video-to-Speech generation (CSV2S) aims to convert CS videos into intelligible speech signals. Most existing research focuses on CS Recognition (CSR), which transcribes video content into text. Consequently, a common solution for CSV2S is to integrate CSR with a text-to-speech (TTS) system. However, this pipeline relies on text as an intermediate medium, which may lead to error propagation and temporal misalignment between speech and CS video dynamics. In contrast, directly generating audio speech from CS video (direct CSV2S) often suffers from the inherent multimodal complexity and the limited availability of CS data. To address these challenges, we propose UniCUE, the first unified framework for CSV2S that directly generates speech from CS videos without relying on intermediate text. The core innovation of UniCUE lies in integrating an understanding task (CSR) that provides fine-grained CS visual-semantic cues to guide speech generation. Specifically, UniCUE incorporates a pose-aware visual processor, a semantic alignment pool that enables precise visual-semantic mapping, and a VisioPhonetic adapter to bridge the understanding and generation tasks within a unified architecture. To support this framework, we construct UniCUE-HI, a large-scale Mandarin CS dataset containing 11282 videos from 14 cuers, including both hearing-impaired and normal-hearing individuals. Extensive experiments on this dataset demonstrate that UniCUE achieves state-of-the-art performance across multiple evaluation metrics.

提示语音(CS)通过手语编码增强唇读能力,提供视觉语音线索,支持听力受损者准确感知语音。CS视频到语音生成(CSV2S)的任务旨在将CS视频转换为可理解的语音信号。目前大多数研究都集中在CS识别(CSR)上,即将视频内容转录为文本。因此,CSV2S的常见解决方案是将CSR与文本到语音(TTS)系统结合起来。然而,这个流程依赖于文本作为中间媒介,这可能导致误差传播以及语音和CS视频动态之间的时间不对齐。相比之下,直接从CS视频生成音频语音(直接CSV2S)往往受到固有的多模式复杂性和有限的CS数据可用性的困扰。为了解决这些挑战,我们提出了UniCUE,这是第一个用于CSV2S的统一框架,能够直接从CS视频生成语音,无需依赖中间文本。UniCUE的核心创新在于整合了一个理解任务(CSR),提供精细的CS视觉语义线索来指导语音生成。具体来说,UniCUE融入了一个姿态感知视觉处理器、一个语义对齐池,能够实现精确视觉语义映射,以及一个VisioPhonetic适配器,能够在统一架构内架起理解和生成任务之间的桥梁。为了支持这一框架,我们构建了UniCUE-HI,这是一个大规模的普通话CS数据集,包含来自14名打手势者的11282个视频,其中包括听障人士和听力正常的人。在该数据集上的大量实验表明,UniCUE在多个评估指标上达到了最新技术水平。

论文及项目相关链接

PDF 13 pages, 12 figures

Summary

基于手语编码的提示音(Cued Speech,简称CS)能够增强唇读能力,为听力受损人士提供视觉音素提示来支持精确感知言语。针对CS视频转换为可理解的语音信号的任务(即CS视频至语音生成),本文提出了一种新型解决方案——UniCUE。这是首个不需要依赖中间文本的直接生成语音的框架。它通过集成细粒度的CS视觉语义提示,直接生成语音。其核心创新在于结合一个理解任务(CS识别),提供了一个姿势感知的视觉处理器、精确的语义映射池以及连接理解和生成任务的VisioPhonetic适配器。同时,本文构建了一个大规模的普通话CS数据集UniCUE-HI来支持该框架的应用。实验证明,UniCUE在多个评价指标上达到了最佳性能。

Key Takeaways

  1. Cued Speech(CS)通过手语编码增强唇读能力,为听力受损人士提供视觉音素提示。
  2. CS视频至语音生成(CSV2S)任务旨在将CS视频转换为可理解的语音信号。
  3. 当前研究多聚焦于CS识别(CSR),即将视频内容转录为文本。
  4. UniCUE是首个直接生成语音的CSV2S框架,无需依赖中间文本。
  5. UniCUE集成了细粒度的CS视觉语义提示,通过姿势感知的视觉处理器、精确的语义映射池以及VisioPhonetic适配器完成任务。
  6. 为支持UniCUE框架的应用,构建了大规模的普通话CS数据集UniCUE-HI。

Cool Papers

点此查看论文截图

GRAM: Spatial general-purpose audio representation models for real-world applications

Authors:Goksenin Yuksel, Marcel van Gerven, Kiki van der Heijden

Although audio foundations models have seen great progress on a wide variety of tasks, their application in real-world acoustic environments with reverberation and noise has been less successful. Moreover, as audio foundation models are typically trained on dry, single-channel audio clips, the inherent spatial nature of real-world sound scenes is overlooked and tasks involving sound localization ruled out. To address these limitations, we propose GRAM: a General-purpose Real-world Audio Model utilizing a multi-channel masked auto-encoder approach to efficiently learn spatial audio representations from high-quality simulated real-world scenes. To evaluate the performance of GRAM and other audio foundation models in real-world sound scenes, we release Nat-HEAR: A naturalistic version of the HEAR benchmark suite comprising a simulated real-world version, as well as two new sound localization tasks. We show that the performance of GRAM surpasses all state-of-the-art self-supervised audio foundation models and speech models on both HEAR and Nat-HEAR, while using only a fraction of the training data. GRAM also showcases state-of-the-art localization performance, surpassing even supervised sound localization approaches, and can be flexibly applied either to a two-channel, binaural sound format or a four-channel, Ambisonics format. Validating GRAM’s performance on real-world sound recordings demonstrates robust transfer to real-world scenes. Taken together, GRAM presents a significant advancement towards robust, spatial audio foundation models for real-world applications.

尽管音频基础模型在各种任务上取得了巨大进步,但它们在具有混响和噪声的现实世界声学环境中的应用却不太成功。此外,由于音频基础模型通常是在干燥的单声道音频片段上进行训练的,因此忽略了现实世界声音场景固有的空间特性,并且排除了涉及声音定位的任务。为了解决这些局限性,我们提出了GRAM:一个利用多通道掩码自编码器方法的高效现实世界音频模型,从高质量模拟现实场景中学习空间音频表示。为了评估GRAM和其他音频基础模型在现实世界声音场景中的性能,我们发布了Nat-HEAR:一个自然主义的HEAR基准测试套件版本,包括模拟的现实世界版本以及两个新的声音定位任务。我们表明,GRAM的性能超过了所有最先进的自监督音频基础模型和语音模型在HEAR和Nat-HEAR上的表现,同时仅使用了少量的训练数据。GRAM还展示了最先进的定位性能,甚至超越了监督式声音定位方法,并且可以灵活地应用于双声道立体声格式或四声道的Ambisonics格式。通过在实际世界声音录制上验证GRAM的性能,证明了其对于真实场景的稳健性转移。总的来说,GRAM在构建用于实际应用的稳健空间音频基础模型方面取得了重大进展。

论文及项目相关链接

PDF Still under review

摘要

针对音频基础模型在真实世界声学环境中面对混响和噪声时的应用不足,以及忽略空间音频特性等问题,提出了GRAM模型。该模型利用多通道掩码自编码器方法,从高质量模拟的真实场景中高效学习空间音频表征。为了评估GRAM和其他音频基础模型在真实世界声音场景中的性能,发布了Nat-HEAR数据集,包括模拟真实场景版本和两个新的声音定位任务。实验表明,GRAM在HEAR和Nat-HEAR上的性能均超过了其他先进的自监督音频基础模型和语音模型,且使用训练数据量很少。此外,GRAM还具有出色的定位性能,可以灵活应用于双通道双耳声格式和四通道Ambisonics格式。在真实世界录音上的表现证明了其对真实场景的稳健性。总体而言,GRAM是朝着稳健的空间音频基础模型进行真实世界应用的重要进展。

关键见解

  1. GRAM模型解决了音频基础模型在真实世界声学环境中的局限性,特别是在混响和噪声条件下的性能不足。
  2. GRAM利用多通道掩码自编码器方法,从模拟的真实场景中学习空间音频表征。
  3. 发布新的数据集Nat-HEAR,用于评估音频模型在真实世界声音场景中的性能。
  4. GRAM在HEAR和Nat-HEAR上的性能优于其他先进的自监督音频基础模型和语音模型。
  5. GRAM具有出色的声音定位性能,可灵活应用于不同格式的音频。
  6. 在真实世界录音上的实验证明了GRAM对真实场景的稳健性。
  7. GRAM是音频基础模型在真实世界应用中的重大进展。

Cool Papers

点此查看论文截图

Enhancing Large Language Models for Detecting Mental Manipulation via Annotation-Free Data Augmentation and Anti-Curriculum Distillation

Authors:Yuansheng Gao, Han Bao, Tong Zhang, Bin Li, Jixiang Luo, Ronghao Chen, Zonghui Wang, Wenzhi Chen

Mental manipulation is a subtle yet pervasive form of psychological abuse that poses serious threats to mental health. Nevertheless, detecting mental manipulation remains a largely underexplored research problem. The field faces three major challenges: (i) insufficient and hard-to-obtain training data; (ii) the covert nature of mental manipulation, which hinders detection; and (iii) the lack of real-world datasets. To address these challenges, we propose MentalMAC, a novel framework that enhances large language models’ ability to detect elements of mental manipulation in multi-turn dialogue. Our approach consists of three key components: EvoSA, an annotation-free data augmentation method based on evolutionary operations and speech act theory; teacher-model-generated multi-task supervision; and progressive task-level anti-curriculum distillation. We then constructed the ReaMent dataset, comprising 5,000 real-world dialogue samples, utilizing MentalMAC-distilled models to aid in human annotation. Vast experiments show that MentalMAC achieves up to 25.9% improvement in F1mac and 8.1% in accuracy over the best-performing baseline, outperforming commercial LLMs such as GPT-4 and Claude-3.5-Sonnet. Warning: This paper contains content that may be offensive to the reader.

心理操控是一种微妙而普遍的心理虐待形式,对心理健康构成严重威胁。然而,检测心理操控仍然是一个被大大忽视的研究问题。该领域面临三大挑战:(i)训练数据不足且难以获取;(ii)心理操控的隐蔽性,阻碍了检测;(iii)缺乏真实世界的数据集。为了应对这些挑战,我们提出了MentalMAC,一个增强大型语言模型在多轮对话中检测心理操控元素的新型框架。我们的方法由三个关键组件组成:EvoSA,一种基于进化操作和言语行为理论的无注解数据增强方法;教师模型生成的多任务监督;以及渐进的任务级反课程蒸馏。我们随后构建了RealMent数据集,包含5000个真实世界对话样本,利用MentalMAC精馏模型辅助人工标注。大量实验表明,MentalMAC在F1mac指标上最高提升了25.9%,准确率提升了8.1%,超过了最佳基线表现,并且在商业大型语言模型如GPT-4和Claude-3.5-Sonnet的对比中表现出色。警告:本文含有可能对读者造成不适的内容。

论文及项目相关链接

PDF

Summary

本文主要探讨了心理操纵这一微妙而普遍存在的心理虐待形式对心理健康的严重威胁。检测心理操纵是一个尚未得到充分研究的难题,面临三大挑战:训练数据不足且难以获取、心理操纵的隐蔽性阻碍检测以及缺乏真实世界数据集。为解决这些问题,本文提出了MentalMAC框架,该框架通过三个关键组件增强大型语言模型在多轮对话中检测心理操纵元素的能力。这三个组件包括基于进化操作和言语行为理论的注释免费数据增强方法EvoSA、教师模型生成的多任务监督以及渐进的任务级反课程蒸馏。此外,本文构建了RealMent数据集,包含5000个真实对话样本,利用MentalMAC蒸馏模型辅助人工标注。实验表明,MentalMAC相较于最佳基线模型在F1mac上提高了25.9%,准确率提高了8.1%,超越了GPT-4和Claude-3.5-Sonnet等商业大型语言模型。请注意,本文内容可能对某些读者具有冒犯性。

Key Takeaways

  1. 心理操纵是一种严重的心理虐待形式,对心理健康构成威胁,但检测心理操纵是一个尚未得到充分研究的难题。
  2. 目前面临的主要挑战包括训练数据不足和难以获取、心理操纵的隐蔽性以及缺乏真实世界数据集。
  3. MentalMAC框架通过三个关键组件解决这些挑战:EvoSA数据增强方法、教师模型生成的多任务监督以及任务级反课程蒸馏。
  4. 构建了RealMent数据集,用于辅助检测心理操纵的真实对话样本标注。
  5. 实验结果表明,MentalMAC相较于现有模型有显著提升,且超越了一些商业大型语言模型的表现。
  6. 本文警告:包含可能冒犯某些读者的内容。

Cool Papers

点此查看论文截图

Enhancing Speech-to-Speech Dialogue Modeling with End-to-End Retrieval-Augmented Generation

Authors:Pengchao Feng, Ziyang Ma, Wenxi Chen, Yao Li, Sheng Wang, Kai Yu, Xie Chen

End-to-end speech-to-speech (S2S) dialogue systems have recently garnered increasing research attention for their lower latency and more natural integration of nonverbal cues such as emotion and speaker identity. However, these systems face key challenges, particularly in incorporating external knowledge, a capability commonly addressed by Retrieval-Augmented Generation (RAG) in text-based large language models (LLMs). The core difficulty lies in the modality gap between input speech and retrieved textual knowledge, which hinders effective integration of information. To address this issue, we propose a novel end-to-end RAG framework that directly retrieves relevant textual knowledge from speech queries. Experimental results demonstrate that our method significantly improves the performance of end-to-end S2S dialogue systems while achieving higher retrieval efficiency. Although the overall performance still lags behind the SOTA cascaded models, our framework offers a promising direction for enhancing knowledge integration in end-to-end S2S systems. Our code and dataset are released.

端到端语音到语音(S2S)对话系统因其较低的延迟和更自然地整合非言语线索(如情感和说话者身份)而最近引起了越来越多的研究关注。然而,这些系统面临关键挑战,特别是在整合外部知识方面,这是文本基于大型语言模型(LLM)的检索增强生成(RAG)通常解决的问题。核心困难在于输入语音和检索到的文本知识之间的模态差距,这阻碍了信息的有效整合。为了解决这一问题,我们提出了一种新型的端到端RAG框架,该框架直接从语音查询中检索相关的文本知识。实验结果表明,我们的方法在端到端S2S对话系统的性能上有了显著提高,同时实现了更高的检索效率。尽管总体性能仍然落后于最先进的级联模型,但我们的框架为增强端到端S2S系统中的知识整合提供了有前景的方向。我们的代码和数据集已经发布。

论文及项目相关链接

PDF Accepted to EMNLP 2025 Findings

Summary

本文主要探讨了端对端语音到语音(S2S)对话系统中融入外部知识的问题。为缩小输入语音和检索文本知识间的模态差距,提出一种新颖的端到端检索增强生成(RAG)框架,可直接从语音查询中检索相关文本知识。实验结果表明,该方法显著提高S2S对话系统的性能,并达到较高的检索效率。尽管总体性能仍落后于先进的级联模型,但该框架为增强端对端S2S系统中的知识融合提供了有前景的方向。

Key Takeaways

  1. 端对端语音到语音(S2S)对话系统近年来受到研究关注,其低延迟和更自然融入非言语线索(如情感和说话人身份)的特点使其具有优势。
  2. S2S系统面临的关键挑战是融入外部知识,通常通过文本型大语言模型(LLM)的检索增强生成(RAG)来解决。
  3. 模态差距是S2S系统面临的核心问题,体现在输入语音和检索文本知识之间,阻碍了信息的有效融合。
  4. 提出一种新颖的端到端RAG框架,可直接从语音查询中检索相关文本知识,显著提高S2S对话系统的性能和检索效率。
  5. 尽管总体性能仍落后于先进的级联模型,但该框架为增强端对端S2S系统中的知识融合提供了新方向。
  6. 释放代码和数据集,为未来研究提供资源。

Cool Papers

点此查看论文截图

MultiMed-ST: Large-scale Many-to-many Multilingual Medical Speech Translation

Authors:Khai Le-Duc, Tuyen Tran, Bach Phan Tat, Nguyen Kim Hai Bui, Quan Dang, Hung-Phong Tran, Thanh-Thuy Nguyen, Ly Nguyen, Tuan-Minh Phan, Thi Thu Phuong Tran, Chris Ngo, Nguyen X. Khanh, Thanh Nguyen-Tang

Multilingual speech translation (ST) and machine translation (MT) in the medical domain enhances patient care by enabling efficient communication across language barriers, alleviating specialized workforce shortages, and facilitating improved diagnosis and treatment, particularly during pandemics. In this work, we present the first systematic study on medical ST, to our best knowledge, by releasing MultiMed-ST, a large-scale ST dataset for the medical domain, spanning all translation directions in five languages: Vietnamese, English, German, French, and Simplified/Traditional Chinese, together with the models. With 290,000 samples, this is the largest medical MT dataset and the largest many-to-many multilingual ST among all domains. Secondly, we present the most comprehensive ST analysis in the field’s history, to our best knowledge, including: empirical baselines, bilingual-multilingual comparative study, end-to-end vs. cascaded comparative study, task-specific vs. multi-task sequence-to-sequence comparative study, code-switch analysis, and quantitative-qualitative error analysis. All code, data, and models are available online: https://github.com/leduckhai/MultiMed-ST

在医疗领域,多语言语音识别翻译(ST)和机器翻译(MT)通过突破语言障碍实现高效沟通、缓解专业劳动力短缺以及促进诊断和治疗的改善,特别是在疫情期间,增强了患者护理。在这项工作中,我们首次对医疗ST进行了系统研究,据我们所知,通过发布MultiMed-ST数据集,该数据集是医疗领域的大规模ST数据集,涵盖五个语言的所有翻译方向:越南语、英语、德语、法语和简体中文/繁体中文,以及相应的模型。包含29万个样本,这是最大的医疗MT数据集和所有领域中最大的多语种ST数据集。其次,据我们所知,我们还进行了该领域历史上最全面的ST分析,包括:实证研究基准线、双语-多语对比研究、端到端与级联对比研究、任务特定与多任务序列到序列对比研究、代码切换分析和定量-定性误差分析。所有代码、数据和模型均可在网上找到:https://github.com/leduckhai/MultiMed-ST。

论文及项目相关链接

PDF EMNLP 2025

Summary

本文介绍了医疗领域中的多语言语音识别翻译(ST)和机器翻译(MT)技术。通过发布MultiMed-ST大规模医疗ST数据集,本文提供了医疗ST的首个系统性研究。该数据集涵盖五种语言的所有翻译方向,并附带有模型。数据集包含29万个样本,是迄今为止最大的医疗机器翻译数据集以及跨领域最多的多语种翻译数据集。此外,本文还提供了该领域历史上最全面的ST分析,包括实证基准、双语多语言对比分析等。

Key Takeaways

  1. 医疗领域的多语言语音识别翻译和机器翻译技术通过克服语言障碍,提升患者护理效率。
  2. 发布了一个大规模的医疗ST数据集MultiMed-ST,包含五种语言的29万个样本。
  3. MultiMed-ST数据集是迄今为止最大的医疗机器翻译数据集和跨领域最多的多语种翻译数据集。
  4. 本文提供了医疗ST的首个系统性研究,包括对多种翻译方法(如实证基准、双语多语言对比分析等)的详尽分析。
  5. 通过在线平台分享了所有代码、数据和模型。
  6. 研究的重点还包括对端到端与级联翻译的比较研究,以及任务特定与多任务序列到序列的比较研究。

Cool Papers

点此查看论文截图

FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks

Authors:Luca Della Libera, Francesco Paissan, Cem Subakan, Mirco Ravanelli

Large language models have revolutionized natural language processing through self-supervised pretraining on massive datasets. Inspired by this success, researchers have explored adapting these methods to speech by discretizing continuous audio into tokens using neural audio codecs. However, existing approaches face limitations, including high bitrates, the loss of either semantic or acoustic information, and the reliance on multi-codebook designs when trying to capture both, which increases architectural complexity for downstream tasks. To address these challenges, we introduce FocalCodec, an efficient low-bitrate codec based on focal modulation that utilizes a single binary codebook to compress speech between 0.16 and 0.65 kbps. FocalCodec delivers competitive performance in speech resynthesis and voice conversion at lower bitrates than the current state-of-the-art, while effectively handling multilingual speech and noisy environments. Evaluation on downstream tasks shows that FocalCodec successfully preserves sufficient semantic and acoustic information, while also being well-suited for generative modeling. Demo samples and code are available at https://lucadellalib.github.io/focalcodec-web/.

大规模语言模型通过海量数据的自监督预训练,已经彻底改变了自然语言处理的格局。受此成功的启发,研究人员已经探索了使用神经音频编解码器将连续音频离散化为令牌,以适应语音处理的方法。然而,现有方法存在局限性,包括比特率高、语义或声学信息丢失,以及在尝试捕获两者时依赖多码本设计,这增加了下游任务的架构复杂性。为了应对这些挑战,我们引入了FocalCodec,这是一种基于焦点调制的有效低比特率编解码器,它利用单个二进制码本在0.16至0.65kbps之间压缩语音。FocalCodec在较低的比特率下实现了与当前最佳水平相当的语音再合成和语音转换性能,同时有效处理多语言语音和嘈杂环境。下游任务的评估表明,FocalCodec成功保留了足够的语义和声音信息,同时非常适合生成建模。演示样本和代码可在https://lucadellalib.github.io/focalcodec-web/找到。

论文及项目相关链接

PDF Accepted at NeurIPS 2025

Summary

大规模语言模型通过大规模数据集上的自监督预训练,自然语言处理领域发生了革命性的变化。受这一成功的启发,研究人员尝试将这种方法适应到语音领域,通过将连续音频离散化为令牌,使用神经音频编解码器进行处理。然而,现有方法面临高比特率、语义或声学信息丢失以及试图同时捕捉两者时依赖多编码簿设计等问题,这增加了下游任务的架构复杂性。为解决这些挑战,我们推出了FocalCodec,这是一种基于焦点调制的有效低比特率编解码器,它利用单个二进制编码簿以0.16至0.65kbps的速率压缩语音。FocalCodec在较低比特率下提供出色的语音重建和语音转换性能,同时有效处理多语种和嘈杂环境下的语音。下游任务的评估表明,FocalCodec成功保留了足够的语义和声音信息,同时非常适合生成建模。演示样品和代码可在[https://lucadellalib.github.io/focalcodec-web/]上找到。

Key Takeaways

  1. 大规模语言模型的自监督预训练在自然语言处理领域取得了显著成功。
  2. 研究人员正在探索将这种方法适应到语音领域,通过神经音频编解码器处理语音。
  3. 现有语音编解码方法面临高比特率、信息丢失和多编码簿设计复杂性等问题。
  4. FocalCodec是一种有效的低比特率编解码器,能解决上述问题,并成功在语音重建和语音转换方面表现出色。
  5. FocalCodec能在较低比特率下工作,同时处理多语种和嘈杂环境下的语音。
  6. FocalCodec能有效保留语音的语义和声音信息,适合用于生成建模。

Cool Papers

点此查看论文截图

Unmasking Deepfakes: Leveraging Augmentations and Features Variability for Deepfake Speech Detection

Authors:Inbal Rimon, Oren Gal, Haim Permuter

Deepfake speech detection presents a growing challenge as generative audio technologies continue to advance. We propose a hybrid training framework that advances detection performance through novel augmentation strategies. First, we introduce a dual-stage masking approach that operates both at the spectrogram level (MaskedSpec) and within the latent feature space (MaskedFeature), providing complementary regularization that improves tolerance to localized distortions and enhances generalization learning. Second, we introduce compression-aware strategy during self-supervised to increase variability in low-resource scenarios while preserving the integrity of learned representations, thereby improving the suitability of pretrained features for deepfake detection. The framework integrates a learnable self-supervised feature extractor with a ResNet classification head in a unified training pipeline, enabling joint adaptation of acoustic representations and discriminative patterns. On the ASVspoof5 Challenge (Track~1), the system achieves state-of-the-art results with an Equal Error Rate (EER) of 4.08% under closed conditions, further reduced to 2.71% through fusion of models with diverse pretrained feature extractors. when trained on ASVspoof2019, our system obtaining leading performance on the ASVspoof2019 evaluation set (0.18% EER) and the ASVspoof2021 DF task (2.92% EER).

随着生成音频技术的不断发展,深度伪造语音检测面临越来越大的挑战。我们提出了一种混合训练框架,通过新颖的数据增强策略来提升检测性能。首先,我们引入了一种双阶段掩码方法,该方法既在频谱图层面(MaskedSpec)运行,也在潜在特征空间内(MaskedFeature)运行,提供了补充性正则化,改善了局部失真的容忍度,并增强了泛化学习。其次,在自我监督过程中,我们引入了压缩感知策略,以增加低资源场景中的变量,同时保持学习表示的完整性,从而提高了预训练特征用于深度伪造检测的适用性。该框架将可学习的自我监督特征提取器与ResNet分类头集成在一个统一的训练管道中,能够实现声学表示和判别模式的联合适应。在ASVspoof5挑战(Track~1)中,该系统在封闭条件下以4.08%的等误率(Equal Error Rate)取得了最新技术成果,通过融合具有不同预训练特征提取器的模型,进一步将等误率降低到2.71%。在ASVspoof2019训练的基础上,我们的系统在ASVspoof2019评估集(0.18% EER)和ASVspoof2021 DF任务(2.92% EER)上均取得了领先水平。

论文及项目相关链接

PDF

Summary
提出一种混合训练框架,通过新型数据增强策略提升假音频检测性能。引入双重阶段掩码方法,在频谱图和潜在特征空间进行操作,提高模型对局部失真的容忍度并增强泛化学习能力。同时,在自监督学习中采用压缩感知策略,提高低资源场景中的变量性并保留学习表征的完整性。该框架在ASVspoof挑战中取得最新技术成果。

Key Takeaways

  1. 提出的混合训练框架旨在通过新型数据增强策略提升假音频检测性能。
  2. 双重阶段掩码方法包括在频谱图和潜在特征空间的操作,提高模型对局部失真的容忍度和泛化学习能力。
  3. 引入自监督学习中的压缩感知策略,以提高低资源场景中的变量性并保留学习表征的完整性。
  4. 框架结合了可学习的自监督特征提取器和ResNet分类头,在统一训练管道中实现了声学表征和判别模式的联合适应。
  5. 在ASVspoof挑战中,该系统的性能达到最新技术水平,在特定条件下等错误率降至4.08%。
  6. 通过融合具有不同预训练特征提取器的模型,等错误率进一步降至2.71%。

Cool Papers

点此查看论文截图

Compositional Phoneme Approximation for L1-Grounded L2 Pronunciation Training

Authors:Jisang Park, Minu Kim, DaYoung Hong, Jongha Lee

Learners of a second language (L2) often map non-native phonemes to similar native-language (L1) phonemes, making conventional L2-focused training slow and effortful. To address this, we propose an L1-grounded pronunciation training method based on compositional phoneme approximation (CPA), a feature-based representation technique that approximates L2 sounds with sequences of L1 phonemes. Evaluations with 20 Korean non-native English speakers show that CPA-based training achieves a 76% in-box formant rate in acoustic analysis, 17.6% relative improvement in phoneme recognition accuracy, and over 80% of speech being rated as more native-like, with minimal training. Project page: https://gsanpark.github.io/CPA-Pronunciation.

第二语言(L2)学习者往往将非母语音素映射到相似的母语(L1)音素,这使得传统的以L2为中心的训练变得缓慢且费力。为了解决这一问题,我们提出了一种基于母语发音训练的组成音素近似法(CPA),这是一种基于特征表示的技术,用L1音素的序列来近似L2的声音。对20名非英语母语韩国人的评估显示,基于CPA的训练方法在声学分析中达到了76%的箱式共振峰率,音素识别准确率提高了17.6%,超过80%的语音被认为更像母语,且训练时间最少。项目页面:https://gsanpark.github.io/CPA-Pronunciation。

论文及项目相关链接

PDF Accepted to IJCNLP-AACL 2025

Summary

二语学习者常常将非母语音素映射到类似母语音素上,导致常规的第二语言发音训练变得缓慢且费力。为解决这一问题,研究团队提出了一种基于母语(L1)的发音训练方法,该方法基于组合音素近似(CPA)技术,这是一种基于特征的表达方式,能够用母语音素的序列来近似表达第二语言的发音。对20名韩国非英语母语者的评估显示,基于CPA的训练方法达到了76%的声学分析准确率,语音识别准确率提高了17.6%,超过80%的语音被评价为更接近母语水平,且训练时间较短。

Key Takeaways

  1. 二语学习者在发音训练时,倾向于将非母语音素映射到类似母语音素上,导致训练效果不尽人意。
  2. 研究团队提出了一种新的L1-grounded发音训练方法,基于组合音素近似(CPA)技术。
  3. CPA技术用母语音素的序列来近似表达第二语言的发音。
  4. 对韩国非英语母语者的评估显示,基于CPA的训练方法在声学分析、语音识别准确率方面有明显提升。
  5. 超过80%的语音经过这种训练后被评价为更接近母语水平。
  6. 该方法的训练时间相对较短,效率较高。

Cool Papers

点此查看论文截图

Error Correction in Radiology Reports: A Knowledge Distillation-Based Multi-Stage Framework

Authors:Jinge Wu, Zhaolong Wu, Ruizhe Li, Tong Chen, Abul Hasan, Yunsoo Kim, Jason P. Y. Cheung, Teng Zhang, Honghan Wu

The increasing complexity and workload of clinical radiology leads to inevitable oversights and mistakes in their use as diagnostic tools, causing delayed treatments and sometimes life-threatening harm to patients. While large language models (LLMs) have shown remarkable progress in many tasks, their utilities in detecting and correcting errors in radiology reporting are limited. This paper proposes a novel dual-knowledge infusion framework that enhances LLMs’ capability for radiology report proofreading through systematic integration of medical expertise. Specifically, the knowledge infusion combines medical knowledge graph distillation (MKGD) with external knowledge retrieval (EXKR), enabling an effective automated approach in tackling mistakes in radiology reporting. By decomposing the complex proofreading task into three specialized stages of detection, localization, and correction, our method mirrors the systematic review process employed by expert radiologists, ensuring both precision and clinical interpretability. To perform a robust, clinically relevant evaluation, a comprehensive benchmark is also proposed using real-world radiology reports with real-world error patterns, including speech recognition confusions, terminology ambiguities, and template-related inconsistencies. Extensive evaluations across multiple LLM architectures demonstrate substantial improvements of our approach: up to 31.56% increase in error detection accuracy and 37.4% reduction in processing time. Human evaluation by radiologists confirms superior clinical relevance and factual consistency compared to existing approaches.

临床放射学的复杂性和工作量不断增加,导致其作为诊断工具时不可避免地会出现疏忽和错误,从而导致治疗延迟,有时甚至会对患者造成危及生命的伤害。尽管大型语言模型(LLM)在许多任务中取得了显著的进步,但在检测和纠正放射学报告中的错误方面的应用仍然有限。本文提出了一种新型的双知识融合框架,通过系统地整合医学专业知识,增强了LLM在放射学报告校对方面的能力。具体来说,知识融合结合了医学知识图谱蒸馏(MKGD)和外部知识检索(EXKR),为实现放射学报告中错误的自动化处理提供了一种有效的方法。通过将复杂的校对任务分解为检测、定位和校正三个专业阶段,我们的方法反映了专家放射科医生所采用的系统审查过程,确保准确性和临床解释性。为了进行稳健且与临床相关的评估,还使用具有真实世界错误模式的真实世界放射学报告提出了一项全面的基准测试,包括语音识别混淆、术语模糊和模板相关的不一致性。对多个LLM架构的广泛评估证明了我们方法的大幅改进:错误检测准确率提高了31.56%,处理时间减少了37.4%。放射科医生的人类评估证实,与现有方法相比,其在临床相关性和事实一致性方面更为优越。

论文及项目相关链接

PDF Accepted to AAAI 2026

摘要

大型语言模型(LLMs)在医学领域,尤其是在临床放射学的错误检测和修正中仍有局限性。为提高其在放射报告校订中的能力,本文提出一种新颖的双知识融合框架,该框架通过系统整合专业知识实现了对放射报告校对过程的技术提升。双知识融合包含医学知识图谱精炼与外部知识检索的结合,模拟专家放射师的审查过程,将复杂的校对任务分解为检测、定位和修正三个阶段。同时,利用真实世界放射报告和真实错误模式构建全面的基准测试集,进行严谨的临床评估。评估结果显示,新方法在错误检测精度上提高了高达31.56%,处理时间减少了37.4%。放射师的评估也证明了其优越的临床相关性和事实一致性。该方法的实施有望改善临床放射学中的复杂性和工作量问题,减少疏漏和错误,提高患者治疗效果和安全性。

关键见解

  1. 临床放射学工作量日益增加导致诊断工具中的疏漏和错误增加,可能对患者造成延迟治疗和生命威胁的伤害。
  2. 大型语言模型(LLMs)在放射学错误检测和校正方面的应用仍有限制。
  3. 提出了一种新型双知识融合框架,整合医学专业知识,提高了LLMs在放射报告校对方面的能力。
  4. 该方法通过分解校对任务为检测、定位和修正三个阶段,模拟专家放射师的审查过程。
  5. 利用真实世界放射报告和错误模式进行严格的临床评估,包括语音识别的混淆、术语歧义和模板不一致等。
  6. 与现有方法相比,该方法在错误检测精度上显著提高,处理时间大幅减少。
  7. 通过放射师的评估确认了其临床相关性和事实一致性。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
牙齿修复 牙齿修复
牙齿修复 方向最新论文已更新,请持续关注 Update in 2025-11-17 Asynchronous Distributed ECME Algorithm for Matrix Variate Non-Gaussian Responses
2025-11-17
下一篇 
I2I Translation I2I Translation
I2I Translation 方向最新论文已更新,请持续关注 Update in 2025-11-17 Regional Attention-Enhanced Swin Transformer for Clinically Relevant Medical Image Captioning
  目录