嘘~ 正在从服务器偷取页面 . . .

Speech


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-10-19 更新

End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs

Authors:Nam Luu, Ondřej Bojar

Speech Translation (ST) is a machine translation task that involves converting speech signals from one language to the corresponding text in another language; this task has two different approaches, namely the traditional cascade and the more recent end-to-end. This paper explores a combined end-to-end architecture of pre-trained speech encoders and Large Language Models (LLMs) for performing both Automatic Speech Recognition (ASR) and ST simultaneously. Experiments with the English-to-German language pair show that our best model not only can achieve better translation results than SeamlessM4T, a large foundational end-to-end, multi-modal translation model, but can also match the performance of a cascaded system with Whisper and NLLB, with up to a score gain of 8% in $\text{COMET}^{\text{DA}}_{22}$ metric.

语音翻译(ST)是一项机器翻译任务,涉及将一种语言的语音信号转换为另一种语言中的相应文本;这项任务有两种不同的方法,即传统的级联方法和更新的端到端方法。本文探索了一种结合预训练语音编码器和大型语言模型(LLM)的端到端架构,可同时执行自动语音识别(ASR)和ST。使用英德语言对进行的实验表明,我们最好的模型不仅可以实现比无缝M4T(一种大型端到端多模态翻译模型)更好的翻译结果,还可以与结合了whisper和NLLB的级联系统相匹敌,在COMET DA 22指标上得分提高了高达8%。

论文及项目相关链接

PDF

Summary

本文介绍了结合预训练语音编码器与大型语言模型(LLM)的端到端架构,用于同时执行自动语音识别(ASR)和语音翻译(ST)。实验表明,该模型在英德语言对上不仅优于大型基础端到端多模态翻译模型SeamlessM4T,还能与采用Whisper和NLLB的级联系统相匹配,在COMET^DA_22指标上得分提高了8%。

Key Takeaways

  1. 语音翻译(ST)是机器翻译任务之一,涉及将语音信号从一种语言转换为另一种语言的相应文本。
  2. 语音翻译任务有两种方法:传统的级联和较新的端到端方法。
  3. 本文探索了结合预训练语音编码器与大型语言模型(LLM)的端到端架构。
  4. 该模型能同时执行自动语音识别(ASR)和语音翻译。
  5. 实验表明,该模型在英德语言对上的翻译结果优于SeamlessM4T模型。
  6. 该模型的性能与级联系统相当,甚至在某些指标上表现更好。

Cool Papers

点此查看论文截图

SyncLipMAE: Contrastive Masked Pretraining for Audio-Visual Talking-Face Representation

Authors:Zeyu Ling, Xiaodong Gu, Jiangnan Tang, Changqing Zou

We introduce SyncLipMAE, a self-supervised pretraining framework for talking-face video that learns synchronization-aware and transferable facial dynamics from unlabeled audio-visual streams. Our approach couples masked visual modeling with cross-modal contrastive alignment and employs three per-frame prompt tokens that explicitly encode the essential factors of a talking-face frame - identity, vocal motion (speech-synchronized facial dynamics), and ambient motion (audio-agnostic movements such as blinks and head pose). The contrastive objective uses time-aligned vocal-motion and audio tokens as positives and misaligned pairs as negatives, driving both modalities into a shared embedding space and yielding token-level audio-visual stream synchronization. After pretraining, the aligned audio tokens together with the visual prompt tokens (identity, vocal motion, ambient motion) form a unified interface for four disparate downstream settings: (i) audio-visual stream synchronization; (ii) facial emotion and head/face action recognition; (iii) visual speech recognition; and (iv) visual dubbing, for which we enable indistinguishable audio- or video-driven control within a single model. Across four task families that require distinct capabilities, SyncLipMAE achieves state-of-the-art results, underscoring the effectiveness of synchronization-aware, factorized self-supervised pretraining.

我们介绍了SyncLipMAE,这是一个用于说话人脸视频的自我监督预训练框架,它可以从无标签的视听流中学习同步感知和可转移的面动力。我们的方法将掩模视觉建模与跨模态对比对齐相结合,并采用三个每帧提示令牌,明确编码说话人脸帧的关键因素——身份、语音运动(与语音同步的面动力)和环境运动(与音频无关的运动,如眨眼和头部姿势)。对比目标使用时间对齐的语音运动和声学令牌作为正样本,错位对作为负样本,将这两种模式驱动到共享嵌入空间,并产生令牌级的视听流同步。预训练后,对齐的声学令牌与视觉提示令牌(身份、语音运动、环境运动)为四个独立的下游设置形成了一个统一界面:(i)视听流同步;(ii)面部情感与头部/面部动作识别;(iii)视觉语音识别;(iv)视频配音,我们在单个模型中实现了无法区分的音频驱动或视频驱动控制。在需要不同能力的四个任务家族中,SyncLipMAE取得了最先进的结果,这突出了同步感知、因子化的自我监督预训练的有效性。

论文及项目相关链接

PDF

Summary

SyncLipMAE是一个用于说话人脸视频的自我监督预训练框架,能够从无标签的视听流中学习同步感知和可迁移的面部动态。它通过结合掩码视觉建模和跨模态对比对齐,采用每帧三个提示令牌显式编码说话人脸帧的关键因素,包括身份、语音动作和周围动作。该框架通过时间对齐的语音动作和音频令牌作为正向和错位的对作为负向,推动两种模式进入共享嵌入空间,实现令牌级视听流同步。预训练后,对齐的音频令牌与视觉提示令牌(身份、语音动作、周围动作)形成一个统一的接口,为四种不同的下游设置提供强大的支持,包括视听流同步、面部情感与头部/面部动作识别、视觉语音识别和视觉配音。SyncLipMAE在四个需要不同能力的任务家族中实现了最先进的成果,凸显了同步感知、因子化的自我监督预训练的有效性。

Key Takeaways:

  1. SyncLipMAE是一个自我监督预训练框架,适用于说话人脸视频。
  2. 该框架能从无标签的视听流中学习同步感知和可迁移的面部动态。
  3. 通过结合掩码视觉建模和跨模态对比对齐,实现音频与视频的匹配与融合。
  4. 每帧三个提示令牌显式编码身份、语音动作和周围动作等关键因素。
  5. 对比目标使用时间对齐的语音动作和音频令牌作为正向样本,错位的对作为负向样本。
  6. 预训练后的模型可以支持四种下游任务,包括视听流同步、面部情感与动作识别、视觉语音识别和视觉配音。

Cool Papers

点此查看论文截图

Mind-Paced Speaking: A Dual-Brain Approach to Real-Time Reasoning in Spoken Language Models

Authors:Donghang Wu, Haoyang Zhang, Jun Chen, Xiangyu, Zhang, Hexin Liu, Eng Siong Chng, Fei Tian, Xuerui Yang, Xiangyu Zhang, Daxin Jiang, Gang Yu

Real-time Spoken Language Models (SLMs) struggle to leverage Chain-of-Thought (CoT) reasoning due to the prohibitive latency of generating the entire thought process sequentially. Enabling SLMs to think while speaking, similar to humans, is attracting increasing attention. We present, for the first time, Mind-Paced Speaking (MPS), a brain-inspired framework that enables high-fidelity, real-time reasoning. Similar to how humans utilize distinct brain regions for thinking and responding, we propose a novel dual-brain approach, employing a “Formulation Brain” for high-level reasoning to pace and guide a separate “Articulation Brain” for fluent speech generation. This division of labor eliminates mode-switching, preserving the integrity of the reasoning process. Experiments show that MPS significantly outperforms existing think-while-speaking methods and achieves reasoning performance comparable to models that pre-compute the full CoT before speaking, while drastically reducing latency. Under a zero-latency configuration, the proposed method achieves an accuracy of 92.8% on the mathematical reasoning task Spoken-MQA and attains a score of 82.5 on the speech conversation task URO-Bench. Our work effectively bridges the gap between high-quality reasoning and real-time interaction.

实时口语模型(SLM)由于生成整个思维过程的延迟性而无法充分利用思维链(CoT)推理。使SLM能够在说话时进行思考,类似于人类,正引起越来越多的关注。我们首次提出“思维驱动说话”(MPS),这是一个受大脑启发的框架,可实现高保真、实时推理。与人类利用不同的大脑区域进行思维和回应的方式类似,我们提出了一种新型双脑方法,采用一个“制定决策的大脑”进行高级推理,以控制和指导另一个“发声大脑”进行流畅的语音生成。这种分工消除了模式切换,保持了推理过程的完整性。实验表明,MPS显著优于现有的边思考边说话的方法,其推理性能与预先计算完整的CoT再说话模型相当,同时大大降低了延迟。在零延迟配置下,所提方法在口语数学推理任务Spoken-MQA上达到了92.8%的准确率,在语音对话任务URO-Bench上达到了82.5分。我们的工作有效地弥合了高质量推理和实时交互之间的差距。

论文及项目相关链接

PDF 13 pages, 3 figures

Summary

实时口语模型(SLM)在利用链式思维(CoT)推理时面临困难,因为生成整个思维过程的时间延迟过长。本文首次提出“思维驱动口语”(MPS)框架,借鉴人脑结构实现高保真实时推理。人类利用不同脑区进行思维和反应,本研究提出了类似的人脑驱动的双脑方法,通过“配方脑”进行高级推理来控制和引导“发音脑”进行流畅的语言生成。这种分工消除了模式切换,保持了推理过程的完整性。实验表明,MPS显著优于现有的边思考边说话的方法,其推理性能与预先计算完整CoT再说话的模型相当,同时大幅降低了延迟。在零延迟配置下,该方法在口语数学推理任务Spoken-MQA上的准确率达到92.8%,在语音对话任务URO-Bench上的得分为82.5。本研究有效地缩小了高质量推理和实时交互之间的差距。

Key Takeaways

  1. 实时口语模型面临利用链式思维进行推理的挑战,因为它们需要顺序生成整个思维过程,导致延迟过长。
  2. 首次提出“思维驱动口语”(MPS)框架,该框架借鉴人脑的运作方式以实现高保真实时推理。
  3. MPS提出了双脑方法,使用“配方脑”进行高级推理和控制,同时通过“发音脑”进行流畅的语言生成。
  4. 这种分工能够消除模式切换,保持推理过程的连续性。
  5. MPS显著优于现有的边思考边说话的方法,实现了与预先计算完整思维链的模型相当的推理性能。
  6. MPS降低了延迟,提高了实时交互的效率和准确性。

Cool Papers

点此查看论文截图

Accent-Invariant Automatic Speech Recognition via Saliency-Driven Spectrogram Masking

Authors:Mohammad Hossein Sameti, Sepehr Harfi Moridani, Ali Zarean, Hossein Sameti

Pre-trained transformer-based models have significantly advanced automatic speech recognition (ASR), yet they remain sensitive to accent and dialectal variations, resulting in elevated word error rates (WER) in linguistically diverse languages such as English and Persian. To address this challenge, we propose an accent-invariant ASR framework that integrates accent and dialect classification into the recognition pipeline. Our approach involves training a spectrogram-based classifier to capture accent-specific cues, masking the regions most influential to its predictions, and using the masked spectrograms for data augmentation. This enhances the robustness of ASR models against accent variability. We evaluate the method using both English and Persian speech. For Persian, we introduce a newly collected dataset spanning multiple regional accents, establishing the first systematic benchmark for accent variation in Persian ASR that fills a critical gap in multilingual speech research and provides a foundation for future studies on low-resource, linguistically diverse languages. Experimental results with the Whisper model demonstrate that our masking and augmentation strategy yields substantial WER reductions in both English and Persian settings, confirming the effectiveness of the approach. This research advances the development of multilingual ASR systems that are resilient to accent and dialect diversity. Code and dataset are publicly available at: https://github.com/MH-Sameti/Accent_invariant_ASR

预训练基于transformer的模型已经极大地推动了自动语音识别(ASR)的进步,但它们仍然对口音和方言变化敏感,导致在英语和波斯语等语言多样化的语言中词错误率(WER)上升。为了解决这一挑战,我们提出了一种口音不变的ASR框架,将口音和方言分类整合到识别流程中。我们的方法包括训练一个基于频谱图的分类器来捕捉口音特定的线索,掩盖对其预测影响最大的区域,并使用掩蔽的频谱图进行数据增强。这增强了ASR模型对口音变化的稳健性。我们同时使用英语和波斯语语音对方法进行了评估。对于波斯语,我们引入了一个新收集的数据集,涵盖多种地区口音,建立了波斯语ASR中口音变化的第一套系统基准测试,填补了多语种语音研究中的一个关键空白,为未来的低资源、语言多样化语言的研究提供了基础。使用Whisper模型的实验结果表明,我们的掩蔽和增强策略在英语和波斯语环境中都实现了显著的WER降低,证实了该方法的有效性。该研究推动了对口音和方言多样性有抵抗力的多语种ASR系统的开发。代码和数据集可在以下网址公开获得:https://github.com/MH-Sameti/Accent_invariant_ASR

论文及项目相关链接

PDF Submitted to ICASSP 2026

Summary

本文提出一种针对口音不变量的自动语音识别(ASR)框架,该框架通过将口音和方言分类纳入识别流程来解决口音和方言多样性对ASR的影响。该研究通过训练基于频谱图的分类器来捕捉口音特定线索,并对预测中最重要的区域进行掩码,使用掩码频谱图进行数据增强,从而提高ASR模型对口音变异的稳健性。实验结果表明,该方法在英语和波斯语设置中均实现了显著的词错误率(WER)降低。

Key Takeaways

  1. 预训练基于转换器的模型在自动语音识别(ASR)中有显著进步,但仍面临口音和方言变化带来的挑战。
  2. 提出的口音不变ASR框架通过将口音和方言分类纳入识别流程来解决这一问题。
  3. 使用基于频谱图的分类器捕捉口音特定线索,并对关键区域进行掩码以进行数据增强。
  4. 研究提高了ASR模型对口音变异的稳健性,并在英语和波斯语评估中取得实质性词错误率(WER)降低。
  5. 引入了一个新收集的涵盖多种区域口音的波斯语数据集,为以后的低资源、语言多样性研究提供了基础。
  6. 公开可用的代码和数据集有助于推动多语言ASR系统的进一步发展。

Cool Papers

点此查看论文截图

A Study of the Removability of Speaker-Adversarial Perturbations

Authors:Liping Chen, Chenyang Guo, Kong Aik Lee, Zhen-Hua Ling, Wu Guo

Recent advancements in adversarial attacks have demonstrated their effectiveness in misleading speaker recognition models, making wrong predictions about speaker identities. On the other hand, defense techniques against speaker-adversarial attacks focus on reducing the effects of speaker-adversarial perturbations on speaker attribute extraction. These techniques do not seek to fully remove the perturbations and restore the original speech. To this end, this paper studies the removability of speaker-adversarial perturbations. Specifically, the investigation is conducted assuming various degrees of awareness of the perturbation generator across three scenarios: ignorant, semi-informed, and well-informed. Besides, we consider both the optimization-based and feedforward perturbation generation methods. Experiments conducted on the LibriSpeech dataset demonstrated that: 1) in the ignorant scenario, speaker-adversarial perturbations cannot be eliminated, although their impact on speaker attribute extraction is reduced, 2) in the semi-informed scenario, the speaker-adversarial perturbations cannot be fully removed, while those generated by the feedforward model can be considerably reduced, and 3) in the well-informed scenario, speaker-adversarial perturbations are nearly eliminated, allowing for the restoration of the original speech. Audio samples can be found in https://voiceprivacy.github.io/Perturbation-Generation-Removal/.

最近对抗性攻击的最新进展表明,它们在误导说话人识别模型、对说话人身份做出错误预测方面非常有效。另一方面,针对说话人对抗性攻击的防御技术侧重于减少说话人对抗性扰动对说话人属性提取的影响。这些技术并不寻求完全消除扰动并恢复原始语音。为此,本文研究了说话人对抗性扰动的可消除性。具体来说,研究是在假设扰动生成器在三种场景下的不同意识程度进行的:无知、半知和明知。此外,我们考虑了基于优化的和前馈的扰动生成方法。在LibriSpeech数据集上进行的实验表明:1)在无知的场景中,无法消除说话人对抗性扰动,虽然它们对说话人属性提取的影响有所减少;2)在半知的场景中,无法完全消除说话人对抗性扰动,而由前馈模型生成的扰动可以大大减少;3)在明知的场景中,说话人对抗性扰动几乎被消除,可以恢复原始语音。音频样本可在https://voiceprivacy.github.io/Perturbation-Generation-Removal/找到。

论文及项目相关链接

PDF

Summary

近期研究表明,对抗性攻击可有效误导说话人识别模型,对其做出错误预测。为应对这一问题,本文专注于研究消除说话人对抗性扰动的能力。研究发现不同场景(不知情、半知情和知情)以及不同的扰动生成方法(优化法和前馈法)下消除对抗性扰动的难易程度不同。实验表明,在不知情情况下无法消除扰动,半知情情况下可以部分减少扰动,尤其是前馈模型生成的扰动,而在知情情况下几乎可以完全消除扰动并恢复原始语音。具体音频样本可参见相关网站。

Key Takeaways

  1. 对抗性攻击已显示能够误导说话人识别模型,引发误判。
  2. 研究聚焦于消除说话人对抗性扰动的能力。
  3. 在不同场景(不知情、半知情和知情)下,消除对抗性扰动的难度不同。
  4. 优化法和前馈法是两种主要的扰动生成方法。
  5. 在不知情情况下,无法消除说话人对抗性扰动,但其对说话人属性提取的影响可减轻。
  6. 在半知情情况下,可以部分减少对抗性扰动,特别是前馈模型生成的扰动。

Cool Papers

点此查看论文截图

WildElder: A Chinese Elderly Speech Dataset from the Wild with Fine-Grained Manual Annotations

Authors:Hui Wang, Jiaming Zhou, Jiabei He, Haoqin Sun, Yong Qin

Elderly speech poses unique challenges for automatic processing due to age-related changes such as slower articulation and vocal tremors. Existing Chinese datasets are mostly recorded in controlled environments, limiting their diversity and real-world applicability. To address this gap, we present WildElder, a Mandarin elderly speech corpus collected from online videos and enriched with fine-grained manual annotations, including transcription, speaker age, gender, and accent strength. Combining the realism of in-the-wild data with expert curation, WildElder enables robust research on automatic speech recognition and speaker profiling. Experimental results reveal both the difficulties of elderly speech recognition and the potential of WildElder as a challenging new benchmark. The dataset and code are available at https://github.com/NKU-HLT/WildElder.

老年语音由于与年龄相关的变化(如发音较慢和嗓音颤抖)而对自动处理提出了独特挑战。现有的中文数据集大多是在受控环境中记录的,这限制了其多样性和在现实世界中的应用性。为了解决这一差距,我们推出了WildElder,这是一个从在线视频收集的普通话老年语音语料库,通过精细的手动注释进行了丰富,包括转录、说话人的年龄、性别和口音强度。结合了野生数据的真实性和专家整理,WildElder为自动语音识别和说话人分析提供了稳健的研究支持。实验结果表明老年语音识别的难度以及WildElder作为一个具有挑战性的新基准的潜力。数据集和代码可在https://github.com/NKU-HLT/WildElder找到。

论文及项目相关链接

PDF

Summary

该文本介绍了老年语音对于自动处理所面临的独特挑战,包括发音较慢和嗓音颤抖等年龄相关变化。现有的中文数据集大多在受控环境中录制,限制了其多样性和现实世界的适用性。为解决这一差距,我们推出了WildElder,一个从在线视频收集并用精细手动注释丰富的普通话老年语音语料库,包括转录、说话人年龄、性别和口音强度等。结合了野外数据的真实性和专家管理,WildElder为自动语音识别和说话人分析提供了稳健的研究支持。实验结果表明老年语音识别的难度以及WildElder作为具有挑战性的新基准的潜力。数据集和代码可在https://github.com/NKU-HLT/WildElder获取。

Key Takeaways

  1. 老年语音由于年龄相关的变化(如发音较慢和嗓音颤抖)给自动处理带来独特挑战。
  2. 现有中文数据集主要来源于受控环境,限制了其在真实世界的多样性和适用性。
  3. WildElder是首个从在线视频收集的普通话老年语音语料库,包含详细的注释,如转录、说话人年龄、性别和口音强度等。
  4. WildElder结合了野外数据的真实性和专家管理,为自动语音识别和说话人分析提供了稳健的研究支持。
  5. 实验结果表明老年语音识别的难度较高。
  6. WildElder数据集提供了一个挑战性的新基准,有助于推动老年语音识别的研究进步。

Cool Papers

点此查看论文截图

O_O-VC: Synthetic Data-Driven One-to-One Alignment for Any-to-Any Voice Conversion

Authors:Huu Tuong Tu, Huan Vu, cuong tien nguyen, Dien Hy Ngo, Nguyen Thi Thu Trang

Traditional voice conversion (VC) methods typically attempt to separate speaker identity and linguistic information into distinct representations, which are then combined to reconstruct the audio. However, effectively disentangling these factors remains challenging, often leading to information loss during training. In this paper, we propose a new approach that leverages synthetic speech data generated by a high-quality, pretrained multispeaker text-to-speech (TTS) model. Specifically, synthetic data pairs that share the same linguistic content but differ in speaker identity are used as input-output pairs to train the voice conversion model. This enables the model to learn a direct mapping between source and target voices, effectively capturing speaker-specific characteristics while preserving linguistic content. Additionally, we introduce a flexible training strategy for any-to-any voice conversion that generalizes well to unseen speakers and new languages, enhancing adaptability and performance in zero-shot scenarios. Our experiments show that our proposed method achieves a 16.35% relative reduction in word error rate and a 5.91% improvement in speaker cosine similarity, outperforming several state-of-the-art methods. Voice conversion samples can be accessed at: https://oovc-emnlp-2025.github.io/

传统语音转换(VC)方法通常尝试将说话人身份和语言信息分离成不同的表示,然后将它们结合起来重建音频。然而,有效地解开这些因素仍然具有挑战性,通常会导致训练过程中的信息丢失。在本文中,我们提出了一种新方法,该方法利用由高质量、预训练的多说话人文本到语音(TTS)模型生成的人造语音数据。具体来说,人造数据对共享相同语言内容但在说话人身份上有所不同,被用作输入和输出来训练语音转换模型。这使得模型能够学习源语音和目标语音之间的直接映射,有效地捕捉说话人的特定特征,同时保留语言内容。此外,我们引入了一种灵活的任何到任何语音转换训练策略,该策略可以很好地推广到未见过的说话人和新语言,提高了零样本场景中的适应性和性能。我们的实验表明,所提出的方法实现了单词错误率降低16.35%,说话人余弦相似性提高5.91%,优于几种最先进的方法。语音转换样本可访问:https://oovc-emnlp-2025.github.io/

论文及项目相关链接

PDF EMNLP 2025

Summary

本文提出了一种新的语音转换方法,该方法利用高质量预训练多说话人文本到语音(TTS)模型生成合成语音数据。通过利用具有相同语言内容但说话人身份不同的合成数据对作为输入-输出对,训练语音转换模型,实现了对源语音和目标语音的直接映射,有效捕捉说话人特征的同时保留了语言内容。此外,还提出了一种灵活的任何到任何(any-to-any)语音转换训练策略,可很好地推广到未见过的说话人和新语言,提高了零样本场景下的适应性和性能。实验结果表明,该方法在词错误率上相对降低了16.35%,在说话人余弦相似性上提高了5.91%,优于多种最先进的方法。

Key Takeaways

  1. 新方法利用预训练的多说话人TTS模型生成合成语音数据,用于训练语音转换模型。
  2. 方法实现了源语音和目标语音的直接映射,有效分离说话人身份和语言信息。
  3. 灵活的任何到任何(any-to-any)语音转换训练策略,适应于未见过的说话人和新语言。
  4. 方法在词错误率和说话人余弦相似性上取得了显著改进,优于现有先进方法。
  5. 该方法提高了语音转换模型的适应性和性能,尤其在零样本场景下。
  6. 合成语音数据对用于训练模型,增强了模型的泛化能力。

Cool Papers

点此查看论文截图

Model-Based Ranking of Source Languages for Zero-Shot Cross-Lingual Transfer

Authors:Abteen Ebrahimi, Adam Wiemerslage, Katharina von der Wense

We present NN-Rank, an algorithm for ranking source languages for cross-lingual transfer, which leverages hidden representations from multilingual models and unlabeled target-language data. We experiment with two pretrained multilingual models and two tasks: part-of-speech tagging (POS) and named entity recognition (NER). We consider 51 source languages and evaluate on 56 and 72 target languages for POS and NER, respectively. When using in-domain data, NN-Rank beats state-of-the-art baselines that leverage lexical and linguistic features, with average improvements of up to 35.56 NDCG for POS and 18.14 NDCG for NER. As prior approaches can fall back to language-level features if target language data is not available, we show that NN-Rank remains competitive using only the Bible, an out-of-domain corpus available for a large number of languages. Ablations on the amount of unlabeled target data show that, for subsets consisting of as few as 25 examples, NN-Rank produces high-quality rankings which achieve 92.8% of the NDCG achieved using all available target data for ranking.

我们提出了NN-Rank算法,这是一种用于跨语言迁移的源语言排名算法,它利用多语言模型的隐藏表示和未标记的目标语言数据。我们在两个预训练的多语言模型和两个任务上进行实验:词性标注(POS)和命名实体识别(NER)。我们考虑了51种源语言,并在POS和NER上分别对56种和72种目标语言进行评估。在使用领域数据的情况下,NN-Rank击败了利用词汇和语言特征的最新基线,平均改进了高达35.56 NDCG(对于POS)和18.14 NDCG(对于NER)。由于先前的方法在目标语言数据不可用时会回落到语言级特征,我们表明,仅使用圣经(一个可用于多种语言的域外语料库)时,NN-Rank仍具有竞争力。对未标记目标数据量的消融实验表明,对于仅包含25个例子的子集,NN-Rank能够产生高质量排名,实现使用所有可用目标数据进行排名时的92.8% NDCG。

论文及项目相关链接

PDF Accepted to EMNLP 2025 (Main)

Summary

本文介绍了NN-Rank算法,该算法用于跨语言转移学习中源语言的排名。它利用多语言模型的隐藏表示和未标记的目标语言数据进行排名。实验采用两种预训练的多语言模型和两种任务:词性标注(POS)和命名实体识别(NER)。考虑51种源语言,在POS和NER上分别对56种和72种目标语言进行评估。使用领域数据时,NN-Rank优于利用词汇和语言特征的最新基线,POS和NER的平均改进分别高达35.56 NDCG和18.14 NDCG。即使在目标语言数据不可用的情况下,NN-Rank仍具有竞争力,仅使用大量语言共有的《圣经》语料库。关于目标语言无标签数据量的消融研究表明,即使只有25个示例,NN-Rank也能产生高质量排名,实现使用所有目标数据排名的92.8%的NDCG。

Key Takeaways

  1. NN-Rank是一种用于跨语言转移学习的源语言排名算法。
  2. 该算法利用多语言模型的隐藏表示和未标记的目标语言数据。
  3. 实验涉及两种预训练的多语言模型和两种任务:词性标注(POS)和命名实体识别(NER)。
  4. NN-Rank在多种源语言和目标语言上的表现超越了现有基线。
  5. 使用领域数据时,NN-Rank的表现尤其出色,平均改进显著。
  6. 即使在没有目标语言数据的情况下,NN-Rank仍具有竞争力,这归功于其利用普遍可用的语料库(如《圣经》)的能力。

Cool Papers

点此查看论文截图

From Coarse to Fine: Recursive Audio-Visual Semantic Enhancement for Speech Separation

Authors:Ke Xue, Rongfei Fan, Lixin, Dawei Zhao, Chao Zhu, Han Hu

Audio-visual speech separation aims to isolate each speaker’s clean voice from mixtures by leveraging visual cues such as lip movements and facial features. While visual information provides complementary semantic guidance, existing methods often underexploit its potential by relying on static visual representations. In this paper, we propose CSFNet, a Coarse-to-Separate-Fine Network that introduces a recursive semantic enhancement paradigm for more effective separation. CSFNet operates in two stages: (1) Coarse Separation, where a first-pass estimation reconstructs a coarse audio waveform from the mixture and visual input; and (2) Fine Separation, where the coarse audio is fed back into an audio-visual speech recognition (AVSR) model together with the visual stream. This recursive process produces more discriminative semantic representations, which are then used to extract refined audio. To further exploit these semantics, we design a speaker-aware perceptual fusion block to encode speaker identity across modalities, and a multi-range spectro-temporal separation network to capture both local and global time-frequency patterns. Extensive experiments on three benchmark datasets and two noisy datasets show that CSFNet achieves state-of-the-art (SOTA) performance, with substantial coarse-to-fine improvements, validating the necessity and effectiveness of our recursive semantic enhancement framework.

视听语音分离旨在利用视觉线索(如嘴唇动作和面部特征)来从混合声音中隔离每个说话人的清晰声音。虽然视觉信息提供了补充语义指导,但现有方法常常通过依赖静态视觉表示而未能充分利用其潜力。在本文中,我们提出了CSFNet,这是一种从粗略到分离的精细网络,它引入了一种递归语义增强范式,以实现更有效的分离。CSFNet分为两个阶段:1)粗略分离,第一阶段估计从混合声音和视觉输入重建出粗略的音频波形;2)精细分离,将粗略的音频反馈到视听语音识别(AVSR)模型中与视觉流一起。这种递归过程产生了更具区分性的语义表示,然后用于提取精炼的音频。为了进一步利用这些语义信息,我们设计了一个说话人感知融合块,以编码跨模态的说话人身份,以及一个多范围光谱时间分离网络,以捕获局部和全局时间频率模式。在三个基准数据集和两个噪声数据集上的大量实验表明,CSFNet达到了最先进的性能,实现了从粗略到精细的显著改进,验证了我们的递归语义增强框架的必要性和有效性。

论文及项目相关链接

PDF

Summary

本文介绍了音频视觉语音分离技术,该技术利用视觉线索(如嘴唇动作和面部特征)来分离混合声音中的每个说话人的清晰声音。针对现有方法未充分利用视觉信息的潜力,本文提出了一种名为CSFNet的粗细分离网络,通过递归语义增强范式实现更有效的分离。CSFNet分为两个阶段:粗分离和精细分离。在粗分离阶段,通过初步估计从混合声音和视觉输入重建一个粗略的音频波形;在精细分离阶段,将粗略的音频反馈到视听语音识别(AVSR)模型,与视觉流一起处理。这个过程产生了更具辨识度的语义表示,然后用于提取精炼的音频。为充分利用这些语义信息,设计了一个感知融合模块来编码跨模态的说话人身份,并构建了一个多范围的时间和频率分离网络来捕捉局部和全局的时间频率模式。实验表明,CSFNet在多个数据集上取得了最先进的性能,验证了递归语义增强框架的必要性和有效性。

Key Takeaways

  1. 音频视觉语音分离技术利用视觉线索来分离混合声音中的每个说话人的声音。
  2. CSFNet网络分为粗分离和精细分离两个阶段,通过递归语义增强实现有效分离。
  3. 粗分离阶段通过初步估计从混合声音和视觉输入重建粗略音频波形。
  4. 精细分离阶段将粗略音频与视觉流一起反馈到AVSR模型,产生更具辨识度的语义表示。
  5. 提出了一个感知融合模块来编码跨模态的说话人身份。
  6. 多范围的时间和频率分离网络能够捕捉局部和全局的时间频率模式。

Cool Papers

点此查看论文截图

TISDiSS: A Training-Time and Inference-Time Scalable Framework for Discriminative Source Separation

Authors:Yongsheng Feng, Yuetonghui Xu, Jiehui Luo, Hongjia Liu, Xiaobing Li, Feng Yu, Wei Li

Source separation is a fundamental task in speech, music, and audio processing, and it also provides cleaner and larger data for training generative models. However, improving separation performance in practice often depends on increasingly large networks, inflating training and deployment costs. Motivated by recent advances in inference-time scaling for generative modeling, we propose Training-Time and Inference-Time Scalable Discriminative Source Separation (TISDiSS), a unified framework that integrates early-split multi-loss supervision, shared-parameter design, and dynamic inference repetitions. TISDiSS enables flexible speed-performance trade-offs by adjusting inference depth without retraining additional models. We further provide systematic analyses of architectural and training choices and show that training with more inference repetitions improves shallow-inference performance, benefiting low-latency applications. Experiments on standard speech separation benchmarks demonstrate state-of-the-art performance with a reduced parameter count, establishing TISDiSS as a scalable and practical framework for adaptive source separation. Code is available at https://github.com/WingSingFung/TISDiSS.

源分离是语音、音乐、音频处理中的一项基本任务,它为训练生成模型提供了更干净、更大的数据。然而,在实践中提高分离性能往往依赖于规模日益扩大的网络,从而增加了训练和部署成本。受生成模型推理时间缩放方面近期进展的推动,我们提出了训练时间和推理时间可伸缩的判别源分离(TISDiSS)这一统一框架,它集成了早期分割多损失监督、共享参数设计和动态推理重复。TISDiSS通过调整推理深度而无需重新训练其他模型,实现了灵活的速度性能权衡。我们进一步对架构和训练选择进行了系统分析,并表明在训练过程中使用更多的推理重复可以提高浅层推理性能,有利于低延迟应用程序。在标准语音分离基准测试上的实验证明了其卓越的性能和减少的参数数量,确立了TISDiSS作为自适应源分离的实用且可扩展框架的地位。代码可在https://github.com/WingSingFung/TISDiSS找到。

论文及项目相关链接

PDF Submitted to ICASSP 2026.(C) 2025 IEEE. Personal use of this material is permitted. Permission from IEEE must be obtained for all other uses, in any current or future media, including reprinting/republishing this material for advertising or promotional purposes, creating new collective works, for resale or redistribution to servers or lists, or reuse of any copyrighted component of this work

Summary

本文提出一种名为TISDiSS的统一框架,用于训练时间和推理时间可伸缩的判别源分离。该框架结合了早期分割多损失监督、共享参数设计和动态推理重复,可灵活调整推理深度以取得速度与性能的权衡,无需重新训练模型。实验表明,TISDiSS在标准语音分离基准测试中实现了卓越的性能,同时减少了参数数量,成为自适应源分离的可伸缩实用框架。

Key Takeaways

  1. TISDiSS是一个统一框架,用于源分离任务,集成早期分割多损失监督、共享参数设计和动态推理重复。
  2. 框架能够实现灵活的速度与性能权衡,通过调整推理深度,无需重新训练模型。
  3. TISDiSS能够提高源分离性能,同时降低网络和训练成本。
  4. 通过实验验证,TISDiSS在标准语音分离基准测试中表现出卓越性能。
  5. 该框架减少了参数数量,使其更适用于实际应用。
  6. TISDiSS框架对于自适应源分离任务具有可伸缩性和实用性。

Cool Papers

点此查看论文截图

NSPDI-SNN: An efficient lightweight SNN based on nonlinear synaptic pruning and dendritic integration

Authors:Wuque Cai, Hongze Sun, Jiayi He, Qianqian Liao, Yunliang Zang, Duo Chen, Dezhong Yao, Daqing Guo

Spiking neural networks (SNNs) are artificial neural networks based on simulated biological neurons and have attracted much attention in recent artificial intelligence technology studies. The dendrites in biological neurons have efficient information processing ability and computational power; however, the neurons of SNNs rarely match the complex structure of the dendrites. Inspired by the nonlinear structure and highly sparse properties of neuronal dendrites, in this study, we propose an efficient, lightweight SNN method with nonlinear pruning and dendritic integration (NSPDI-SNN). In this method, we introduce nonlinear dendritic integration (NDI) to improve the representation of the spatiotemporal information of neurons. We implement heterogeneous state transition ratios of dendritic spines and construct a new and flexible nonlinear synaptic pruning (NSP) method to achieve the high sparsity of SNN. We conducted systematic experiments on three benchmark datasets (DVS128 Gesture, CIFAR10-DVS, and CIFAR10) and extended the evaluation to two complex tasks (speech recognition and reinforcement learning-based maze navigation task). Across all tasks, NSPDI-SNN consistently achieved high sparsity with minimal performance degradation. In particular, our method achieved the best experimental results on all three event stream datasets. Further analysis showed that NSPDI significantly improved the efficiency of synaptic information transfer as sparsity increased. In conclusion, our results indicate that the complex structure and nonlinear computation of neuronal dendrites provide a promising approach for developing efficient SNN methods.

脉冲神经网络(Spiking Neural Networks,简称SNNs)是基于模拟生物神经元的人工神经网络,在最近的人工智能技术研究领域引起了广泛关注。生物神经元中的树突具有高效的信息处理能力和计算力,然而,SNNs的神经元很少匹配树突的复杂结构。本研究受神经元树突的非线性结构和高度稀疏特性的启发,提出了一种具有非线性修剪和树突整合(NSPDI-SNN)的高效、轻量级SNN方法。在该方法中,我们引入了非线性树突整合(NDI)技术,以提高神经元时空信息的表示能力。我们实现了树突脊的异质状态转换比率,并构建了一种新的灵活非线性突触修剪(NSP)方法,以实现SNN的高度稀疏性。我们在三个基准数据集(DVS128手势、CIFAR10-DVS和CIFAR10)上进行了系统实验,并将评估扩展到了两个复杂任务(语音识别和基于强化学习的迷宫导航任务)。在所有任务中,NSPDI-SNN始终实现了高稀疏性,并且性能下降幅度最小。尤其值得一提的是,我们的方法在三个事件流数据集上均取得了最佳实验结果。进一步的分析表明,随着稀疏性的增加,NSPDI显著提高了突触信息传输的效率。总之,我们的研究结果表明,神经元树突的复杂结构和非线性计算为实现高效SNN方法提供了有前途的途径。

论文及项目相关链接

PDF 16 pages, 9 figures, 7 tables; This manuscript has been submitted for possible pulication

Summary

本文提出一种基于非线性修剪和树突整合(NSPDI-SNN)的高效轻量级脉冲神经网络(SNN)方法。该方法引入非线性树突整合(NDI)以改善神经元时空信息的表示,并实现树突脊的异质状态转换比率。通过构建新的灵活非线性修剪(NSP)方法,实现SNN的高稀疏性。系统实验表明,NSPDI-SNN在所有任务上都实现了高稀疏性,且性能下降最小,特别是在事件流数据集上的实验结果最佳。进一步分析表明,随着稀疏性的增加,NSPDI显着提高了突触信息传递的效率。因此,神经元树突的复杂结构和非线性计算对于开发高效SNN方法具有广阔前景。

Key Takeaways

  1. SNNs模拟生物神经元,在近期人工智能技术研究中获得关注。
  2. 生物神经元的树突具有高效的信息处理能力和计算功率,但传统SNNs难以匹配其复杂结构。
  3. NSPDI-SNN方法结合了非线性修剪和树突整合,旨在提高SNN的效率。
  4. NDI用于改善神经元时空信息的表示,而异质状态转换比率的树突脊增强了方法的灵活性。
  5. NSPDI-SNN实现了高稀疏性,且在多个基准数据集和复杂任务上的性能显著。
  6. 随着稀疏性的增加,NSPDI在突触信息传递方面的效率提高。

Cool Papers

点此查看论文截图

Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio

Authors:Jeong Hun Yeo, Hyeongseop Rha, Sungjune Park, Junil Won, Yong Man Ro

Audio is the primary modality for human communication and has driven the success of Automatic Speech Recognition (ASR) technologies. However, such audio-centric systems inherently exclude individuals who are deaf or hard of hearing. Visual alternatives such as sign language and lip reading offer effective substitutes, and recent advances in Sign Language Translation (SLT) and Visual Speech Recognition (VSR) have improved audio-less communication. Yet, these modalities have largely been studied in isolation, and their integration within a unified framework remains underexplored. In this paper, we propose the first unified framework capable of handling diverse combinations of sign language, lip movements, and audio for spoken-language text generation. We focus on three main objectives: (i) designing a unified, modality-agnostic architecture capable of effectively processing heterogeneous inputs; (ii) exploring the underexamined synergy among modalities, particularly the role of lip movements as non-manual cues in sign language comprehension; and (iii) achieving performance on par with or superior to state-of-the-art models specialized for individual tasks. Building on this framework, we achieve performance on par with or better than task-specific state-of-the-art models across SLT, VSR, ASR, and Audio-Visual Speech Recognition. Furthermore, our analysis reveals a key linguistic insight: explicitly modeling lip movements as a distinct modality significantly improves SLT performance by capturing critical non-manual cues.

音频是人类交流的主要形式,并推动了语音识别(ASR)技术的成功。然而,这种以音频为中心的系统本质上排除了聋哑人的使用。如手语和唇读这样的视觉替代方案提供了有效的替代方式,最近在手语翻译(SLT)和视觉语音识别(VSR)方面的进展提高了无声通信的效果。然而,这些模式大多被孤立研究,它们在统一框架中的整合尚未得到充分探索。在本文中,我们提出了第一个能够处理手语、唇动和音频等多种组合的统框架,用于生成口语文本。我们重点关注三个主要目标:(i)设计一种统一、与模式无关的架构,能够有效地处理各种异构输入;(ii)探索各模式之间尚未研究的协同作用,特别是唇动作为非手动线索在手语理解中的作用;(iii)达到或超过针对单个任务专业化的最新模型的性能。基于该框架,我们在SLT、VSR、ASR和视听语音识别任务上的性能达到了或优于特定任务的最先进模型。此外,我们的分析揭示了一个关键的语言学见解:明确地将唇动建模为一种独特的模式,通过捕捉关键的非手动线索,可以显著提高SLT性能。

论文及项目相关链接

PDF

Summary
该文本介绍了音频作为人类沟通的主要方式在自动语音识别(ASR)技术中的重要作用,但同时也指出这种音频为中心的系统排斥了聋哑人士。视觉替代方案如手语和唇读提供了有效的替代方式,最近的符号语言翻译(SLT)和视觉语音识别(VSR)技术的进步改善了无声沟通。然而,这些模式大多孤立研究,它们在统一框架中的整合仍然被忽视。本文提出了第一个能够处理手语、唇动和音频等多种组合的统一框架,用于生成口语文本。本文的重点是设计一种统一、模式无关的架构,能够有效地处理异质输入;探索各模式之间未被发现协同作用,特别是唇动作为非手动线索在手语理解中的作用;以及实现与或优于针对个别任务的最新模型的性能。通过对这一框架的构建,我们在SLT、VSR、ASR和视听语音识别方面的性能达到或优于任务特定模型。此外,我们的分析揭示了一个关键的语言学见解:将唇动明确建模为一种独特的模式,通过捕捉重要的非手动线索,可以显著提高SLT性能。

Key Takeaways

  1. 音频虽然是人类沟通的主要方式,但在自动语音识别技术中起着关键作用,但这一领域的研究忽略了聋哑人士的需求。
  2. 视觉替代方案如手语和唇读是有效的替代方式,近期的手语翻译和视觉语音识别技术进步增强了无声沟通的能力。
  3. 提出了一种统一框架,可以处理包括手语、唇动和音频等多种模式的输入信息。此框架可以实现对各种输入模式的有效处理并生成口语文本。
  4. 探索了不同模式之间的协同作用,特别是唇动作为非手动线索在手语理解中的重要性。这种协同作用有助于增强系统的性能和理解能力。
  5. 该框架在多种任务上的性能达到或超过了现有任务特定模型的表现。这证明了统一框架的有效性,并且在多个领域都具有潜在的应用价值。
  6. 通过建模唇动作为一种独特的模式,可以显著提高手语翻译的性能。这一发现揭示了非手动线索在沟通中的重要性,并为未来的研究提供了新的视角和方向。

Cool Papers

点此查看论文截图

A Fast and Lightweight Model for Causal Audio-Visual Speech Separation

Authors:Wendi Sang, Kai Li, Runxuan Yang, Jianqiang Huang, Xiaolin Hu

Audio-visual speech separation (AVSS) aims to extract a target speech signal from a mixed signal by leveraging both auditory and visual (lip movement) cues. However, most existing AVSS methods exhibit complex architectures and rely on future context, operating offline, which renders them unsuitable for real-time applications. Inspired by the pipeline of RTFSNet, we propose a novel streaming AVSS model, named Swift-Net, which enhances the causal processing capabilities required for real-time applications. Swift-Net adopts a lightweight visual feature extraction module and an efficient fusion module for audio-visual integration. Additionally, Swift-Net employs Grouped SRUs to integrate historical information across different feature spaces, thereby improving the utilization efficiency of historical information. We further propose a causal transformation template to facilitate the conversion of non-causal AVSS models into causal counterparts. Experiments on three standard benchmark datasets (LRS2, LRS3, and VoxCeleb2) demonstrated that under causal conditions, our proposed Swift-Net exhibited outstanding performance, highlighting the potential of this method for processing speech in complex environments.

视听语音分离(AVSS)旨在利用听觉和视觉(唇部动作)线索从混合信号中提取目标语音信号。然而,大多数现有的AVSS方法具有复杂的架构,并且依赖于未来上下文进行离线操作,这使得它们不适合实时应用。受RTFSNet流程的启发,我们提出了一种新型的流式AVSS模型,名为Swift-Net,它增强了实时应用所需的因果处理能力。Swift-Net采用轻量级的视觉特征提取模块和高效的视听融合模块。此外,Swift-Net采用分组 SRU来整合不同特征空间的历史信息,从而提高历史信息的利用效率。我们还提出了一种因果转换模板,以促进非因果AVSS模型向因果模型的转化。在三个标准基准数据集(LRS2、LRS3和VoxCeleb2)上的实验表明,在因果条件下,我们提出的Swift-Net表现出卓越的性能,突显了该方法在复杂环境中处理语音的潜力。

论文及项目相关链接

PDF Accepted by ECAI 2025

Summary

本文介绍了一种新型的实时音频视觉语音分离模型Swift-Net,旨在从混合信号中提取目标语音信号。它利用视听线索,采用轻量级的视觉特征提取模块和高效的融合模块进行音频视觉整合,提高因果处理能力以满足实时应用的需求。此外,实验结果表明,在因果条件下,Swift-Net在复杂环境中处理语音的潜力巨大。

Key Takeaways

  1. Swift-Net是一种基于视听信息的实时语音分离模型。
  2. 它利用轻量级视觉特征提取模块和高效融合模块进行音频视觉整合。
  3. Swift-Net采用Grouped SRU技术,提高历史信息的利用效率和跨特征空间的整合能力。
  4. 提出了一种因果转换模板,可将非因果AVSS模型转换为因果模型。
  5. 在三个标准数据集上的实验表明,Swift-Net在因果条件下表现出卓越性能。
  6. Swift-Net适用于处理复杂环境中的语音。

Cool Papers

点此查看论文截图

Stimulus Modality Matters: Impact of Perceptual Evaluations from Different Modalities on Speech Emotion Recognition System Performance

Authors:Huang-Cheng Chou, Haibin Wu, Hung-yi Lee, Chi-Chun Lee

Speech Emotion Recognition (SER) systems rely on speech input and emotional labels annotated by humans. However, various emotion databases collect perceptional evaluations in different ways. For instance, the IEMOCAP dataset uses video clips with sounds for annotators to provide their emotional perceptions. However, the most significant English emotion dataset, the MSP-PODCAST, only provides speech for raters to choose the emotional ratings. Nevertheless, using speech as input is the standard approach to training SER systems. Therefore, the open question is the emotional labels elicited by which scenarios are the most effective for training SER systems. We comprehensively compare the effectiveness of SER systems trained with labels elicited by different modality stimuli and evaluate the SER systems on various testing conditions. Also, we introduce an all-inclusive label that combines all labels elicited by various modalities. We show that using labels elicited by voice-only stimuli for training yields better performance on the test set, whereas labels elicited by voice-only stimuli.

语音情感识别(SER)系统依赖于语音输入和人类标注的情感标签。然而,各种情感数据库以不同的方式收集感知评估。例如,IEMOCAP数据集使用带有声音的视频片段供注释者提供他们的情感感知。然而,最大的英语情感数据集MSP-PODCAST只提供语音供评分者选择情感评分。尽管如此,使用语音作为输入是训练SER系统的标准方法。因此,公开的问题是哪种场景引发的情感标签对于训练SER系统最为有效。我们全面比较了使用不同模态刺激引发的标签训练的SER系统的有效性,并在各种测试条件下对SER系统进行了评估。此外,我们还引入了一个包容性标签,该标签结合了由各种模态引发的所有标签。我们表明,使用仅由声音刺激引发的标签进行训练可以在测试集上获得更好的性能,而由多种模态组合产生的标签的性能则较差。

论文及项目相关链接

PDF 5 pages, 2 figures, 4 tables, acceptance for ICASSP 2025

Summary

本文探讨了语音情感识别(SER)系统的训练数据标注方式对其性能的影响。文章对比了不同模态刺激下产生的情感标签的有效性,并发现使用仅由语音刺激产生的标签在测试集上的性能表现更佳。

Key Takeaways

  1. 语音情感识别(SER)系统依赖于人类标注的语音输入和情感标签。
  2. 不同情感数据库收集感知评价的方式不同,如IEMOCAP数据集使用视频剪辑和声音供注释者提供情感感知,而MSP-PODCAST则仅提供语音供评估者选择情感评级。
  3. 使用语音作为输入是训练SER系统的标准方法。
  4. 情感标签在不同的场景下对SER系统的训练效果不同。
  5. 对比了不同模态刺激下产生的情感标签的有效性。
  6. 使用仅由语音刺激产生的标签在测试集上的性能表现更佳。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
3DGS 3DGS
3DGS 方向最新论文已更新,请持续关注 Update in 2025-10-19 EGSTalker Real-Time Audio-Driven Talking Head Generation with Efficient Gaussian Deformation
2025-10-19
下一篇 
Vision Transformer Vision Transformer
Vision Transformer 方向最新论文已更新,请持续关注 Update in 2025-10-19 UniRGB-IR A Unified Framework for Visible-Infrared Semantic Tasks via Adapter Tuning
  目录