⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-11-07 更新
Open Source State-Of-the-Art Solution for Romanian Speech Recognition
Authors:Gabriel Pirlogeanu, Alexandru-Lucian Georgescu, Horia Cucu
In this work, we present a new state-of-the-art Romanian Automatic Speech Recognition (ASR) system based on NVIDIA’s FastConformer architecture–explored here for the first time in the context of Romanian. We train our model on a large corpus of, mostly, weakly supervised transcriptions, totaling over 2,600 hours of speech. Leveraging a hybrid decoder with both Connectionist Temporal Classification (CTC) and Token-Duration Transducer (TDT) branches, we evaluate a range of decoding strategies including greedy, ALSD, and CTC beam search with a 6-gram token-level language model. Our system achieves state-of-the-art performance across all Romanian evaluation benchmarks, including read, spontaneous, and domain-specific speech, with up to 27% relative WER reduction compared to previous best-performing systems. In addition to improved transcription accuracy, our approach demonstrates practical decoding efficiency, making it suitable for both research and deployment in low-latency ASR applications.
在这项工作中,我们基于NVIDIA的FastConformer架构,提出了一种最新的罗马尼亚语自动语音识别(ASR)系统——这是该架构首次在罗马尼亚语境下进行研究。我们在大量的、主要是弱监督转录语料库上训练模型,总语音时长超过2600小时。我们利用混合解码器,结合了连接时序分类(CTC)和令牌持续时间转换器(TDT)分支,评估了一系列解码策略,包括贪心、ALSD和带有6元令牌级语言模型的CTC集束搜索。我们的系统在罗马尼亚所有的评估基准测试中均达到了最新性能,包括阅读、即兴和特定领域的语音,与之前的最佳系统相比,相对字词错误率(WER)降低了高达27%。除了提高转录准确性外,我们的方法还展示了实用的解码效率,使其适用于低延迟ASR应用的研究和部署。
论文及项目相关链接
PDF 13th Conference on Speech Technology and Human-Computer Dialogue (SpeD 2025), Cluj-Napoca, Romania
Summary:基于NVIDIA FastConformer架构,本研究提出了一种全新的罗马尼亚语自动语音识别(ASR)系统。该系统在大量弱监督转录语料库上进行训练,采用混合解码器,包括CTC和TDT分支,并评估了多种解码策略。在罗马尼亚语的所有评估基准上,该系统均达到最新性能水平,转录准确率提高了高达27%,同时保持了实际的解码效率,适合用于低延迟ASR应用的研究和部署。
Key Takeaways:
- 基于NVIDIA FastConformer架构建立了新的罗马尼亚ASR系统。
- 系统在大量弱监督转录语料库上进行训练。
- 采用混合解码器,包含CTC和TDT分支。
- 评估了多种解码策略,包括贪婪搜索、ALSD和CTC beam search。
- 在所有罗马尼亚语评估基准上达到最新性能水平。
- 与之前最佳性能的ASR系统相比,转录准确率提高了高达27%。
点此查看论文截图
TASU: Text-Only Alignment for Speech Understanding
Authors:Jing Peng, Yi Yang, Xu Li, Yu Xi, Quanwei Tang, Yangui Fang, Junjie Li, Kai Yu
Recent advances in Speech Large Language Models (Speech LLMs) have paved the way for unified architectures across diverse speech understanding tasks. However, prevailing alignment paradigms rely heavily on large-scale audio-text paired data and computationally intensive training, yet often exhibit limited generalization to unseen domains or tasks. To address these limitations, we propose TASU (Text-only Alignment for Speech Understanding), a novel alignment paradigm that can leverage only unpaired text data to guide cross-modal alignment. Experiments show that TASU achieves competitive zero-shot speech recognition. Leveraging this property, it can further function as a pre-training stage in curriculum learning, enhancing domain generalization in speech recognition. Ultimately, TASU can extend its zero-shot generalization to a wide range of speech understanding tasks and notably outperforms prominent Speech LLMs including GLM-4-Voice and Step-Audio on the MMSU benchmark, establishing TASU as an efficient and scalable alignment paradigm for Speech LLMs.
语音大语言模型(Speech LLMs)的最新进展为各种语音理解任务提供了统一的架构。然而,当前的对齐范式严重依赖于大规模音频文本配对数据和计算密集型的训练,但对未见领域或任务的泛化能力往往有限。为了解决这些局限性,我们提出了TASU(仅用于语音理解的文本对齐),这是一种新的对齐范式,它只能利用未配对的文本数据来引导跨模态对齐。实验表明,TASU实现了具有竞争力的零样本语音识别。利用这一特性,它可以进一步作为课程学习中的预训练阶段,提高语音识别中的域泛化能力。最终,TASU可以将其零样本泛化扩展到广泛的语音理解任务,并在MMSU基准测试上显著优于包括GLM-4-Voice和Step-Audio在内的主流语音LLM,从而确立了TASU是语音LLMs高效且可扩展的对齐范式。
论文及项目相关链接
PDF This paper is submitted to ICASSP 2026
Summary
近期语音大语言模型(Speech LLMs)的进步为跨不同语音理解任务的统一架构铺平了道路。然而,现有的对齐范式严重依赖于大规模音频文本配对数据和高计算强度的训练,但对未见领域或任务的泛化能力有限。为解决这一问题,我们提出了仅使用未配对文本数据引导跨模态对齐的新型对齐范式——TASU(文本对齐语音理解)。实验表明,TASU实现了具有竞争力的零样本语音识别。利用其属性,它可以在课程学习中作为预训练阶段,提高语音识别的领域泛化能力。最终,TASU将其零样本泛化扩展到广泛的语音理解任务,并在MMSU基准测试中显著优于包括GLM-4-Voice和Step-Audio在内的主流语音LLM,成为高效可扩展的语音LLM对齐范式。
Key Takeaways
- Speech Large Language Models (Speech LLMs) 实现了跨多种语音理解任务的统一架构。
- 现有对齐范式依赖大规模音频文本配对数据和高计算训练,泛化能力有限。
- TASU是一种新型对齐范式,仅使用未配对文本数据引导跨模态对齐。
- TASU实现了具有竞争力的零样本语音识别。
- TASU可以用作课程学习中的预训练阶段,提高语音识别的领域泛化能力。
- TASU的零样本泛化能力可应用于广泛的语音理解任务。
点此查看论文截图
Quantifying Articulatory Coordination as a Biomarker for Schizophrenia
Authors:Gowtham Premananth, Carol Espy-Wilson
Advances in artificial intelligence (AI) and deep learning have improved diagnostic capabilities in healthcare, yet limited interpretability continues to hinder clinical adoption. Schizophrenia, a complex disorder with diverse symptoms including disorganized speech and social withdrawal, demands tools that capture symptom severity and provide clinically meaningful insights beyond binary diagnosis. Here, we present an interpretable framework that leverages articulatory speech features through eigenspectra difference plots and a weighted sum with exponential decay (WSED) to quantify vocal tract coordination. Eigenspectra plots effectively distinguished complex from simpler coordination patterns, and WSED scores reliably separated these groups, with ambiguity confined to a narrow range near zero. Importantly, WSED scores correlated not only with overall BPRS severity but also with the balance between positive and negative symptoms, reflecting more complex coordination in subjects with pronounced positive symptoms and the opposite trend for stronger negative symptoms. This approach offers a transparent, severity-sensitive biomarker for schizophrenia, advancing the potential for clinically interpretable speech-based assessment tools.
随着人工智能和深度学习的进步,医疗诊断能力得到了提升。然而,有限的解释性仍然阻碍其在临床的采用。精神分裂症是一种复杂的疾病,具有包括言语混乱和社交退缩在内的多种症状。它要求工具能够捕捉症状严重程度,并提供超越二元诊断的临床意义洞见。在这里,我们提出了一个可解释性框架,该框架通过特征谱差图和利用加权和指数衰减(WSED)的语音特征来量化语音轨迹协调性。特征谱图有效地区分了复杂的和更简单的协调模式,WSED分数可靠地分离了这些组,模糊性仅限于接近零的狭窄范围内。重要的是,WSED分数不仅与整体BPRS严重程度相关,而且与正性和负性症状的平衡相关。在具有明显正性症状的患者中,这反映了更复杂的协调性,而在具有更强负性症状的患者中则表现出相反的趋势。这种方法为精神分裂症提供了一个透明且对严重程度敏感的生物标志物,推动了临床上可解释的基于语音的评估工具的应用潜力。
论文及项目相关链接
PDF Submitted to ICASSP 2026
Summary
基于人工智能和深度学习的进步,提高了医疗保健中的诊断能力,然而解释性受限仍是阻碍临床采纳的一个因素。本研究提出了一种可解释的框架,利用语音特征通过特征谱差图以及加权和指数衰减(WSED)来量化声带协调。特征谱图能有效区分复杂的声带协调模式,而WSED评分则能可靠地将不同群体区分开,只有在接近零的地方有歧义。更重要的是,WSED分数不仅与BPRS的总体严重程度相关,而且还与阳性与阴性症状之间的平衡相关,反映阳性症状突出的患者更复杂的协调模式,对于更强的阴性症状则表现出相反的趋势。该研究为精神分裂症提供了一种透明且敏感度高的生物标志物,推进了可解释的语音评估工具的临床潜力。
Key Takeaways
- AI和深度学习进步促进了医疗保健中的诊断能力。
- 当前诊断工具的解释性受限仍是临床采纳的障碍。
- 研究提出了一种可解释的框架来量化声带协调问题。
- 特征谱图能有效区分复杂的声带协调模式。
- WSED评分能可靠地区分不同群体,且具有与症状严重程度的相关性。
- WSED评分不仅与整体症状严重程度相关,还反映了阳性与阴性症状之间的平衡。
点此查看论文截图