嘘~ 正在从服务器偷取页面 . . .

Interactive


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-02-28 更新

CS-Dialogue: A 104-Hour Dataset of Spontaneous Mandarin-English Code-Switching Dialogues for Speech Recognition

Authors:Jiaming Zhou, Yujie Guo, Shiwan Zhao, Haoqin Sun, Hui Wang, Jiabei He, Aobo Kong, Shiyao Wang, Xi Yang, Yequan Wang, Yonghua Lin, Yong Qin

Code-switching (CS), the alternation between two or more languages within a single conversation, presents significant challenges for automatic speech recognition (ASR) systems. Existing Mandarin-English code-switching datasets often suffer from limitations in size, spontaneity, and the lack of full-length dialogue recordings with transcriptions, hindering the development of robust ASR models for real-world conversational scenarios. This paper introduces CS-Dialogue, a novel large-scale Mandarin-English code-switching speech dataset comprising 104 hours of spontaneous conversations from 200 speakers. Unlike previous datasets, CS-Dialogue provides full-length dialogue recordings with complete transcriptions, capturing naturalistic code-switching patterns in continuous speech. We describe the data collection and annotation processes, present detailed statistics of the dataset, and establish benchmark ASR performance using state-of-the-art models. Our experiments, using Transformer, Conformer, and Branchformer, demonstrate the challenges of code-switching ASR, and show that existing pre-trained models such as Whisper still have the space to improve. The CS-Dialogue dataset will be made freely available for all academic purposes.

语言转换(CS)是指在单次对话中切换使用两种或多种语言,这给自动语音识别(ASR)系统带来了重大挑战。现有的普通话-英语代码转换数据集往往在规模、自发性和缺乏具有转录的全长对话录音等方面存在局限性,阻碍了为现实世界对话场景开发稳健的ASR模型。本文介绍了CS-Dialogue,这是一个新的大规模普通话-英语代码转换语音数据集,包含来自200名发言人的104小时自发对话。不同于以前的数据集,CS-Dialogue提供了具有完整转录的全长对话录音,捕捉连续语音中的自然语言转换模式。我们描述了数据收集和注释过程,给出了数据集的详细统计信息,并使用最新模型建立了基准ASR性能。我们的实验使用了Transformer、Conformer和Branchformer,展示了语言转换ASR的挑战性,并表明现有的预训练模型(如Whisper)仍有改进空间。CS-Dialogue数据集将免费提供给所有学术用途。

论文及项目相关链接

PDF

Summary

本文主要介绍了代码转换(CS)对话数据集CS-Dialogue,这是一个大规模的、包含中英文代码转换的语音数据集,包含来自200名发言人的104小时自然对话录音及完整转录。该数据集克服了之前数据集的局限性,真实捕捉了连续语音中的自然代码转换模式。文章描述了数据收集和注释过程,提供了数据集的详细统计信息,并使用最先进的模型建立了基准语音识别性能。

Key Takeaways

  1. 代码转换(CS)在自动语音识别(ASR)系统中是一个挑战,特别是在中英文之间的转换。
  2. 现有的中英文代码转换数据集存在规模、自发性和全长对话录音转录等方面的问题。
  3. 介绍了新的中英文代码转换语音数据集CS-Dialogue,包含104小时的自然对话录音和完整转录。
  4. CS-Dialogue数据集能真实反映连续语音中的自然代码转换模式。
  5. 文章描述了数据收集和注释的详细过程,并提供了数据集的详细统计信息。
  6. 使用Transformer、Conformer和Branchformer等模型进行的实验展示了代码转换ASR的挑战性,并指出现有预训练模型如Whisper仍有改进空间。
  7. CS-Dialogue数据集将免费提供给所有学术用途。

Cool Papers

点此查看论文截图

Rejoinder to Reader Reaction “On exact randomization-based covariate-adjusted confidence intervals” by Jacob Fiksel

Authors:Ke Zhu, Hanzhong Liu

We applaud Fiksel (2024) for their valuable contributions to randomization-based inference, particularly their work on inverting the Fisher randomization test (FRT) to construct confidence intervals using the covariate-adjusted test statistic. FRT is advocated by many scholars because it produces finite-sample exact p-values for any test statistic and can be easily adopted for any experimental design (Rosenberger et al., 2019; Proschan and Dodd, 2019; Young, 2019; Bind and Rubin, 2020). By inverting FRTs, we can construct the randomization-based confidence interval (RBCI). To the best of our knowledge, Zhu and Liu (2023) are the first to analytically invert the FRT for the difference-in-means statistic. Fiksel (2024) extended this analytical approach to the covariate-adjusted statistic, producing a monotonic p-value function under certain conditions. In this rejoinder, we propose an analytical approach to invert the FRT for test statistics that yield a non-monotonic p-value function, with the studentized t-statistic as an important special case. Exploiting our analytical approach, we can recover the non-monotonic p-value function and construct RBCI based on the studentized t-statistic. The RBCI generated by the proposed analytical approach is guaranteed to achieve the desired coverage probability and resolve the contradiction between Luo et al. (2021) and Wu and Ding (2021). Simulation results validate our findings and demonstrate that our method is also computationally efficient.

我们对Fiksel(2024)在基于随机推断领域的贡献表示赞赏,特别是他们关于反转Fisher随机化检验(FRT)以使用协变量调整后的测试统计量构建置信区间的工作。许多学者提倡使用FRT,因为它可以为任何测试统计量产生有限的精确p值,并且可以被任何实验设计轻松采用(Rosenberger等人,2019年;Proschan和Dodd,2019年;Young,2019年;Bind和Rubin,2020年)。通过反转FRT,我们可以构建基于随机化的置信区间(RBCI)。据我们所知,Zhu和Liu(2023)首次对均值差异统计量进行FRT的反转分析。Fiksel(2024)将这一分析方法扩展到协变量调整后的统计量,并在某些条件下产生单调的p值函数。在此回复中,我们提出了一种反转FRT的分析方法,该方法适用于产生非单调p值函数的测试统计量,学生化t统计量是一个重要的特殊情况。利用我们的分析方法,我们可以恢复非单调的p值函数,并基于学生化t统计量构建RBCI。由所提出的分析方法产生的RBCI可以保证达到所需的覆盖率并解决Luo等人(2021)与Wu和Ding(2021)之间的矛盾。仿真结果验证了我们的发现,并表明我们的方法在计算上也很高效。

论文及项目相关链接

PDF Published in Biometrics

摘要
基于Fiksel(2024)的贡献,本文对基于随机化推断的Fisher随机化检验(FRT)进行了深入分析。特别是将FRT反转来构建基于协变量的置信区间(RBCI)。对于产生非单调p值函数的检验统计量,本文提出了一种新的分析方法,并以studentized t统计量为例进行了深入探讨。新方法可以解决Luo等人(2021)与Wu和Ding(2021)之间的矛盾,并且得到了仿真结果的验证,其计算效率高。

关键见解

一、本文赞赏Fiksel(2024)对随机化推断中的Fisher随机化检验(FRT)的重要贡献,尤其是其在协变量调整统计量方面的扩展研究。
二、通过反转FRT,可以构建基于随机化的置信区间(RBCI)。
三、本文首次针对产生非单调p值函数的检验统计量提出了一种新的分析方法。该方法能够解决特定矛盾并验证计算效率。
四、本文利用这种新方法,特别是针对studentized t统计量进行深入研究,可以恢复非单调p值函数并构建相应的RBCI。
五、新方法所构建的RBCI能够保证达到所需的覆盖概率。
六、仿真结果验证了新方法的准确性和有效性。

Cool Papers

点此查看论文截图

Akan Cinematic Emotions (ACE): A Multimodal Multi-party Dataset for Emotion Recognition in Movie Dialogues

Authors:David Sasu, Zehui Wu, Ziwei Gong, Run Chen, Pengyuan Shi, Lin Ai, Julia Hirschberg, Natalie Schluter

In this paper, we introduce the Akan Conversation Emotion (ACE) dataset, the first multimodal emotion dialogue dataset for an African language, addressing the significant lack of resources for low-resource languages in emotion recognition research. ACE, developed for the Akan language, contains 385 emotion-labeled dialogues and 6,162 utterances across audio, visual, and textual modalities, along with word-level prosodic prominence annotations. The presence of prosodic labels in this dataset also makes it the first prosodically annotated African language dataset. We demonstrate the quality and utility of ACE through experiments using state-of-the-art emotion recognition methods, establishing solid baselines for future research. We hope ACE inspires further work on inclusive, linguistically and culturally diverse NLP resources.

在这篇论文中,我们介绍了Akan对话情感(ACE)数据集,这是针对非洲语言的首个多模态情感对话数据集,解决了情感识别研究中低资源语言资源匮乏的问题。ACE是为Akan语言开发的,包含385个情感标签对话和6162个音频、视觉和文本模态的陈述,还有词级韵律重点注释。该数据集中还包含韵律标签,使其成为第一个韵律注释的非洲语言数据集。我们通过使用最先进的情感识别方法进行实验,展示了ACE的质量和实用性,为未来的研究奠定了坚实的基准。我们希望ACE能激发对包容性、语言和文化多样化的自然语言处理资源的研究。

论文及项目相关链接

PDF

Summary

ACE数据集是首个针对非洲语言的多模态情感对话数据集,解决了情感识别研究中低资源语言的资源匮乏问题。该数据集为Akan语言开发,包含情感标签对话和单词级别的韵律强调注释。其质量及实用性通过实验验证,为未来研究提供了坚实的基准。

Key Takeaways

  1. ACE数据集是首个针对非洲语言的多模态情感对话数据集。
  2. ACE数据集解决了情感识别研究中低资源语言的资源缺乏问题。
  3. 数据集包含针对Akan语言的情感标签对话和单词级别的韵律强调注释。
  4. ACE数据集是首个包含韵律注释的非洲语言数据集。
  5. 通过实验验证了ACE数据集的质量和实用性。
  6. ACE数据集为未来研究提供了坚实的基准。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
Talking Head Generation Talking Head Generation
Talking Head Generation 方向最新论文已更新,请持续关注 Update in 2025-02-28 Talking to the brain Using Large Language Models as Proxies to Model Brain Semantic Representation
下一篇 
TTS TTS
TTS 方向最新论文已更新,请持续关注 Update in 2025-02-28 Sparse Brains are Also Adaptive Brains Cognitive-Load-Aware Dynamic Activation for LLMs
2025-02-28
  目录