⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-11-27 更新
Bridging the Language Gap: Synthetic Voice Diversity via Latent Mixup for Equitable Speech Recognition
Authors:Wesley Bian, Xiaofeng Lin, Guang Cheng
Modern machine learning models for audio tasks often exhibit superior performance on English and other well-resourced languages, primarily due to the abundance of available training data. This disparity leads to an unfair performance gap for low-resource languages, where data collection is both challenging and costly. In this work, we introduce a novel data augmentation technique for speech corpora designed to mitigate this gap. Through comprehensive experiments, we demonstrate that our method significantly improves the performance of automatic speech recognition systems on low-resource languages. Furthermore, we show that our approach outperforms existing augmentation strategies, offering a practical solution for enhancing speech technology in underrepresented linguistic communities.
针对音频任务的现代机器学习模型在英语和其他资源丰富语言上的表现通常较为出色,这主要得益于大量可用的训练数据。这种差异导致资源匮乏语言的性能存在不公平的差距,其中数据收集既具有挑战性又成本高昂。在这项工作中,我们介绍了一种针对语音语料库的新型数据增强技术,旨在缩小这一差距。通过综合实验,我们证明该方法在资源匮乏语言上显著提高自动语音识别系统的性能。此外,我们还证明我们的方法优于现有的增强策略,为增强代表性不足的语言社区的语音技术提供了实用解决方案。
论文及项目相关链接
PDF Accepted at ICML 2025 Workshop on Machine Learning for Audio
Summary:
在现代机器学习模型中,英语和其他资源丰富语言的音频任务性能通常较优越,这主要归因于大量可用的训练数据。然而,对于资源匮乏的语言,数据收集既具挑战性又成本高昂,导致性能上存在不公平的差距。本研究介绍了一种针对语音语料库的新型数据增强技术,旨在缩小这一差距。通过综合实验,我们证明该方法能显著提高低资源语言上的语音识别系统性能。此外,我们的方法优于现有增强策略,为增强欠代表性语言社区的语音技术提供了实用解决方案。
Key Takeaways:
- 现代机器学习模型在资源丰富语言的音频任务性能上表现较好,主要得益于大量的训练数据。
- 资源匮乏的语言在机器学习模型性能上存在不公平差距。
- 研究者提出了一种新型数据增强技术,旨在缩小低资源语言在语音识别系统性能上的差距。
- 该方法通过综合实验证明能显著提高低资源语言上的语音识别系统性能。
- 相比现有增强策略,该方法表现更优。
- 此技术为增强欠代表性语言社区的语音技术提供了实用解决方案。
点此查看论文截图
EM2LDL: A Multilingual Speech Corpus for Mixed Emotion Recognition through Label Distribution Learning
Authors:Xingfeng Li, Xiaohan Shi, Junjie Li, Yongwei Li, Masashi Unoki, Tomoki Toda, Masato Akagi
This study introduces EM2LDL, a novel multilingual speech corpus designed to advance mixed emotion recognition through label distribution learning. Addressing the limitations of predominantly monolingual and single-label emotion corpora \textcolor{black}{that restrict linguistic diversity, are unable to model mixed emotions, and lack ecological validity}, EM2LDL comprises expressive utterances in English, Mandarin, and Cantonese, capturing the intra-utterance code-switching prevalent in multilingual regions like Hong Kong and Macao. The corpus integrates spontaneous emotional expressions from online platforms, annotated with fine-grained emotion distributions across 32 categories. Experimental baselines using self-supervised learning models demonstrate robust performance in speaker-independent gender-, age-, and personality-based evaluations, with HuBERT-large-EN achieving optimal results. By incorporating linguistic diversity and ecological validity, EM2LDL enables the exploration of complex emotional dynamics in multilingual settings. This work provides a versatile testbed for developing adaptive, empathetic systems for applications in affective computing, including mental health monitoring and cross-cultural communication. The dataset, annotations, and baseline codes are publicly available at https://github.com/xingfengli/EM2LDL.
本研究介绍了EM2LDL,这是一个新的多语言语音语料库,旨在通过标签分布学习促进混合情绪识别的发展。针对主要是单语种和单标签情绪语料库的局限性,这些局限性限制了语言多样性,无法对混合情绪进行建模,并且缺乏生态效度。EM2LDL包含了英语、普通话和广东话的表达性话语,捕捉在香港和澳门等多语言地区普遍存在的句子内语言转换现象。该语料库集成了在线平台上的自发性情感表达,并附有32个类别的精细情绪分布注释。使用自监督学习模型进行的实验基线演示了在基于说话人的独立性别、年龄和个性的评估中的稳健性能,HuBERT-large-EN取得了最佳结果。通过融入语言多样性和生态效度,EM2LDL能够在多语言环境中探索复杂的情感动态。这项工作为情感计算应用提供了通用测试平台,包括心理健康监测和跨文化交流。数据集、注释和基线代码可在https://github.com/xingfengli/EM2LDL公开访问。
论文及项目相关链接
PDF Submitted to IEEE Transactions on Affective computing
Summary
本文介绍了EM2LDL这一新型多语言语音语料库,旨在通过标签分布学习推动混合情感识别的发展。该语料库解决了以单语种和单一标签为主的心理情绪语料库的局限性,这些局限性体现在语言多样性的限制、无法模拟混合情绪以及缺乏生态效度等方面。此外,它还包括英语、普通话和广东话的展示表达话语,捕获在香港和澳门等多语言区域流行的双语转换现象。该语料库整合了在线平台上的自发性情感表达,并按情感分布进行了精细分类标注。使用自监督学习模型的实验基线展示其在独立于说话人的性别、年龄和性格评估中的稳健性能,HuBERT-large-EN模型表现最优。通过结合语言多样性和生态效度,EM2LDL能够在多语言环境中探索复杂的情感动态,为情感计算领域的发展提供了宝贵的测试平台,如心理健康监测和跨文化沟通等应用。数据集、注释和基线代码均可在公开链接找到。
Key Takeaways
- EM2LDL是一个新型的多语言语音语料库,旨在推进混合情感识别。
- 它解决了现有情绪语料库的局限性,包括语言多样性不足、无法模拟混合情绪以及缺乏生态效度等问题。
- EM2LDL包含英语、普通话和广东话的表达话语,反映了多语言环境中的双语转换现象。
- 整合了在线平台的自发性情感表达,按情感分布进行精细分类标注。
- 实验基线表明自监督学习模型在独立于说话人的性别、年龄和性格评估中表现稳健。
- HuBERT-large-EN模型在实验中表现最优。
点此查看论文截图
Ming-Flash-Omni: A Sparse, Unified Architecture for Multimodal Perception and Generation
Authors:Inclusion AI, :, Bowen Ma, Cheng Zou, Canxiang Yan, Chunxiang Jin, Chunjie Shen, Chenyu Lian, Dandan Zheng, Fudong Wang, Furong Xu, GuangMing Yao, Jun Zhou, Jingdong Chen, Jianing Li, Jianxin Sun, Jiajia Liu, Jian Sha, Jianjiang Zhu, Jianping Jiang, Jun Peng, Kaixiang Ji, Kaimeng Ren, Libin Wang, Lixiang Ru, Longhua Tan, Lu Ma, Lan Wang, Mochen Bai, Ning Gao, Qingpei Guo, Qinglong Zhang, Qiang Xu, Rui Liu, Ruijie Xiong, Ruobing Zheng, Sirui Gao, Tao Zhang, Tianqi Li, Tinghao Liu, Weilong Chai, Xinyu Xiao, Xiaomei Wang, Xiaolong Wang, Xiao Lu, Xiaoyu Li, Xingning Dong, Xuzheng Yu, Yi Yuan, Yuting Gao, Yuting Xiao, Yunxiao Sun, Yipeng Chen, Yifan Mao, Yifei Wu, Yongjie Lyu, Ziping Ma, Zhiqiang Fang, Zhihao Qiu, Ziyuan Huang, Zizheng Yang, Zhengyu He
We propose Ming-Flash-Omni, an upgraded version of Ming-Omni, built upon a sparser Mixture-of-Experts (MoE) variant of Ling-Flash-2.0 with 100 billion total parameters, of which only 6.1 billion are active per token. This architecture enables highly efficient scaling (dramatically improving computational efficiency while significantly expanding model capacity) and empowers stronger unified multimodal intelligence across vision, speech, and language, representing a key step toward Artificial General Intelligence (AGI). Compared to its predecessor, the upgraded version exhibits substantial improvements across multimodal understanding and generation. We significantly advance speech recognition capabilities, achieving state-of-the-art performance in contextual ASR and highly competitive results in dialect-aware ASR. In image generation, Ming-Flash-Omni introduces high-fidelity text rendering and demonstrates marked gains in scene consistency and identity preservation during image editing. Furthermore, Ming-Flash-Omni introduces generative segmentation, a capability that not only achieves strong standalone segmentation performance but also enhances spatial control in image generation and improves editing consistency. Notably, Ming-Flash-Omni achieves state-of-the-art results in text-to-image generation and generative segmentation, and sets new records on all 12 contextual ASR benchmarks, all within a single unified architecture.
我们提出了Ming-Flash-Omni,它是Ming-Omni的升级版,建立在更稀疏的专家混合(MoE)变体Ling-Flash-2.0之上,总参数达100亿,其中每令牌仅活跃6.1亿个参数。这种架构实现了高效扩展(在大幅提高计算效率的同时显著扩大了模型容量),并在视觉、语音和语言的跨模态智能中赋予了更强的统一能力,朝着通用人工智能(AGI)迈出了关键一步。与前代产品相比,升级版在跨模态理解和生成方面取得了显著进步。我们显著提高了语音识别能力,在上下文ASR中实现了最新性能,并在方言感知ASR中取得了具有竞争力的结果。在图像生成方面,Ming-Flash-Omni引入了高保真文本渲染,并在场景一致性和身份保留的图像编辑过程中取得了显著进展。此外,Ming-Flash-Omni引入了生成分割功能,不仅实现了强大的独立分割性能,还提高了图像生成中的空间控制并改善了编辑一致性。值得注意的是,Ming-Flash-Omni在文本到图像生成和生成分割方面取得了最新结果,并在所有12个上下文ASR基准测试中创造了新纪录,所有这些都在一个统一的架构内完成。
论文及项目相关链接
PDF 18 pages, 5 figures
Summary
明闪全景(Ming-Flash-Omni)是明全景(Ming-Omni)的升级版,基于稀疏的专家混合(MoE)架构的灵闪2.0(Ling-Flash-2.0),总参数达千亿,每令牌仅活跃6.1亿参数。此架构实现了高效扩展(在提升计算效率的同时大幅扩展模型容量),并增强了跨视觉、语音和语言的统一多模态智能,迈出了通往人工智能通用智能(AGI)的关键一步。相比其前身,升级版在跨模态理解和生成方面取得了显著进步,在上下文自动语音识别(ASR)方面达到了最先进的性能,并在方言感知ASR方面取得了有竞争力的结果。在图像生成方面,明闪全景引入了高保真文本渲染,并在场景一致性和身份保留编辑方面取得了显著进步。此外,明闪全景引入了生成分割功能,不仅实现了强大的独立分割性能,还提高了图像生成的空间控制力和编辑一致性。
Key Takeaways
- 明闪全景(Ming-Flash-Omni)是明全景的升级版,基于稀疏的MoE架构。
- 该架构实现了高效扩展,提升了跨视觉、语音和语言的统一多模态智能。
- 相比前身,升级版在跨模态理解和生成方面有明显提升。
- 在上下文ASR和方言感知ASR方面达到了先进和具有竞争力的性能。
- 明闪全景在图像生成方面引入了高保真文本渲染,提升了场景一致性和身份保留编辑。
- 明闪全景引入了生成分割功能,增强了图像生成的空间控制力和编辑一致性。