⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-11-16 更新
Speech-Audio Compositional Attacks on Multimodal LLMs and Their Mitigation with SALMONN-Guard
Authors:Yudong Yang, Xuezhen Zhang, Zhifeng Han, Siyin Wang, Jimin Zhuang, Zengrui Jin, Jing Shao, Guangzhi Sun, Chao Zhang
Recent progress in large language models (LLMs) has enabled understanding of both speech and non-speech audio, but exposing new safety risks emerging from complex audio inputs that are inadequately handled by current safeguards. We introduce SACRED-Bench (Speech-Audio Composition for RED-teaming) to evaluate the robustness of LLMs under complex audio-based attacks. Unlike existing perturbation-based methods that rely on noise optimization or white-box access, SACRED-Bench exploits speech-audio composition mechanisms. SACRED-Bench adopts three mechanisms: (a) speech overlap and multi-speaker dialogue, which embeds harmful prompts beneath or alongside benign speech; (b) speech-audio mixture, which imply unsafe intent via non-speech audio alongside benign speech or audio; and (c) diverse spoken instruction formats (open-ended QA, yes/no) that evade text-only filters. Experiments show that, even Gemini 2.5 Pro, the state-of-the-art proprietary LLM, still exhibits 66% attack success rate in SACRED-Bench test set, exposing vulnerabilities under cross-modal, speech-audio composition attacks. To bridge this gap, we propose SALMONN-Guard, a safeguard LLM that jointly inspects speech, audio, and text for safety judgments, reducing attack success down to 20%. Our results highlight the need for audio-aware defenses for the safety of multimodal LLMs. The benchmark and SALMONN-Guard checkpoints can be found at https://huggingface.co/datasets/tsinghua-ee/SACRED-Bench. Warning: this paper includes examples that may be offensive or harmful.
近期大型语言模型(LLM)的进步使得理解和处理语音和非语音音频成为可能,但同时也暴露出当前保障措施对复杂音频输入处理不当所带来的新安全风险。我们推出SACRED-Bench(用于红队团队的语音音频组合评估),以评估复杂音频攻击下LLM的稳健性。不同于现有的基于扰动的方法,这些方法依赖于噪声优化或白盒访问,SACRED-Bench利用语音音频组合机制。SACRED-Bench采用三种机制:(a)语音重叠和多人对话,在良性语音下方或旁边嵌入有害提示;(b)语音音频混合,通过非语音音频和良性语音或音频暗示不安全意图;(c)多样的口语指令格式(开放式问答、是非题),以避开仅文本过滤器。实验表明,即使是目前最先进的专有LLM——Gemini 2.5 Pro,在SACRED-Bench测试集中攻击成功率仍高达66%,显示出在跨模态语音音频组合攻击下的漏洞。为了弥补这一差距,我们提出SALMONN-Guard,一种安全保护LLM,它联合检查语音、音频和文本以进行安全判断,将攻击成功率降低至20%。我们的研究结果强调了为多媒体LLM的安全意识防御的需求。该基准测试和SALMONN-Guard检查点可在https://huggingface.co/datasets/tsinghua-ee/SACRED-Bench 找到。警告:本论文包含可能具有冒犯性或有害的示例。
论文及项目相关链接
摘要
随着大型语言模型(LLM)的进步,对语音和非语音音频的理解能力得到提升,但同时也暴露出由复杂音频输入带来的新安全威胁。我们推出SACRED-Bench基准测试平台,用以评估LLM在复杂音频攻击下的稳健性。SACRED-Bench采用三种机制:语音重叠和多人对话、语音音频混合以及多样的口语指令格式,能够在良性语音或音频中隐含不安全意图。实验显示,即使是最先进的开源LLM——Gemini 2.5 Pro,在SACRED-Bench测试集上的攻击成功率仍高达66%,凸显出在跨模态、语音音频组合攻击下的漏洞。为解决这一问题,我们提出SALMONN-Guard安全保护方案,通过联合检查语音、音频和文本进行安全判断,成功将攻击率降至20%。结果强调了对多模式LLM的音频感知防御需求。SACRED-Bench基准测试和SALMONN-Guard检查点可在链接中找到:https://huggingface.co/datasets/tsinghua-ee/SACRED-Bench。请注意,本文包含可能具有冒犯性或有害性的示例。
关键见解
- 大型语言模型(LLMs)能够理解语音和非语音音频,但面临新的安全威胁。
- SACRED-Bench采用独特的机制评估LLM在复杂音频攻击下的稳健性。
- SACRED-Bench通过语音重叠、语音音频混合和多样的口语指令格式来模拟潜在的安全威胁。
- 最先进的LLM在SACRED-Bench测试集上的攻击成功率高达66%,显示存在显著漏洞。
- SALMONN-Guard作为安全保护方案,通过联合检查语音、音频和文本进行安全判断,成功降低攻击率至20%。
- 结果强调了对多模式LLM的音频感知防御需求。
点此查看论文截图
FabasedVC: Enhancing Voice Conversion with Text Modality Fusion and Phoneme-Level SSL Features
Authors:Wenyu Wang, Zhetao Hu, Yiquan Zhou, Jiacheng Xu, Zhiyu Wu, Chen Li, Shihao Li
In voice conversion (VC), it is crucial to preserve complete semantic information while accurately modeling the target speaker’s timbre and prosody. This paper proposes FabasedVC to achieve VC with enhanced similarity in timbre, prosody, and duration to the target speaker, as well as improved content integrity. It is an end-to-end VITS-based VC system that integrates relevant textual modality information, phoneme-level self-supervised learning (SSL) features, and a duration predictor. Specifically, we employ a text feature encoder to encode attributes such as text, phonemes, tones and BERT features. We then process the frame-level SSL features into phoneme-level features using two methods: average pooling and attention mechanism based on each phoneme’s duration. Moreover, a duration predictor is incorporated to better align the speech rate and prosody of the target speaker. Experimental results demonstrate that our method outperforms competing systems in terms of naturalness, similarity, and content integrity.
在语音转换(VC)中,保留完整的语义信息,同时准确建模目标说话者的音色和语调至关重要。本文提出了FabasedVC,以实现VC,在音色、语调和持续时间方面与目标说话者具有更高的相似性,并提高内容完整性。这是一个基于VITS端到端的VC系统,它集成了相关的文本模式信息、音素级别的自监督学习(SSL)特征和持续时间预测器。具体来说,我们采用文本特征编码器对文本、音素、音调和BERT特征等进行编码。然后,我们通过两种方法将帧级别的SSL特征处理为音素级别的特征:平均池化和基于每个音素的持续时间的注意力机制。此外,还结合了持续时间预测器,以更好地对齐目标说话者的语速和语调。实验结果表明,我们的方法在自然度、相似度和内容完整性方面优于竞争系统。
论文及项目相关链接
PDF Accepted by ACMMM-Asia 2025
摘要
本论文提出了一种名为FabasedVC的语音转换系统,该系统能够在进行语音转换时增强目标说话人的音色、语调及时长的相似性,并改善内容完整性。这是一个基于VITS的端到端系统,集成了文本模态信息、基于音素级别的自监督学习特征和时长预测器。我们利用文本特征编码器编码文本、音素、音调以及BERT特征等属性。随后,我们采用两种将帧级别的SSL特征转换为音素级别特征的方法:平均池化和基于每个音素时长的注意力机制。此外,我们还加入了一个时长预测器以更好地匹配目标说话人的语速和语调。实验结果表明,我们的方法在自然度、相似性和内容完整性方面均优于其他系统。
关键见解
- FabasedVC是一个端到端的语音转换系统,旨在增强目标说话人的音色、语调及时长的相似性,并改善内容完整性。
- 系统集成了文本模态信息,包括文本、音素、音调和BERT特征等。
- 采用两种将帧级别的自监督学习特征转换为音素级别特征的方法:平均池化和注意力机制。
- 注意力机制是基于每个音素时长的,以更准确地捕捉语音特征。
- 系统中加入了一个时长预测器,以匹配目标说话人的语速和语调。
- 实验结果表明,FabasedVC在自然度、相似性和内容完整性方面较其他系统有优异表现。
- 该系统为语音转换领域提供了一种新的有效方法。
点此查看论文截图
Time-Layer Adaptive Alignment for Speaker Similarity in Flow-Matching Based Zero-Shot TTS
Authors:Haoyu Li, Mingyang Han, Yu Xi, Dongxiao Wang, Hankun Wang, Haoxiang Shi, Boyu Li, Jun Song, Bo Zheng, Shuai Wang
Flow-Matching (FM)-based zero-shot text-to-speech (TTS) systems exhibit high-quality speech synthesis and robust generalization capabilities. However, the speaker representation ability of such systems remains underexplored, primarily due to the lack of explicit speaker-specific supervision in the FM framework. To this end, we conduct an empirical analysis of speaker information distribution and reveal its non-uniform allocation across time steps and network layers, underscoring the need for adaptive speaker alignment. Accordingly, we propose Time-Layer Adaptive Speaker Alignment (TLA-SA), a loss that enhances speaker consistency by jointly leveraging temporal and hierarchical variations in speaker information. Experimental results show that TLA-SA significantly improves speaker similarity compared to baseline systems on both research- and industrial-scale datasets and generalizes effectively across diverse model architectures, including decoder-only language models (LM) and FM-based TTS systems free of LM.
基于流匹配(FM)的零样本文本到语音(TTS)系统展现出高质量的语音合成和稳健的泛化能力。然而,此类系统的说话人表示能力仍然未被充分探索,这主要是因为FM框架中缺乏明确的说话人特定监督。为此,我们对说话人信息分布进行了实证分析,并揭示了其在时间步和网络层之间的非均匀分配,这强调了自适应说话人对齐的需要。因此,我们提出了时间层自适应说话人对齐(TLA-SA)方法,这是一种损失函数,它通过联合利用说话人信息中的时间和层次变化,提高说话人的一致性。实验结果表明,与基准系统相比,TLA-SA在研究和工业规模的数据集上显著提高说话人相似性,并且在不同的模型架构中都能有效泛化,包括仅解码器语言模型(LM)和基于FM的TTS系统等脱离LM的系统。
论文及项目相关链接
PDF Submitted to ICASSP 2026
总结
基于流匹配(FM)的零样本文本转语音(TTS)系统展现出高质量的语音合成和稳健的泛化能力。然而,该系统的说话人表征能力尚未得到充分探索,这主要是因为FM框架中缺乏明确的说话人特定监督。为此,我们进行了实证的说话人信息分布分析,揭示了其在时间步和网络层之间的非均匀分配,强调了自适应说话人对齐的必要性。因此,我们提出了时间层自适应说话人对齐(TLA-SA)损失函数,通过联合利用说话人信息的时态和层次变化,提高说话人一致性。实验结果表明,与基线系统相比,TLA-SA在研究和工业规模数据集上的说话人相似性显著提高,且在多种模型架构中表现有效,包括无语言模型(LM)的解码器仅语言模型和FM-based TTS系统。
关键见解
- 基于流匹配(FM)的TTS系统虽具有高质量的语音合成和泛化能力,但说话人表征能力尚未充分探索。
- 说话人信息在时间和网络层上的分布不均,需要自适应的说话人对齐。
- 提出了时间层自适应说话人对齐(TLA-SA)损失函数,该损失函数通过结合时空和层次变化来提高说话人一致性。
- TLA-SA在研究和工业规模数据集上显著提高说话人相似性。
- TLA-SA在各种模型架构中表现有效,包括无语言模型的解码器及FM-based TTS系统。
- 该方法强调了自适应说话人对齐在提升TTS系统说话人表征能力中的重要性。
点此查看论文截图
POTSA: A Cross-Lingual Speech Alignment Framework for Low Resource Speech-to-Text Translation
Authors:Xuanchen Li, Chenrui Cui, Tianrui Wang, Meng Ge, Zikang Huang, Jin Li, Yizhou Peng, Longbiao Wang, Jianwu Dang, Nyima Tashi
Speech Large Language Models (SpeechLLMs) have achieved breakthroughs in multilingual speech-to-text translation (S2TT). However, existing approaches often overlook semantic commonalities across source languages, leading to biased translation performance. In this work, we propose \textbf{POTSA} (Parallel Optimal Transport for Speech Alignment), a new framework based on cross-lingual parallel speech pairs and Optimal Transport (OT), designed to bridge high- and low-resource translation gaps. First, we introduce a Bias Compensation module to coarsely align initial speech representations across languages. Second, we impose token-level OT constraints on a Q-Former using parallel speech pairs to establish fine-grained consistency of representations. Then, we apply a layer scheduling strategy to focus OT constraints on the most semantically beneficial layers. Experiments on the FLEURS dataset show that our method achieves SOTA performance, with +0.93 BLEU on average over five common languages and +5.05 BLEU on zero-shot languages, using only 10 hours of parallel speech per source language.
语音大语言模型(SpeechLLMs)在多语种语音到文本的翻译(S2TT)方面取得了突破。然而,现有方法往往忽视了源语言之间的语义共性,导致翻译性能存在偏见。在这项工作中,我们提出了基于跨语言平行语音对和最优传输(OT)的POTSA(并行最优传输语音对齐)新框架,旨在弥高资源和低资源翻译之间的差距。首先,我们引入了一个偏见补偿模块,粗略地对跨语言的初始语音表示进行对齐。其次,我们对使用平行语音对的Q-Former施加token级别的OT约束,以建立表示的精粒度一致性。然后,我们应用层调度策略,将OT约束集中在语义上最有益的图层上。在FLEURS数据集上的实验表明,我们的方法达到了最先进的性能,在五种常见语言上平均提高了+0.93个BLEU分,在零样本语言上提高了+5.05个BLEU分,且仅使用每源语言10小时的平行语音数据。
论文及项目相关链接
PDF 5 pages, 3 figures, submitted to ICASSP 2026
Summary
本文介绍了针对多语言语音到文本翻译(S2TT)领域存在的问题,提出了一种基于跨语言平行语音对和最优传输(OT)的新框架POTSA。该框架旨在解决高资源和低资源翻译之间的差距,通过引入偏差补偿模块进行初步语音表示对齐,在Q-Former上施加基于平行语音对的标记级OT约束,并建立精细表示一致性。实验表明,该方法在FLEURS数据集上达到了最先进性能,五种常见语言的BLEU得分平均提高+0.93,零镜头语言提高+5.05 BLEU。
Key Takeaways
- Speech Large Language Models (SpeechLLMs) 在多语言语音到文本翻译 (S2TT) 取得突破。
- 现有方法忽略源语言间的语义共性,导致翻译性能偏差。
- 提出的 POTSA 框架基于跨语言平行语音对和最优传输 (OT),旨在缩小高、低资源翻译差距。
- POTSA 引入偏差补偿模块进行初步语音表示对齐。
- 使用平行语音对在 Q-Former 上施加标记级 OT 约束,实现精细表示一致性。
- 采用层调度策略,将 OT 约束集中在语义上最有益的图层。
点此查看论文截图
ParliaBench: An Evaluation and Benchmarking Framework for LLM-Generated Parliamentary Speech
Authors:Marios Koniaris, Argyro Tsipi, Panayiotis Tsanakas
Parliamentary speech generation presents specific challenges for large language models beyond standard text generation tasks. Unlike general text generation, parliamentary speeches require not only linguistic quality but also political authenticity and ideological consistency. Current language models lack specialized training for parliamentary contexts, and existing evaluation methods focus on standard NLP metrics rather than political authenticity. To address this, we present ParliaBench, a benchmark for parliamentary speech generation. We constructed a dataset of speeches from UK Parliament to enable systematic model training. We introduce an evaluation framework combining computational metrics with LLM-as-a-judge assessments for measuring generation quality across three dimensions: linguistic quality, semantic coherence, and political authenticity. We propose two novel embedding-based metrics, Political Spectrum Alignment and Party Alignment, to quantify ideological positioning. We fine-tuned five large language models (LLMs), generated 28k speeches, and evaluated them using our framework, comparing baseline and fine-tuned models. Results show that fine-tuning produces statistically significant improvements across the majority of metrics and our novel metrics demonstrate strong discriminative power for political dimensions.
议会演讲生成对大型语言模型提出了超越标准文本生成任务的特定挑战。不同于一般的文本生成,议会演讲不仅需要语言质量,还需要政治真实性和思想一致性。当前的语言模型缺乏针对议会情境的专门训练,现有的评估方法侧重于标准NLP指标,而非政治真实性。为了解决这一问题,我们提出了ParliaBench,一个用于议会演讲生成的基准测试。我们构建了英国议会演讲数据集,以进行系统化的模型训练。我们引入了一个评估框架,结合计算指标和大型语言模型(LLM)作为法官的评估,来衡量三个维度上的生成质量:语言质量、语义连贯性和政治真实性。我们提出了两种基于嵌入的新指标,即政治光谱对齐和政党对齐,来量化意识形态定位。我们对五种大型语言模型(LLMs)进行了微调,生成了2.8万篇演讲,并使用我们的框架进行了评估,比较了基准模型和微调模型。结果表明,微调在大多数指标上产生了统计学上的显著改善,我们提出的新指标在政治维度上表现出了很强的辨别力。
论文及项目相关链接
Summary
议会演讲生成对大型语言模型提出了特定挑战,除了标准文本生成任务外,还需要政治真实性和意识形态一致性。当前的语言模型缺乏议会语境的专门训练,现有评估方法侧重于标准NLP指标而非政治真实性。为解决这一问题,我们推出了ParliaBench议会演讲生成基准测试。我们使用英国议会演讲数据集进行系统模型训练。我们结合计算指标与大型语言模型评估方法,从语言质量、语义连贯性和政治真实性三个维度对生成质量进行评估。我们提出两种基于嵌入的新型指标——政治光谱对齐和政党对齐,以量化意识形态定位。通过对五种大型语言模型进行微调并生成2.8万篇演讲进行评估,结果显示微调在大多数指标上产生了统计学上的显著改进,我们提出的新型指标在衡量政治维度方面表现出很强的辨别力。
Key Takeaways
- 议会演讲生成对大型语言模型有特定挑战,需兼顾语言质量、政治真实性和意识形态一致性。
- 当前语言模型缺乏议会语境的专门训练。
- 现有评估方法主要侧重于标准NLP指标,需考虑政治真实性。
- 推出ParliaBench基准测试,使用英国议会演讲数据集进行系统模型训练。
- 评估框架结合了计算指标和大型语言模型评估方法,涵盖语言质量、语义连贯性和政治真实性三个维度。
- 提出两种新型嵌入指标——政治光谱对齐和政党对齐,以量化意识形态定位。
点此查看论文截图
State of the Art in Text Classification for South Slavic Languages: Fine-Tuning or Prompting?
Authors:Taja Kuzman Pungeršek, Peter Rupnik, Ivan Porupski, Vuk Dinić, Nikola Ljubešić
Until recently, fine-tuned BERT-like models provided state-of-the-art performance on text classification tasks. With the rise of instruction-tuned decoder-only models, commonly known as large language models (LLMs), the field has increasingly moved toward zero-shot and few-shot prompting. However, the performance of LLMs on text classification, particularly on less-resourced languages, remains under-explored. In this paper, we evaluate the performance of current language models on text classification tasks across several South Slavic languages. We compare openly available fine-tuned BERT-like models with a selection of open-source and closed-source LLMs across three tasks in three domains: sentiment classification in parliamentary speeches, topic classification in news articles and parliamentary speeches, and genre identification in web texts. Our results show that LLMs demonstrate strong zero-shot performance, often matching or surpassing fine-tuned BERT-like models. Moreover, when used in a zero-shot setup, LLMs perform comparably in South Slavic languages and English. However, we also point out key drawbacks of LLMs, including less predictable outputs, significantly slower inference, and higher computational costs. Due to these limitations, fine-tuned BERT-like models remain a more practical choice for large-scale automatic text annotation.
直到最近,经过精细调整的BERT类模型在文本分类任务上表现出最先进的性能。随着指令微调解码器模型(也称为大型语言模型LLM)的兴起,该领域越来越倾向于零样本和少样本提示。然而,LLM在文本分类上的表现,特别是在资源较少的语言上,仍然被探索得不够充分。在本文中,我们评估了当前的语言模型在多种南斯拉夫语言上的文本分类任务性能。我们将公开可用的经过精细调整的BERT类模型与一系列开源和闭源的大型语言模型进行了比较,跨越了三个领域的三个任务:议会演讲的情感分类、新闻文章和议会演讲的主题分类以及网络文本的体裁识别。我们的结果表明,大型语言模型表现出强大的零样本性能,通常与经过精细调整的BERT类模型相匹配甚至超越。此外,在零样本设置下,大型语言模型在南斯拉夫语言和英语中的表现相当。然而,我们也指出了大型语言模型的主要缺点,包括输出更不可预测、推理速度明显较慢和计算成本较高。由于这些局限性,经过精细调整的BERT类模型在大规模自动文本标注方面仍然是更实用的选择。
论文及项目相关链接
PDF 16 pages; 4 figures; 3 tables. Submitted to the LREC 2026 conference
Summary
大型语言模型(LLMs)在文本分类任务上表现出强大的零样本性能,有时能匹配甚至超越微调过的BERT类似模型。然而,LLMs在资源较少的语言上的表现尚待探索。本文评估了当前语言模型在南斯拉夫语言系列上的文本分类任务性能,结果显示LLMs的零样本性能强劲,但存在输出不可预测、推理速度慢和计算成本高等缺点。
Key Takeaways
- 大型语言模型(LLMs)在文本分类任务上表现出强大的零样本和少样本性能。
- LLMs在南斯拉夫语言系列上的表现与英语相当。
- LLMs在某些任务上的性能可匹配或超越微调过的BERT类似模型。
- LLMs的输出较不可预测。
- LLMs的推理速度较慢,计算成本较高。
- 相较于LLMs,微调过的BERT类似模型在大规模自动文本标注中更为实用。
点此查看论文截图
SynTTS-Commands: A Public Dataset for On-Device KWS via TTS-Synthesized Multilingual Speech
Authors:Lu Gan, Xi Li
The development of high-performance, on-device keyword spotting (KWS) systems for ultra-low-power hardware is critically constrained by the scarcity of specialized, multi-command training datasets. Traditional data collection through human recording is costly, slow, and lacks scalability. This paper introduces SYNTTS-COMMANDS, a novel, multilingual voice command dataset entirely generated using state-of-the-art Text-to-Speech (TTS) synthesis. By leveraging the CosyVoice 2 model and speaker embeddings from public corpora, we created a scalable collection of English and Chinese commands. Extensive benchmarking across a range of efficient acoustic models demonstrates that our synthetic dataset enables exceptional accuracy, achieving up to 99.5% on English and 98% on Chinese command recognition. These results robustly validate that synthetic speech can effectively replace human-recorded audio for training KWS classifiers. Our work directly addresses the data bottleneck in TinyML, providing a practical, scalable foundation for building private, low-latency, and energy-efficient voice interfaces on resource-constrained edge devices.
高性能的端设备关键词识别(KWS)系统在超低功耗硬件上的开发受到专业化多指令训练数据集稀缺的严重制约。传统的通过人工录音的数据收集方式成本高、速度慢且缺乏可扩展性。本文介绍了SYNTTS-COMMANDS,这是一种全新的多语种语音指令数据集,完全使用最先进的文本-语音(TTS)合成技术生成。我们借助CosyVoice 2模型和公共语料库的说话人嵌入技术,创建了一个可扩展的英语和中文指令集合。在一系列高效的声学模型上的广泛基准测试表明,我们的合成数据集能够实现出色的准确性,英语命令识别率高达99.5%,中文命令识别率达98%。这些结果稳健地验证了合成语音可以有效地替代人工录音的音频,用于训练KWS分类器。我们的工作直接解决了TinyML中的数据瓶颈问题,为在资源受限的边缘设备上构建私有、低延迟和节能的语音接口提供了实用且可扩展的基础。
论文及项目相关链接
Summary
本文提出使用最新文本转语音(TTS)合成技术创建的多语种语音命令数据集SYNTTS-COMMANDS。通过利用CosyVoice 2模型和公开语料库中的说话人嵌入,成功生成了英语和中文命令的可扩展数据集。实验表明,该合成数据集在高效声学模型上的表现优异,英语命令识别率高达99.5%,中文达98%。结果证实,合成语音可有效替代人类录制的音频,用于训练关键词识别分类器。该研究解决了TinyML中的数据瓶颈问题,为在资源受限的边缘设备上构建私密、低延迟和节能的语音接口提供了实用且可扩展的基础。
Key Takeaways
- SYNTTS-COMMANDS是一个全新的多语种语音命令数据集,完全由先进的文本转语音(TTS)技术生成。
- 该数据集包含英语和中文命令,解决了特定命令训练数据集稀缺的问题。
- 通过利用CosyVoice 2模型和公开语料库,实现了数据集的创建,使其具有可扩展性。
- 实验表明,该合成数据集在声学模型上的表现优秀,英语和中文命令识别率分别高达99.5%和98%。
- 合成语音可以有效地替代人类录制的音频,用于训练关键词识别分类器。
- 该研究解决了TinyML中的数据瓶颈问题,为在资源受限的边缘设备上构建语音接口提供了基础。
点此查看论文截图
E2E-VGuard: Adversarial Prevention for Production LLM-based End-To-End Speech Synthesis
Authors:Zhisheng Zhang, Derui Wang, Yifan Mi, Zhiyong Wu, Jie Gao, Yuxin Cao, Kai Ye, Minhui Xue, Jie Hao
Recent advancements in speech synthesis technology have enriched our daily lives, with high-quality and human-like audio widely adopted across real-world applications. However, malicious exploitation like voice-cloning fraud poses severe security risks. Existing defense techniques struggle to address the production large language model (LLM)-based speech synthesis. While previous studies have considered the protection for fine-tuning synthesizers, they assume manually annotated transcripts. Given the labor intensity of manual annotation, end-to-end (E2E) systems leveraging automatic speech recognition (ASR) to generate transcripts are becoming increasingly prevalent, e.g., voice cloning via commercial APIs. Therefore, this E2E speech synthesis also requires new security mechanisms. To tackle these challenges, we propose E2E-VGuard, a proactive defense framework for two emerging threats: (1) production LLM-based speech synthesis, and (2) the novel attack arising from ASR-driven E2E scenarios. Specifically, we employ the encoder ensemble with a feature extractor to protect timbre, while ASR-targeted adversarial examples disrupt pronunciation. Moreover, we incorporate the psychoacoustic model to ensure perturbative imperceptibility. For a comprehensive evaluation, we test 16 open-source synthesizers and 3 commercial APIs across Chinese and English datasets, confirming E2E-VGuard’s effectiveness in timbre and pronunciation protection. Real-world deployment validation is also conducted. Our code and demo page are available at https://wxzyd123.github.io/e2e-vguard/.
近期语音合成技术的进展丰富了我们的日常生活,高质量、人性化的音频已在现实应用中得到广泛采用。然而,诸如语音克隆欺诈等恶意利用行为带来了严重的安全风险。现有的防御技术很难应对基于大型语言模型(LLM)的语音合成。虽然之前的研究已经考虑了合成器的保护,但它们假设了手动标注的文本。考虑到手动标注的劳动密集度,利用自动语音识别(ASR)生成文本的端到端(E2E)系统变得越来越普遍,例如通过商业API进行语音克隆。因此,这种端到端的语音合成也需要新的安全机制。为了应对这些挑战,我们提出了E2E-VGuard,这是一个针对两个新兴威胁的主动防御框架:(1)基于生产LLM的语音合成,(2)由ASR驱动E2E场景产生的新型攻击。具体来说,我们采用编码器集合和特征提取器来保护音色,同时针对ASR的对抗性示例会破坏发音。此外,我们结合了心理声学模型来确保扰动的不易察觉性。为了全面评估,我们测试了16个开源合成器和3个商业API的中文和英文数据集,证实了E2E-VGuard在音色和发音保护方面的有效性。还进行了现实世界的部署验证。我们的代码和演示页面可访问:https://wxzyd123.github.io/e2e-vguard/。
论文及项目相关链接
PDF Accepted to NeurIPS 2025
Summary
本文介绍了近期语音合成技术的进展及其在日常生活中的广泛应用,同时也指出了恶意利用如语音克隆欺诈等带来的严重安全风险。现有防御技术难以应对基于大型语言模型(LLM)的语音合成。针对这一问题,本文提出了一种名为E2E-VGuard的主动防御框架,旨在应对两大新兴威胁:基于LLM的语音合成和自动语音识别(ASR)驱动的端到端场景的新型攻击。该框架采用编码器集合并结合特征提取器来保护音色,同时通过针对ASR的对抗性例子来干扰发音。同时,还结合了心理声学模型确保扰动的不易察觉性。实验结果表明,该框架对中文和英文数据集进行了广泛验证,能有效保护音色和发音。相关代码和演示页面已公开。
Key Takeaways
- 近期语音合成技术发展迅速,但恶意利用如语音克隆欺诈带来了安全风险。
- 现有防御技术难以应对基于大型语言模型的语音合成和端到端场景的威胁。
- E2E-VGuard是一种主动防御框架,旨在应对这两大新兴威胁。
- E2E-VGuard采用编码器集合并结合特征提取器保护音色,通过对抗性例子干扰发音。
- 心理声学模型被用于确保扰动的不易察觉性。
- 在中文和英文数据集上的实验验证了E2E-VGuard的有效性。
点此查看论文截图
A catalog of new blue stragglers in open clusters with Gaia DR3
Authors:Songmei Qin, Jing Zhong, Friedrich Anders, Lola Balaguer-Núñez, Chunyan Li, Yueyue Jiang, Guimei Liu, Tong Tang, Li Chen
The high-precision {\it Gaia} data release 3 (DR3) enables the discovery of numerous open clusters in the Milky Way, providing an excellent opportunity to search for blue straggler stars in open clusters and investigate their formation and evolution in these environments. Using the member stars from literature open cluster catalogs, we visually inspected the color-magnitude diagram (CMD) of each cluster and selected cluster candidates that potentially host blue stragglers. We then reassessed cluster memberships using the {\tt pyUPMASK} algorithm with {\it Gaia} DR3 and performed isochrone fitting to derive physical parameters for each cluster, including age, distance modulus, mean reddening, and metallicity. Finally, we empirically identified straggler stars based on their positions relative to the best-fitting isochrone, zero-age main sequence (ZAMS), and equal-mass binary sequence on the CMD. In total, we identified 272 new straggler stars in 99 open clusters, comprising 153 blue stragglers, 98 probable blue stragglers, and 21 yellow stragglers. Compared to the reported blue straggler catalogs based on earlier {\it Gaia} data, our results increase the number of open clusters with stragglers in the Milky Way by 22.2%, and the total number of blue stragglers by 11.2%.
利用高精度《Gaia》数据发布3(DR3)版本,能够在银河系中发现众多疏散星群,这为在疏散星群中寻找蓝色离散星并研究这些环境中它们的形成和演化提供了绝佳机会。我们采用文献疏散星群目录中的成员星,对每个星群的星等-色度图(CMD)进行视觉检查,挑选出可能包含蓝色离散星候选星群的候选星群。接着我们使用《pyUPMASK》算法结合《Gaia》DR3版本重新评估星群成员身份,并进行同分曲线拟合以得出每个星群的物理参数,包括年龄、距离模数、平均消光以及金属量。最后,我们根据离散星相对于最佳拟合同分曲线、零龄主序列(ZAMS)以及等量质量双星序列在CMD上的位置来经验性鉴别离散星。总共有272颗新发现的离散星存在于99个疏散星群中,其中包括有153颗蓝色离散星、98颗疑似蓝色离散星以及21颗黄色离散星。相较于早期基于《Gaia》数据的蓝色离散星目录报告,我们的结果使银河系中存在离散星的星群数量增加了22.2%,蓝色离散星的总数增加了11.2%。
论文及项目相关链接
PDF 24 pages, 15 figures
Summary
基于高精度的Gaia数据发布第三版(DR3),发现了众多银河中的开普勒星团,为搜寻蓝移星并在开普勒星团环境中研究其形成和演化提供了极好机会。研究团队通过文献中的开普勒星团目录成员星,视觉检测每个星团的色-星等图(CMD),筛选出可能含有蓝移星的星团候选者。接着使用pyUPMASK算法重新评估星团成员身份,并进行星团物理参数等龄谱拟合。最终,实证确定了相对于最佳拟合等龄谱、零龄主序列和等质量双星序列在CMD上的位置,确定了272颗新的蓝移星,分布在99个开普勒星团中。与早期Gaia数据的蓝移星目录相比,本研究使银河中具有蓝移星的开普勒星团数量增加了22.2%,蓝移星总数增加了11.2%。
Key Takeaways
- Gaia DR3数据为发现银河中的开放星团提供了良好机会。
- 通过文献的开放星团目录筛选潜在含有蓝移星的星团候选者。
- 使用pyUPMASK算法重新评估星团成员身份并进行星团物理参数拟合。
- 通过色-星等图确定了新的蓝移星位置。
- 在99个开放星团中发现了总计272颗新的蓝移星。
- 与早期Gaia数据相比,本研究的发现增加了银河中具有蓝移星的开放星团数量和蓝移星总数。
- 蓝移星的发现为研究其在开放星团中的形成和演化提供了更多素材。
点此查看论文截图
MedVoiceBias: A Controlled Study of Audio LLM Behavior in Clinical Decision-Making
Authors:Zhi Rui Tam, Yun-Nung Chen
As large language models transition from text-based interfaces to audio interactions in clinical settings, they might introduce new vulnerabilities through paralinguistic cues in audio. We evaluated these models on 170 clinical cases, each synthesized into speech from 36 distinct voice profiles spanning variations in age, gender, and emotion. Our findings reveal a severe modality bias: surgical recommendations for audio inputs varied by as much as 35% compared to identical text-based inputs, with one model providing 80% fewer recommendations. Further analysis uncovered age disparities of up to 12% between young and elderly voices, which persisted in most models despite chain-of-thought prompting. While explicit reasoning successfully eliminated gender bias, the impact of emotion was not detected due to poor recognition performance. These results demonstrate that audio LLMs are susceptible to making clinical decisions based on a patient’s voice characteristics rather than medical evidence, a flaw that risks perpetuating healthcare disparities. We conclude that bias-aware architectures are essential and urgently needed before the clinical deployment of these models.
随着大型语言模型从基于文本界面的临床环境过渡到基于音频的互动环境,它们可能会通过音频中的副语言线索引入新的漏洞。我们对这些模型进行了评估,涉及170个临床病例,每个病例都通过涵盖年龄、性别和情感变化的36种不同语音特征合成语音。我们的研究发现了一种严重的模式偏见:与基于文本的输入相比,音频输入的手术建议差异高达35%,其中一个模型提供的建议减少了80%。进一步的分析还发现了年轻和老年声音之间的差异高达12%,尽管采取了连贯推理提示的方法,但这种差异在大多数模型中仍然存在。虽然明确的推理成功地消除了性别偏见,但由于识别性能不佳,情感的影响并未被检测出来。这些结果表明,音频大型语言模型易于根据患者的声音特征而非医学证据做出临床决策,这是一个风险漏洞,可能会使医疗保健差异持续存在。我们得出结论,在临床部署这些模型之前,构建具备偏见意识的架构是至关重要的和急需的。
论文及项目相关链接
Summary
在大型语言模型从文本界面转向临床环境中的音频交互时,它们可能会通过音频中的副语言线索引入新的漏洞。通过对170个临床病例的评估发现,与基于文本的输入相比,音频输入的手术建议差异高达35%,其中一个模型的建议数量减少了80%。分析还揭示了在不同的声音年龄特征间存在高达12%的差异,尽管大多数模型通过链式思维提示也存在类似差异。虽然明确的推理成功消除了性别偏见,但由于识别性能不佳,情感的影响并未被检测到。这些结果表明,音频大型语言模型易于根据患者的声音特征而非医学证据做出临床决策,这是一个可能加剧医疗保健不平等的缺陷。因此,在部署这些模型之前,需要重视架构的偏见问题。
Key Takeaways
- 大型语言模型在处理音频交互时可能会引入新的漏洞,特别是通过副语言线索。
- 音频输入在手术建议方面与文本输入存在显著差异,高达35%。
- 在不同声音年龄的语音特征之间存在明显的差异,这可能导致临床决策的不准确。
- 在大多数模型中,即使使用链式思维提示,年龄差异依然存在。
- 性别偏见可以通过明确的推理消除,但情感因素由于识别性能不佳而难以影响模型决策。
- 音频大型语言模型易于根据患者的声音特征而非医学证据做出决策。
- 在部署用于临床的大型语言模型之前,需要解决架构中的偏见问题。
点此查看论文截图
TalkSketch: Multimodal Generative AI for Real-time Sketch Ideation with Speech
Authors:Weiyan Shi, Sunaya Upadhyay, Geraldine Quek, Kenny Tsu Wei Choo
Sketching is a widely used medium for generating and exploring early-stage design concepts. While generative AI (GenAI) chatbots are increasingly used for idea generation, designers often struggle to craft effective prompts and find it difficult to express evolving visual concepts through text alone. In the formative study (N=6), we examined how designers use GenAI during ideation, revealing that text-based prompting disrupts creative flow. To address these issues, we developed TalkSketch, an embedded multimodal AI sketching system that integrates freehand drawing with real-time speech input. TalkSketch aims to support a more fluid ideation process through capturing verbal descriptions during sketching and generating context-aware AI responses. Our work highlights the potential of GenAI tools to engage the design process itself rather than focusing on output.
草图是一种广泛应用于生成和探索早期设计概念的媒介。虽然生成式人工智能(GenAI)聊天机器人越来越多地用于创意生成,但设计师往往难以制定有效的提示,并且发现很难仅通过文字来表达不断变化的视觉概念。在形成性研究(N=6)中,我们研究了设计师在创意产生过程中如何使用GenAI,发现基于文本的提示会破坏创意的流动。为了解决这些问题,我们开发了TalkSketch,这是一个嵌入式多模式AI草图系统,它将自由手绘与实时语音输入相结合。TalkSketch旨在通过捕获素描过程中的言语描述并生成上下文感知的AI响应来支持更流畅的创意生成过程。我们的工作突显了GenAI工具参与设计过程本身的潜力,而不是仅仅关注输出。
论文及项目相关链接
PDF Accepted at AAAI 2026 Workshop on Creative AI for Live Interactive Performances (CLIP). To be published in Springer CCIS series
Summary
该研究探讨了设计师在创意构思阶段使用生成式人工智能(GenAI)的挑战,包括文本提示对创意流程的干扰。为解决这一问题,研究团队开发了TalkSketch系统,该系统是一个嵌入式的多模式AI素描系统,结合了自由手绘和实时语音输入。TalkSketch旨在通过捕捉素描过程中的语言描述和生成上下文感知的AI响应来支持更流畅的创意构思过程。
Key Takeaways
- 设计师在使用生成式人工智能(GenAI)进行创意构思时面临挑战,文本提示会干扰创意流程。
- TalkSketch系统是一个嵌入式多模式AI素描系统,结合了自由手绘和实时语音输入。
- TalkSketch旨在捕捉素描过程中的语言描述,并生成上下文感知的AI响应,以支持更流畅的创意构思过程。
- 研究通过一项形成性研究(N=6)发现,设计师在使用GenAI时存在问题和需求,验证了TalkSketch系统的开发背景和潜在价值。
- 该研究突显了GenAI工具参与设计过程本身的重要性,而不仅仅是关注输出。
- TalkSketch系统的开发为解决设计师在使用GenAI时的痛点提供了一种解决方案。
点此查看论文截图
Can Current Detectors Catch Face-to-Voice Deepfake Attacks?
Authors:Nguyen Linh Bao Nguyen, Alsharif Abuadbba, Kristen Moore, Tingmin Wu
The rapid advancement of generative models has enabled the creation of increasingly stealthy synthetic voices, commonly referred to as audio deepfakes. A recent technique, FOICE [USENIX’24], demonstrates a particularly alarming capability: generating a victim’s voice from a single facial image, without requiring any voice sample. By exploiting correlations between facial and vocal features, FOICE produces synthetic voices realistic enough to bypass industry-standard authentication systems, including WeChat Voiceprint and Microsoft Azure. This raises serious security concerns, as facial images are far easier for adversaries to obtain than voice samples, dramatically lowering the barrier to large-scale attacks. In this work, we investigate two core research questions: (RQ1) can state-of-the-art audio deepfake detectors reliably detect FOICE-generated speech under clean and noisy conditions, and (RQ2) whether fine-tuning these detectors on FOICE data improves detection without overfitting, thereby preserving robustness to unseen voice generators such as SpeechT5. Our study makes three contributions. First, we present the first systematic evaluation of FOICE detection, showing that leading detectors consistently fail under both standard and noisy conditions. Second, we introduce targeted fine-tuning strategies that capture FOICE-specific artifacts, yielding significant accuracy improvements. Third, we assess generalization after fine-tuning, revealing trade-offs between specialization to FOICE and robustness to unseen synthesis pipelines. These findings expose fundamental weaknesses in today’s defenses and motivate new architectures and training protocols for next-generation audio deepfake detection.
生成模型的快速发展使得越来越隐蔽的合成语音得以产生,通常被称为音频深度伪造。最近的一项技术FOICE[USENIX’24]展示了一种特别令人担忧的能力:仅通过一张面部图像生成受害者的声音,而无需任何语音样本。FOICE通过利用面部和语音特征之间的相关性,生成了足以绕过包括微信语音打印和微软Azure在内的行业标准认证系统的合成语音。这引发了严重的安全担忧,因为相对于语音样本,面部图像对于对手来说更容易获取,从而大大降低了大规模攻击的门槛。在这项工作中,我们研究了两个核心研究问题:(RQ1)最先进的音频深度伪造检测器是否能在干净和嘈杂的条件下可靠地检测FOICE生成的语音;(RQ2)在FOICE数据上对检测器进行微调是否能在不出现过度拟合的情况下提高检测能力,从而保持对未见语音生成器(如SpeechT5)的稳健性。我们的研究做出了三项贡献。首先,我们对FOICE检测进行了首次系统评估,表明领先的检测器在标准条件和嘈杂条件下都表现出持续的失败。其次,我们引入了有针对性的微调策略,以捕捉FOICE特定的伪迹,从而大大提高了准确性。第三,我们评估了微调后的泛化能力,揭示了针对FOICE的专业化与对未见合成管道稳健性之间的权衡。这些发现暴露了当前防御手段的根本弱点,并为下一代音频深度伪造检测提供了新架构和培训协议的动机。
论文及项目相关链接
PDF 8 pages, Accepted at Workshop on AI for Cyber Threat Intelligence, co-located with ACSAC 2025
Summary
本文介绍了名为FOICE的新音频深度伪造技术,它能够根据单张面部图像生成受害者的声音,并绕过行业标准的身份验证系统,引发严重的安全担忧。研究团队针对该问题进行了调查,发现现有音频深度伪造检测器在干净和噪声条件下均无法可靠检测FOICE生成的语音。此外,研究团队还引入了有针对性的微调策略,以捕获FOICE特有的特征,从而提高检测准确性。然而,研究也发现微调后的检测器在应对未知合成管道时存在权衡问题。因此,本文揭示了当前防御机制的弱点,并为下一代音频深度伪造检测提出了新的架构和培训协议。
Key Takeaways
- FOICE技术能从单张面部图像生成逼真声音,绕过行业标准验证系统。
- 现有音频深度伪造检测器无法可靠检测FOICE生成的语音,无论在干净或噪声环境下。
- 通过有针对性的微调策略,能有效提高检测FOICE生成语音的准确性。
- 存在一定权衡问题:微调后的检测器在面对未知合成管道时可能丧失稳健性。
- 当前防御机制存在弱点,需要新的架构和培训协议来提高音频深度伪造检测的效能。
- 对抗深度伪造技术的安全应对策略需要考虑防范机制的全面性和稳健性。
点此查看论文截图
OmniMotion-X: Versatile Multimodal Whole-Body Motion Generation
Authors:Guowei Xu, Yuxuan Bian, Ailing Zeng, Mingyi Shi, Shaoli Huang, Wen Li, Lixin Duan, Qiang Xu
This paper introduces OmniMotion-X, a versatile multimodal framework for whole-body human motion generation, leveraging an autoregressive diffusion transformer in a unified sequence-to-sequence manner. OmniMotion-X efficiently supports diverse multimodal tasks, including text-to-motion, music-to-dance, speech-to-gesture, and global spatial-temporal control scenarios (e.g., motion prediction, in-betweening, completion, and joint/trajectory-guided synthesis), as well as flexible combinations of these tasks. Specifically, we propose the use of reference motion as a novel conditioning signal, substantially enhancing the consistency of generated content, style, and temporal dynamics crucial for realistic animations. To handle multimodal conflicts, we introduce a progressive weak-to-strong mixed-condition training strategy. To enable high-quality multimodal training, we construct OmniMoCap-X, the largest unified multimodal motion dataset to date, integrating 28 publicly available MoCap sources across 10 distinct tasks, standardized to the SMPL-X format at 30 fps. To ensure detailed and consistent annotations, we render sequences into videos and use GPT-4o to automatically generate structured and hierarchical captions, capturing both low-level actions and high-level semantics. Extensive experimental evaluations confirm that OmniMotion-X significantly surpasses existing methods, demonstrating state-of-the-art performance across multiple multimodal tasks and enabling the interactive generation of realistic, coherent, and controllable long-duration motions.
本文介绍了OmniMotion-X,这是一个通用多模式框架,以统一序列到序列的方式,采用自回归扩散变压器,用于生成全身人体运动。OmniMotion-X高效支持多种多模式任务,包括文本到运动、音乐到舞蹈、语音到手势,以及全局时空控制场景(如运动预测、中间帧生成、补全和关节/轨迹引导合成等),以及这些任务的灵活组合。具体来说,我们提出使用参考运动作为新型条件信号,这大大提高了生成内容的一致性、风格和时空动态,对于现实动画至关重要。为了解决多模式冲突,我们引入了从弱到强的渐进式混合条件训练策略。为了进行高质量的多模式训练,我们构建了迄今为止最大的统一多模式运动数据集OmniMoCap-X,集成了10个不同任务的28个公开可用的MoCap源,以标准化的SMPL-X格式和30fps的频率呈现。为了确保详细和一致的注释,我们将序列呈现为视频,并使用GPT-4o自动生成结构和层次化的字幕,捕捉低级别动作和高级别语义。广泛的实验评估证实,OmniMotion-X显著超越了现有方法,在多个多模式任务上达到了最先进的性能,能够实现交互式生成逼真、连贯和可控的长期运动。
论文及项目相关链接
Summary
OmniMotion-X是一个多功能模态框架,用于生成全身人体运动。它采用自回归扩散变压器,以统一序列到序列的方式支持多种任务,如文本到运动、音乐到舞蹈等。OmniMotion-X引入参考运动作为新型条件信号,增强了生成内容的连贯性、风格和时空动态。此外,该框架采用渐进的弱到强混合条件训练策略处理多模态冲突,并构建OmniMoCap-X数据集用于高质量多模态训练。实验证明,OmniMotion-X在多模态任务上表现卓越,可实现交互生成真实、连贯且可控的长期运动。
Key Takeaways
- OmniMotion-X是一个多功能模态框架,用于全身人体运动生成。
- 支持多种任务,包括文本到运动、音乐到舞蹈等。
- 引入参考运动作为条件信号,增强了生成内容的连贯性、风格和时空动态。
- 采用渐进的弱到强混合条件训练策略处理多模态冲突。
- 构建OmniMoCap-X数据集用于高质量多模态训练,集成了多个MoCap源。
- 使用GPT-4o自动生成结构化层次化的字幕,确保详细且一致的注释。
点此查看论文截图
ImaGGen: Zero-Shot Generation of Co-Speech Semantic Gestures Grounded in Language and Image Input
Authors:Hendric Voss, Stefan Kopp
Human communication combines speech with expressive nonverbal cues such as hand gestures that serve manifold communicative functions. Yet, current generative gesture generation approaches are restricted to simple, repetitive beat gestures that accompany the rhythm of speaking but do not contribute to communicating semantic meaning. This paper tackles a core challenge in co-speech gesture synthesis: generating iconic or deictic gestures that are semantically coherent with a verbal utterance. Such gestures cannot be derived from language input alone, which inherently lacks the visual meaning that is often carried autonomously by gestures. We therefore introduce a zero-shot system that generates gestures from a given language input and additionally is informed by imagistic input, without manual annotation or human intervention. Our method integrates an image analysis pipeline that extracts key object properties such as shape, symmetry, and alignment, together with a semantic matching module that links these visual details to spoken text. An inverse kinematics engine then synthesizes iconic and deictic gestures and combines them with co-generated natural beat gestures for coherent multimodal communication. A comprehensive user study demonstrates the effectiveness of our approach. In scenarios where speech alone was ambiguous, gestures generated by our system significantly improved participants’ ability to identify object properties, confirming their interpretability and communicative value. While challenges remain in representing complex shapes, our results highlight the importance of context-aware semantic gestures for creating expressive and collaborative virtual agents or avatars, marking a substantial step forward towards efficient and robust, embodied human-agent interaction. More information and example videos are available here: https://review-anon-io.github.io/ImaGGen.github.io/
人类交流结合了言语和表达性的非言语线索,如手势等,这些线索起着多种交流功能。然而,当前的生成手势生成方法仅限于伴随说话节奏的简单重复节拍手势,但并不有助于传达语义意义。本文解决了协同语音手势合成中的核心挑战:生成与口头表达语义上连贯的象征性或指示性手势。这种手势不能仅仅从语言输入中得出,因为语言输入本身缺乏通常由手势自主携带的视觉意义。因此,我们引入了一个零样本系统,该系统可以根据语言输入生成手势,并额外由图像输入提供信息,无需手动注释或人工干预。我们的方法整合了一个图像分析管道,可以提取关键对象属性,如形状、对称性和对齐方式,以及一个语义匹配模块,该模块将这些视觉细节与口语文本联系起来。然后,逆向运动学引擎合成象征性和指示性手势,并与共同生成的自然节拍手势相结合,实现连贯的多模式交流。一项全面的用户研究证明了我们的方法的有效性。在仅使用语音的场景中,由我们的系统生成的手势显著提高了参与者识别对象属性的能力,证实了其可解释性和交流价值。虽然对表示复杂形状仍存在挑战,但我们的结果突显了上下文感知的语义手势对于创建表达性和协作性虚拟代理人或化身的重要性,朝着高效和稳健的实体人类代理交互迈出了实质性的步伐。更多信息和示例视频可在以下网址找到:https://review-anon-io.github.io/ImaGGen.github.io/。
论文及项目相关链接
摘要
本文探讨了生成与语音相协调的手势的核心挑战,并介绍了一种零样本系统,能够从给定的语言输入中产生手势,同时还能够不受手动标注或人工干预地结合图像输入信息。通过整合图像分析管道,该系统能够提取关键的对象属性(如形状、对称性和对齐方式),并与语义匹配模块结合,将这些视觉细节与口头文本联系起来。通过逆向动力学引擎合成的标志性或指示性手势与共同生成的常规节奏手势相结合,实现了连贯的多模式通信。综合用户研究证明了该系统的有效性。在语音模糊的情境中,本系统生成的手势显著提高了参与者识别对象属性的能力,验证了其解释能力和沟通价值。虽然表示复杂形状仍存在挑战,但本研究结果强调了在创建表达性和协作性虚拟代理或化身时,上下文感知的语义手势的重要性,朝着高效、稳健的拟人代理交互迈出了重要的一步。
关键见解
- 当前的手势生成方法主要局限于伴随说话节奏的简单重复动作,缺乏语义意义的贡献。
- 论文提出了一种零样本系统,结合了语言输入和图像输入来生成手势,旨在生成与口头表达语义上协调的标志性或指示性手势。
- 系统通过图像分析提取对象的关键属性,并通过语义匹配模块将这些属性与口头文本联系起来。
- 逆向动力学引擎用于合成手势,并结合生成的自然节奏手势,以实现连贯的多模式通信。
- 用户研究表明,在语音模糊的情境中,系统生成的手势显著提高了参与者识别对象属性的能力。
- 结果强调了上下文感知的语义手势在创建虚拟代理或化身时的重要性。
点此查看论文截图
WEST: LLM based Speech Toolkit for Speech Understanding, Generation, and Interaction
Authors:Binbin Zhang, Chengdong Liang, Shuai Wang, Xuelong Geng, Zhao Guo, Haoyu Li, Hao Yin, Xipeng Yang, Pengshen Zhang, Changwei Ma, Lei Xie
In this paper, we present WEST(WE Speech Toolkit), a speech toolkit based on a large language model (LLM) for speech understanding, generation, and interaction. There are three key features of WEST: 1) Fully LLM-based: Standing on the shoulders of giants by reusing mature architectures, ecosystems (e.g., Hugging Face), and methods (e.g., sequence packing) from large models. 2) Full-stack: Supports tasks such as recognition, synthesis, understanding, dialogue, and multimodal capabilities, with extensibility to incorporate open-source models. 3) Simple and Stupid: A simple and stupid speech toolkit that everyone can Touch. In addition, WEST provides two types of recipes, models, and experimental results. The first is entirely based on open-source models and open-source data, allowing users to fully reproduce the experiments in this paper and serving as a verification system or minimal system baseline. The second is trained on massive data, offering superior performance so the user can directly apply it out of the box. WEST is publicly avilable at https://github.com/wenet-e2e/west/
本文介绍了WEST(WE语音工具包),这是一个基于大型语言模型(LLM)的语音工具包,用于语音理解、生成和交互。WEST有三个关键特点:1)完全基于LLM:利用大型模型的成熟架构、生态系统(例如Hugging Face)和方法(例如序列打包)站在巨人的肩膀上。2)全栈支持:支持识别、合成、理解、对话和多模式功能等任务,可扩展以融入开源模型。3)简单实用:一个简单实用的语音工具包,每个人都能轻松使用。此外,WEST提供两种类型的配方、模型和实验结果。第一种完全基于开源模型和开源数据,允许用户充分复现本文中的实验,并作为验证系统或最小系统基准。第二种是在大量数据上训练的,提供卓越性能,用户可以直接使用。WEST可在https://github.com/wenet-e2e/west/公开获取。
论文及项目相关链接
Summary
WEST(WE语音工具包)是一款基于大型语言模型的语音工具包,具有全栈功能,支持语音识别、合成、理解和对话等任务,同时提供简单易用的特性。它建立在成熟的架构、生态系统和方法之上,并提供两种类型的模型与实验结果供用户选择使用。
Key Takeaways
- WEST是基于大型语言模型的语音工具包。
- 它具有全栈功能,支持语音识别、合成、理解和对话等任务。
- WEST利用现有的成熟架构、生态系统和方法,如Hugging Face和序列打包技术。
- 它提供两种类型的模型与实验结果供用户选择,一种完全基于开源模型和数据进行验证或作为最小系统基线,另一种在大量数据上训练,提供卓越性能。
- WEST具有简单易懂的特点,易于使用。
- WEST是开源的,用户可以在GitHub上获取和使用。
点此查看论文截图
Say More with Less: Variable-Frame-Rate Speech Tokenization via Adaptive Clustering and Implicit Duration Coding
Authors:Rui-Chen Zheng, Wenrui Liu, Hui-Peng Du, Qinglin Zhang, Chong Deng, Qian Chen, Wen Wang, Yang Ai, Zhen-Hua Ling
Existing speech tokenizers typically assign a fixed number of tokens per second, regardless of the varying information density or temporal fluctuations in the speech signal. This uniform token allocation mismatches the intrinsic structure of speech, where information is distributed unevenly over time. To address this, we propose VARSTok, a VAriable-frame-Rate Speech Tokenizer that adapts token allocation based on local feature similarity. VARSTok introduces two key innovations: (1) a temporal-aware density peak clustering algorithm that adaptively segments speech into variable-length units, and (2) a novel implicit duration coding scheme that embeds both content and temporal span into a single token index, eliminating the need for auxiliary duration predictors. Extensive experiments show that VARSTok significantly outperforms strong fixed-rate baselines. Notably, it achieves superior reconstruction naturalness while using up to 23% fewer tokens than a 40 Hz fixed-frame-rate baseline. VARSTok further yields lower word error rates and improved naturalness in zero-shot text-to-speech synthesis. To the best of our knowledge, this is the first work to demonstrate that a fully dynamic, variable-frame-rate acoustic speech tokenizer can be seamlessly integrated into downstream speech language models.
现有的语音分词器通常每秒分配固定数量的标记,而不考虑语音信号中信息密度或时间波动的变化。这种统一的标记分配与语音的内在结构不匹配,语音中的信息在时间上是分布不均的。为了解决这一问题,我们提出了VARSTok,这是一种可变帧率语音分词器,它可以根据局部特征相似性来适应标记分配。VARSTok引入了两个关键创新点:(1)一种时间感知密度峰值聚类算法,该算法可以自适应地将语音分割成可变长度的单元;(2)一种新的隐式持续时间编码方案,将内容和时间跨度嵌入单个标记索引中,从而无需辅助持续时间预测器。大量实验表明,VARSTok显著优于强大的固定速率基线。值得注意的是,它在使用高达23%更少标记的情况下,实现了比40Hz固定帧率基线更优越的重建自然度。此外,VARSTok还降低了零样本文本到语音合成的词错误率,并提高了自然度。据我们所知,这是第一项工作,展示了可以无缝集成到下游语音语言模型中的完全动态、可变帧率的声学语音分词器。
论文及项目相关链接
PDF Accepted to AAAI 2026. Project page: https://zhengrachel.github.io/VARSTok
Summary
语音信号中的信息分布不均,现有的语音分词器通常以固定的帧率分配令牌,无法匹配语音的内在结构。为此,我们提出了VARSTok——一种基于局部特征相似性的可变帧率语音分词器。它引入了两项关键技术创新:自适应分割语音为可变长度单元的基于时间感知密度峰值聚类算法,以及将内容和时间跨度嵌入单个令牌索引中的新颖隐式持续时间编码方案。实验表明,VARSTok显著优于固定帧率基线,并在不使用辅助持续时间预测器的情况下实现了更自然的重建效果。此外,它在零样本文本到语音合成中降低了单词错误率并提高了自然度。这是首个成功将完全动态的可变帧率声学语音分词器无缝集成到下游语音语言模型中的工作。
Key Takeaways
- 现有语音分词器以固定帧率分配令牌,无法匹配语音信息的不均匀分布。
- VARSTok提出基于局部特征相似性的可变帧率语音分词器来解决这一问题。
- VARSTok引入两项关键技术创新:自适应分割语音和隐式持续时间编码方案。
- VARSTok显著优于固定帧率基线,实现了更自然的重建效果,并降低了单词错误率。
点此查看论文截图
Generative Annotation for ASR Named Entity Correction
Authors:Yuanchang Luo, Daimeng Wei, Shaojun Li, Hengchao Shang, Jiaxin Guo, Zongyao Li, Zhanglin Wu, Xiaoyu Chen, Zhiqiang Rao, Jinlong Yang, Hao Yang
End-to-end automatic speech recognition systems often fail to transcribe domain-specific named entities, causing catastrophic failures in downstream tasks. Numerous fast and lightweight named entity correction (NEC) models have been proposed in recent years. These models, mainly leveraging phonetic-level edit distance algorithms, have shown impressive performances. However, when the forms of the wrongly-transcribed words(s) and the ground-truth entity are significantly different, these methods often fail to locate the wrongly transcribed words in hypothesis, thus limiting their usage. We propose a novel NEC method that utilizes speech sound features to retrieve candidate entities. With speech sound features and candidate entities, we inovatively design a generative method to annotate entity errors in ASR transcripts and replace the text with correct entities. This method is effective in scenarios of word form difference. We test our method using open-source and self-constructed test sets. The results demonstrate that our NEC method can bring significant improvement to entity accuracy. The self-constructed training data and test set is publicly available at github.com/L6-NLP/Generative-Annotation-NEC.
端到端的自动语音识别系统往往无法转录特定领域的命名实体,导致下游任务出现重大失败。近年来,已经提出了许多快速且轻量级的命名实体校正(NEC)模型。这些模型主要利用音素级编辑距离算法,表现出令人印象深刻的效果。然而,当错误转录的单词(s)的形式与地面真实实体有很大差异时,这些方法往往无法找到假设中的错误转录单词,从而限制了它们的使用。我们提出了一种新型的NEC方法,该方法利用语音声音特征来检索候选实体。通过语音声音特征和候选实体,我们创新地设计了一种生成方法来标注ASR转录中的实体错误,并用正确的实体替换文本。这种方法在单词形式差异较大的情况下非常有效。我们使用开源和自我构建的测试集测试了我们的方法。结果表明,我们的NEC方法可以显著提高实体准确性。自我构建的训练数据和测试集已在github.com/L6-NLP/Generative-Annotation-NEC上公开可用。
论文及项目相关链接
PDF 12 pages, 7 figures, 7 tables, EMNLP 2025
Summary
近期提出的轻量级命名实体校正(NEC)模型主要利用音素级编辑距离算法,在转录错误的单词与真实实体形式差异不大时表现优异。但当两者差异显著时,这些模型往往无法找到错误的转录词。本文提出一种新型NEC方法,利用语音声音特征检索候选实体,并采用生成性方法为ASR转录中的实体错误进行标注和替换。实验证明,该方法在单词形式差异场景下有效,显著提高实体准确性。
Key Takeaways
- 端到端自动语音识别系统对于特定领域的命名实体转录存在挑战。
- 当前轻量级NEC模型主要利用音素级编辑距离算法,但在单词形式差异大时效果不佳。
- 本文提出一种新型NEC方法,结合语音声音特征和候选实体进行实体错误标注和替换。
- 该方法通过生成性策略处理实体错误,适用于不同场景。
- 公开测试结果显示,该方法能显著提高实体准确性。
- 公开了自我构建的训练数据和测试集以供研究使用。
点此查看论文截图
HM-Talker: Hybrid Motion Modeling for High-Fidelity Talking Head Synthesis
Authors:Shiyu Liu, Kui Jiang, Xianming Liu, Hongxun Yao, Xiaocheng Feng
Audio-driven talking head video generation enhances user engagement in human-computer interaction. However, current methods frequently produce videos with motion blur and lip jitter, primarily due to their reliance on implicit modeling of audio-facial motion correlations–an approach lacking explicit articulatory priors (i.e., anatomical guidance for speech-related facial movements). To overcome this limitation, we propose HM-Talker, a novel framework for generating high-fidelity, temporally coherent talking heads. HM-Talker leverages a hybrid motion representation combining both implicit and explicit motion cues. Explicit cues use Action Units (AUs), anatomically defined facial muscle movements, alongside implicit features to minimize phoneme-viseme misalignment. Specifically, our Cross-Modal Disentanglement Module (CMDM) extracts complementary implicit/explicit motion features while predicting AUs directly from audio input aligned to visual cues. To mitigate identity-dependent biases in explicit features and enhance cross-subject generalization, we introduce the Hybrid Motion Modeling Module (HMMM). This module dynamically merges randomly paired implicit/explicit features, enforcing identity-agnostic learning. Together, these components enable robust lip synchronization across diverse identities, advancing personalized talking head synthesis. Extensive experiments demonstrate HM-Talker’s superiority over state-of-the-art methods in visual quality and lip-sync accuracy.
音频驱动的说话人视频生成提高了人机交互中的用户参与度。然而,当前的方法经常产生运动模糊和唇部抖动的视频,这主要是因为它们依赖于音频面部运动关联的隐式建模——这种方法缺乏明确的发音先验知识(即与语音相关的面部运动的解剖指导)。为了克服这一局限性,我们提出了HM-Talker,这是一个用于生成高保真、时间连贯的说话人头部的全新框架。HM-Talker利用了一种混合运动表示法,结合了隐式和显式运动线索。显式线索使用动作单元(AUs),即面部解剖上定义的肌肉运动,以及隐式特征来最小化音素-表情失配。具体来说,我们的跨模态分离模块(CMDM)提取互补的隐式/显式运动特征,同时直接从与视觉线索对齐的音频输入中预测动作单元。为了减少显式特征中的身份相关偏见并增强跨主体泛化能力,我们引入了混合运动建模模块(HMMM)。该模块动态合并随机配对的隐式/显式特征,强制实施身份无关的学习。这些组件共同作用,实现了跨不同身份的稳健唇部同步,推动了个性化说话人头部的合成发展。大量实验表明,HM-Talker在视觉质量和唇部同步准确性方面优于最先进的方法。
论文及项目相关链接
Summary
本文提出一种名为HM-Talker的新型框架,用于生成高保真、时间连贯的说话人头像视频。该框架结合了隐式和显式运动线索的混合运动表示,使用动作单元(AUs)等解剖定义的面部肌肉运动来最小化音素与表情之间的错位。通过跨模态解耦模块(CMDM)提取隐式和显式运动特征的互补信息,并从音频输入中直接预测与视觉线索对齐的动作单元。同时,引入混合运动建模模块(HMMM)来缓解身份相关的偏见,增强跨主体泛化能力。该框架可广泛应用于个性化说话人头像合成,实现高质量的视频生成和唇同步准确性。
Key Takeaways
- HM-Talker框架结合了隐式和显式运动线索,以提高说话人头像视频生成的质量。
- 显式运动线索使用动作单元(AUs),基于解剖定义的面部肌肉运动,以提高唇同步的准确性。
- 跨模态解耦模块(CMDM)能够提取隐式和显式运动特征的互补信息,从而优化视频生成。
- HM-Talker通过预测与视觉线索对齐的音频输入中的动作单元,提高了音频驱动的视频生成的自然度。
- 混合运动建模模块(HMMM)能够缓解身份相关的偏见,增强了模型的泛化能力,使得模型可以处理不同身份的说话人头像合成。
- HM-Talker在视觉质量和唇同步准确性方面优于现有方法。
点此查看论文截图
MiDashengLM: Efficient Audio Understanding with General Audio Captions
Authors:Heinrich Dinkel, Gang Li, Jizhong Liu, Jian Luan, Yadong Niu, Xingwei Sun, Tianzi Wang, Qiyang Xiao, Junbo Zhang, Jiahao Zhou
Current approaches for large audio language models (LALMs) often rely on closed data sources or proprietary models, limiting their generalization and accessibility. This paper introduces MiDashengLM, a novel open audio-language model designed for efficient and comprehensive audio understanding through the use of general audio captions using our novel ACAVCaps training dataset. MiDashengLM exclusively relies on publicly available pretraining and supervised fine-tuning (SFT) datasets, ensuring full transparency and reproducibility. At its core, MiDashengLM integrates Dasheng, an open-source audio encoder, specifically engineered to process diverse auditory information effectively. Unlike previous works primarily focused on Automatic Speech Recognition (ASR) based audio-text alignment, our strategy centers on general audio captions, fusing speech, sound and music information into one textual representation, enabling a holistic textual representation of complex audio scenes. Lastly, MiDashengLM provides an up to 4x speedup in terms of time-to-first-token (TTFT) and up to 20x higher throughput than comparable models. Checkpoints are available online at https://huggingface.co/mispeech/midashenglm-7b and https://github.com/xiaomi-research/dasheng-lm.
当前的大型音频语言模型(LALM)方法往往依赖于封闭的数据源或专有模型,这限制了其通用性和可访问性。本文介绍了MiDashengLM,这是一种新型开放音频语言模型,通过使用我们创新性的ACAVCaps训练数据集进行通用音频字幕,旨在实现高效且全面的音频理解。MiDashengLM仅依赖于公开可用的预训练和监督微调(SFT)数据集,确保完全透明和可重复性。其核心结合了Dasheng这一开源音频编码器,专门用于有效处理各种听觉信息。与之前主要关注基于自动语音识别(ASR)的音频文本对齐的研究不同,我们的策略侧重于通用音频字幕,将语音、声音和音乐信息融合到一个文本表示中,实现对复杂音频场景的整体文本表示。最后,MiDashengLM在首次令牌时间(TTFT)方面提供了高达4倍的加速,并且吞吐量比同类产品高达20倍。检查点数据可以在https://huggingface.co/mispeech/midashenglm-7b和https://github.com/xiaomi-research/dasheng-lm在线获得。
论文及项目相关链接
Summary
MiDashengLM是一个基于公开预训练和精细调试数据集的新型音频语言模型,旨在实现高效全面的音频理解。该模型使用通用的音频字幕ACAVCaps训练数据集,不同于依赖特定数据源或专有模型的现有方法,具有更好的泛化和可访问性。其核心结合了开源音频编码器Dasheng,能有效处理各种听觉信息。此外,MiDashengLM采用通用的音频字幕方法,将语音、声音和音乐信息融合到文本表示中,为复杂的音频场景提供全面的文本表示。最后,MiDashengLM提供了时间至第一标记的最多可达4倍的加速,并具有更高的吞吐量。其主要特性及其技术贡献细节公开可供使用。
Key Takeaways
- MiDashengLM是一个采用公开数据源建立的音频语言模型,确保了其泛化和可访问性。
- 它结合了开源音频编码器Dasheng,提高了处理多样听觉信息的能力。
- 该模型引入了新的ACAVCaps训练数据集,专注于通用音频字幕的应用场景。
- MiDashengLM实现了复杂的音频场景的全面文本表示。不仅融合了语音信息,还包括声音和音乐等细节信息。
- 该模型提高了音频处理的效率,与同类模型相比,时间至第一标记的加速达到最高4倍,吞吐量提高最高达20倍。
点此查看论文截图
Hearing More with Less: Multi-Modal Retrieval-and-Selection Augmented Conversational LLM-Based ASR
Authors:Bingshen Mu, Hexin Liu, Hongfei Xue, Kun Wei, Lei Xie
Automatic Speech Recognition (ASR) aims to convert human speech content into corresponding text. In conversational scenarios, effectively utilizing context can enhance its accuracy. Large Language Models’ (LLMs) exceptional long-context understanding and reasoning abilities enable LLM-based ASR (LLM-ASR) to leverage historical context for recognizing conversational speech, which has a high degree of contextual relevance. However, existing conversational LLM-ASR methods use a fixed number of preceding utterances or the entire conversation history as context, resulting in significant ASR confusion and computational costs due to massive irrelevant and redundant information. This paper proposes a multi-modal retrieval-and-selection method named MARS that augments conversational LLM-ASR by enabling it to retrieve and select the most relevant acoustic and textual historical context for the current utterance. Specifically, multi-modal retrieval obtains a set of candidate historical contexts, each exhibiting high acoustic or textual similarity to the current utterance. Multi-modal selection calculates the acoustic and textual similarities for each retrieved candidate historical context and, by employing our proposed near-ideal ranking method to consider both similarities, selects the best historical context. Evaluations on the Interspeech 2025 Multilingual Conversational Speech Language Model Challenge dataset show that the LLM-ASR, when trained on only 1.5K hours of data and equipped with the MARS, outperforms the state-of-the-art top-ranking system trained on 179K hours of data.
自动语音识别(ASR)旨在将人类语音内容转换为相应的文本。在对话场景中,有效利用上下文可以提高其准确性。大型语言模型(LLM)出色的长文本理解和推理能力,使得基于LLM的ASR(LLM-ASR)能够利用历史上下文来识别对话语音,这对高度相关的上下文内容尤为重要。然而,现有的对话式LLM-ASR方法使用固定数量的先行话语或整个对话历史作为上下文,由于大量无关和冗余的信息,导致ASR混淆和计算成本显著增加。本文提出了一种名为MARS的多模态检索与选择方法,它通过为当前话语检索和选择最相关的声音和文字历史上下文,增强了对话式LLM-ASR的功能。具体来说,多模态检索获取一组候选历史上下文,每个上下文都表现出与当前话语高度相似的声音或文字特征。多模态选择计算每个检索到的候选历史上下文的语音和文字相似性,并采用我们提出的理想排名方法综合考虑这两种相似性,选择最佳历史上下文。在Interspeech 2025多语言对话语音语言模型挑战赛数据集上的评估显示,仅经过1500小时数据训练的LLM-ASR,配备MARS后,其性能优于经过17万小时数据训练的最新顶尖系统。
论文及项目相关链接
PDF AAAI 2026
Summary
本文介绍了基于大型语言模型(LLM)的自动语音识别(ASR)技术在对话场景中的应用。针对现有方法使用固定数量的前面发言或整个对话历史作为上下文所带来的问题,本文提出了一种多模态检索和选择方法(MARS)。该方法能够检索和选择最相关的声音和文字历史上下文,以提高对话LLM-ASR的准确性和效率。实验结果表明,采用MARS方法的LLM-ASR在仅使用1.5K小时的数据训练时,性能优于使用179K小时数据训练的现有顶尖系统。
Key Takeaways
- 大型语言模型(LLM)在自动语音识别(ASR)中用于理解对话上下文,以提高识别准确性。
- 现有方法存在的问题:使用固定数量的前面发言或整个对话历史作为上下文,导致ASR混淆和计算成本高昂。
- 提出了一种多模态检索和选择方法(MARS),能够检索和选择最相关的声音和文字历史上下文。
- MARS方法通过多模态检索获取一组与当前发言高度相似(声音或文字)的历史上下文候选集。
- 多模态选择方法计算每个检索到的候选历史上下文的声音和文字相似性,并提出近理想排序方法来选择最佳历史上下文。
- 在Interspeech 2025多语种对话语音语言模型挑战数据集上的评估表明,结合MARS方法的LLM-ASR表现出卓越性能。