⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-10-20 更新
Seeing Hate Differently: Hate Subspace Modeling for Culture-Aware Hate Speech Detection
Authors:Weibin Cai, Reza Zafarani
Hate speech detection has been extensively studied, yet existing methods often overlook a real-world complexity: training labels are biased, and interpretations of what is considered hate vary across individuals with different cultural backgrounds. We first analyze these challenges, including data sparsity, cultural entanglement, and ambiguous labeling. To address them, we propose a culture-aware framework that constructs individuals’ hate subspaces. To alleviate data sparsity, we model combinations of cultural attributes. For cultural entanglement and ambiguous labels, we use label propagation to capture distinctive features of each combination. Finally, individual hate subspaces, which in turn can further enhance classification performance. Experiments show our method outperforms state-of-the-art by 1.05% on average across all metrics.
仇恨言论检测已经得到了广泛的研究,但现有方法往往忽视了现实世界的复杂性:训练标签存在偏见,不同文化背景的人对仇恨言论的解读也各不相同。我们首先分析了这些挑战,包括数据稀疏性、文化交织和模糊标签。为了解决这些问题,我们提出了一个具有文化意识的框架,构建个人的仇恨子空间。为了缓解数据稀疏性问题,我们对文化属性组合进行建模。针对文化交织和模糊标签问题,我们使用标签传播来捕捉每种组合的独特特征。最后,个人的仇恨子空间可以进一步提高分类性能。实验表明,我们的方法在所有指标上的平均表现优于最新技术状态达1.05%。
论文及项目相关链接
Summary
该研究分析了仇恨言论检测的复杂性,并指出了现有方法面临的挑战,包括数据稀疏性、文化交织和标签模糊等问题。为此,研究团队提出了一种文化意识框架,构建了个人的仇恨子空间以应对挑战。实验证明,该方法在平均所有指标上比最新技术高出平均 1.05%。
Key Takeaways
- 研究指出了仇恨言论检测中的现实问题,包括训练标签的偏见和不同文化背景个体对仇恨言论的不同解读。
- 研究分析了数据稀疏性、文化交织和标签模糊等挑战。
- 为了解决这些挑战,提出了一种文化意识框架来构建个人的仇恨子空间。
- 为了解决数据稀疏性问题,模型结合了文化属性。
- 为了处理文化交织和标签模糊问题,使用标签传播来捕捉每种组合的独特特征。
- 通过实验验证了该方法的有效性,表明其在所有指标上的性能优于现有技术。
点此查看论文截图



MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction
Authors:Jianjin Wang, Runsong Zhao, Xiaoqian Liu, Yuan Ge, Ziqiang Xu, Tong Xiao, Shengxiang Gao, Zhengtao Yu, Jingbo Zhu
Current direct speech-to-speech translation methods predominantly employ speech tokens as intermediate representations. However, a single speech token is not dense in semantics, so we generally need multiple tokens to express a complete semantic unit. To address this limitation, we introduce multi-token prediction (MTP) loss into speech-to-unit translation (S2UT) models, enabling models to predict multiple subsequent tokens at each position, thereby capturing more complete semantics and enhancing information density per position. Initial MTP implementations apply the loss at the final layer, which improves output representation but initiates information enrichment too late. We hypothesize that advancing the information enrichment process to intermediate layers can achieve earlier and more effective enhancement of hidden representation. Consequently, we propose MTP-S2UT loss, applying MTP loss to hidden representation where CTC loss is computed. Experiments demonstrate that all MTP loss variants consistently improve the quality of S2UT translation, with MTP-S2UT achieving the best performance.
当前直接的语音识别到语音翻译方法主要使用语音令牌作为中间表现形式。然而,单一的语音令牌在语义上并不密集,因此我们通常需要多个令牌来表达一个完整的语义单元。为了解决这一局限性,我们引入了多令牌预测(MTP)损失到语音到单元翻译(S2UT)模型中,使模型能够在每个位置预测多个后续令牌,从而捕获更完整的语义并增强每个位置的信息密度。最初的MTP实现是在最后一层应用损失,这改善了输出表示,但信息丰富度开始得太晚。我们假设将信息丰富过程推进到中间层可以实现隐藏表示的更早和更有效的增强。因此,我们提出了MTP-S2UT损失,将MTP损失应用于计算CTC损失时的隐藏表示。实验表明,所有的MTP损失变体都能一致地提高S2UT翻译的质量,其中MTP-S2UT取得了最佳性能。
论文及项目相关链接
PDF Copyright 2026 IEEE. Personal use of this material is permitted. Permission from IEEE must be obtained for all other uses, in any current or future media, including reprinting/republishing this material for advertising or promotional purposes, creating new collective works, for resale or redistribution to servers or lists, or reuse of any copyrighted component of this work in other works
总结
本文介绍了在语音到单元的翻译(S2UT)模型中加入多令牌预测(MTP)损失的方法,使模型能够在每个位置预测多个后续令牌,从而捕获更完整的语义并增强每个位置的信息密度。初步实施的MTP将损失应用于最后一层,虽然改进了输出表示,但信息丰富过程开始得太晚。因此,我们假设将信息丰富过程推进到中间层可以更早更有效地增强隐藏表示。据此,我们提出了MTP-S2UT损失,将MTP损失应用于计算CTC损失的位置表示。实验表明,所有的MTP损失变体都能一致地提高S2UT翻译的质量,其中MTP-S2UT取得了最佳性能。
关键见解
- 当前直接语音到语音的翻译方法主要使用语音令牌作为中间表示。
- 单个语音令牌在语义上不密集,需要多个令牌来表达一个完整的语义单元。
- 为了解决这一局限性,引入了多令牌预测(MTP)损失到语音到单元翻译(S2UT)模型中。
- 初步实施的MTP损失应用于最后一层,改进了输出表示。
- 假设将信息丰富过程推进到中间层可以更有效地增强隐藏表示,提出了MTP-S2UT损失。
- MTP损失的各种变体都能提高S2UT翻译的质量。
- 实验结果表明,MTP-S2UT取得了最佳性能。
点此查看论文截图




DelRec: learning delays in recurrent spiking neural networks
Authors:Alexandre Queant, Ulysse Rançon, Benoit R Cottereau, Timothée Masquelier
Spiking neural networks (SNNs) are a bio-inspired alternative to conventional real-valued deep learning models, with the potential for substantially higher energy efficiency. Interest in SNNs has recently exploded due to a major breakthrough: surrogate gradient learning (SGL), which allows training SNNs with backpropagation, strongly outperforming other approaches. In SNNs, each synapse is characterized not only by a weight but also by a transmission delay. While theoretical works have long suggested that trainable delays significantly enhance expressivity, practical methods for learning them have only recently emerged. Here, we introduce ``DelRec’’, the first SGL-based method to train axonal or synaptic delays in recurrent spiking layers, compatible with any spiking neuron model. DelRec leverages a differentiable interpolation technique to handle non-integer delays with well-defined gradients at training time. We show that SNNs with trainable recurrent delays outperform feedforward ones, leading to new state-of-the-art (SOTA) on two challenging temporal datasets (Spiking Speech Command, an audio dataset, and Permuted Sequential MNIST, a vision one), and match the SOTA on the now saturated Spiking Heidelberg Digit dataset using only vanilla Leaky-Integrate-and-Fire neurons with stateless (instantaneous) synapses. Our results demonstrate that recurrent delays are critical for temporal processing in SNNs and can be effectively optimized with DelRec, paving the way for efficient deployment on neuromorphic hardware with programmable delays. Our code is available at https://github.com/alexmaxad/DelRec.
脉冲神经网络(SNNs)是受到生物启发的传统实值深度学习模型的替代方案,具有更高的能源效率潜力。由于对脉冲神经网络的兴趣最近爆发,主要是因为一项重大突破:替代梯度学习(SGL),它允许使用反向传播训练SNNs,并且明显优于其他方法。在SNN中,每个突触的特征不仅在于权重,还在于传输延迟。虽然理论工作长期表明可训练的延迟显著提高了表达性,但学习它们的实用方法最近才出现。在这里,我们介绍了基于SGL的“DelRec”方法,它是第一个在循环脉冲层中训练轴突或突触延迟的方法,可与任何脉冲神经元模型兼容。DelRec利用可微分的插值技术来处理非整数延迟,在训练时有定义明确的梯度。我们表明,具有可训练循环延迟的SNN优于前馈型SNN,从而在两个具有挑战性的时间数据集(Spiking Speech Command音频数据集和Permuted Sequential MNIST视觉数据集)上达到了最新水平,并且在现在饱和的Spiking Heidelberg Digit数据集上使用仅使用普通的泄漏积分和点火神经元以及无状态(即时)突触即可与之匹配。我们的结果表明,循环延迟对于脉冲神经网络的时间处理至关重要,并且可以使用DelRec进行有效优化,为在具有可编程延迟的神经形态硬件上高效部署铺平了道路。我们的代码可在https://github.com/alexmaxad/DelRec获取。
论文及项目相关链接
摘要
脉冲神经网络(SNNs)是一种受生物启发的深度学习模型替代方案,具有更高的能效潜力。最近,由于代理梯度学习(SGL)的重大突破,使得SNNs的训练变得更为高效并实现了出色的性能。在SNNs中,每个突触的特征不仅包括权重,还包括传输延迟。虽然理论工作长期表明可训练的延迟可以显著提高表达能力,但实践中的学习方法最近才出现。本文介绍了基于SGL的DelRec方法,该方法可在递归脉冲层中训练轴突或突触延迟,并与任何脉冲神经元模型兼容。DelRec利用可微的插值技术来处理非整数延迟,在训练时具有明确的梯度。我们展示了具有可训练递归延迟的SNNs优于前馈型SNNs,在两个挑战性的时序数据集(脉冲语音命令和排列序列MNIST)上达到了最新水平,并在使用普通泄漏积分放电神经元的海德堡数字数据集上匹配了最新水平。结果表明,递归延迟对于SNNs的时序处理至关重要,DelRec可以有效地对其进行优化,为在具有可编程延迟的神经形态硬件上的高效部署铺平了道路。
关键见解
- 脉冲神经网络(SNNs)是受生物启发的深度学习模型,具有更高的能效潜力。
- 代理梯度学习(SGL)允许训练SNNs并实现最新性能。
- SNNs中的每个突触都具有特征和传输延迟,可训练的延迟能显著提高表达能力。
- DelRec是第一个基于SGL的方法,可以训练递归脉冲层中的轴突或突触延迟,与所有脉冲神经元模型兼容。
- DelRec利用可微插值技术处理非整数延迟,在训练时具有明确的梯度。
- 具有可训练递归延迟的SNNs在时序数据集上表现出最佳性能。
- 结果表明递归延迟对SNNs的时序处理至关重要,DelRec可以有效优化并与神经形态硬件的延迟功能相匹配。
点此查看论文截图



AvatarSync: Rethinking Talking-Head Animation through Phoneme-Guided Autoregressive Perspective
Authors:Yuchen Deng, Xiuyang Wu, Hai-Tao Zheng, Suiyang Zhang, Yi He, Yuxing Han
Talking-head animation focuses on generating realistic facial videos from audio input. Following Generative Adversarial Networks (GANs), diffusion models have become the mainstream, owing to their robust generative capacities. However, inherent limitations of the diffusion process often lead to inter-frame flicker and slow inference, restricting their practical deployment. To address this, we introduce AvatarSync, an autoregressive framework on phoneme representations that generates realistic and controllable talking-head animations from a single reference image, driven directly by text or audio input. To mitigate flicker and ensure continuity, AvatarSync leverages an autoregressive pipeline that enhances temporal modeling. In addition, to ensure controllability, we introduce phonemes, which are the basic units of speech sounds, and construct a many-to-one mapping from text/audio to phonemes, enabling precise phoneme-to-visual alignment. Additionally, to further accelerate inference, we adopt a two-stage generation strategy that decouples semantic modeling from visual dynamics, and incorporate a customized Phoneme-Frame Causal Attention Mask to support multi-step parallel acceleration. Extensive experiments conducted on both Chinese (CMLR) and English (HDTF) datasets demonstrate that AvatarSync outperforms existing talking-head animation methods in visual fidelity, temporal consistency, and computational efficiency, providing a scalable and controllable solution.
谈话头部动画主要关注从音频输入生成逼真的面部视频。继生成对抗网络(GANs)之后,扩散模型由于其强大的生成能力已成为主流。然而,扩散过程本身的局限往往会导致帧间闪烁和推理缓慢,从而限制了其在实际部署中的应用。为了解决这一问题,我们引入了AvatarSync,这是一个基于音素表示的自回归框架,能够从单个参考图像生成逼真且可控的谈话头部动画,直接由文本或音频输入驱动。为了减轻闪烁并确保连续性,AvatarSync利用自回归管道增强了时间建模。此外,为了确保可控性,我们引入了音素(即语音的基本单位),构建了从文本/音频到音素的多元对应映射,实现了精确的音素到视觉的对齐。另外,为了进一步加速推理,我们采用了两阶段生成策略,将语义建模与视觉动态解耦,并引入定制的音素帧因果注意力掩码,以支持多步并行加速。在中文(CMLR)和英文(HDTF)数据集上进行的广泛实验表明,AvatarSync在视觉保真度、时间一致性和计算效率方面优于现有的谈话头部动画方法,提供了一种可扩展且可控的解决方案。
论文及项目相关链接
Summary
本文介绍了基于语音驱动的动画生成技术,特别是针对说话人头部动画的生成。文章指出扩散模型是目前的主流技术,但存在帧间闪烁和推理速度慢的问题。为此,文章提出了一种名为AvatarSync的自回归框架,该框架利用音素表示生成真实可控的说话人头部动画,支持文本或音频输入驱动。通过采用自回归管道和音素映射技术,AvatarSync解决了帧间闪烁问题,确保了动画的连贯性和可控性。此外,文章还采用了两阶段生成策略和定制的音素帧因果注意力掩码来加速推理。在中文和英文数据集上的实验表明,AvatarSync在视觉保真度、时间一致性和计算效率方面优于现有的说话人头部动画方法。
Key Takeaways
- 说话头动画的主流技术是生成对抗网络(GANs)中的扩散模型,但存在帧间闪烁和推理速度慢的问题。
- AvatarSync是一个自回归框架,通过音素表示生成真实可控的说话头动画,支持文本或音频输入驱动。
- AvatarSync采用自回归管道和音素映射技术来解决帧间闪烁问题,确保动画的连贯性和可控性。
- 为了加速推理,AvatarSync采用了两阶段生成策略和定制的音素帧因果注意力掩码。
- 广泛实验证明,在视觉保真度、时间一致性和计算效率方面,AvatarSync优于现有的说话头动画方法。
- AvatarSync解决了现有技术的内在限制,如帧间闪烁和推理速度慢的问题,使其成为可扩展和可控的解决方案。
点此查看论文截图




PASE: Phoneme-Aware Speech Encoder to Improve Lip Sync Accuracy for Talking Head Synthesis
Authors:Yihuan Huang, Jiajun Liu, Yanzhen Ren, Jun Xue, Wuyang Liu, Zongkun Sun
Recent talking head synthesis works typically adopt speech features extracted from large-scale pre-trained acoustic models. However, the intrinsic many-to-many relationship between speech and lip motion causes phoneme-viseme alignment ambiguity, leading to inaccurate and unstable lips. To further improve lip sync accuracy, we propose PASE (Phoneme-Aware Speech Encoder), a novel speech representation model that bridges the gap between phonemes and visemes. PASE explicitly introduces phoneme embeddings as alignment anchors and employs a contrastive alignment module to enhance the discriminability between corresponding audio-visual pairs. In addition, a prediction and reconstruction task is designed to improve robustness under noise and partial modality absence. Experimental results show PASE significantly improves lip sync accuracy and achieves state-of-the-art performance across both NeRF- and 3DGS-based rendering frameworks, outperforming conventional methods based on acoustic features by 13.7 % and 14.2 %, respectively. Importantly, PASE can be seamlessly integrated into diverse talking head pipelines to improve the lip sync accuracy without architectural modifications.
近期的人头合成研究通常采用从大规模预训练声学模型中提取的语音特征。然而,语音和唇部运动之间固有的多对多关系导致了音素唇动对应关系的模糊性,进而导致唇部表现不准确和不稳定。为了进一步提高唇部同步的准确性,我们提出了PASE(音素感知语音编码器),这是一种新型的语音表示模型,旨在弥合音素和唇动之间的差距。PASE显式引入音素嵌入作为对齐锚点,并采用对比对齐模块增强相应音频视觉对的辨别力。此外,设计了一个预测和重建任务以提高噪声和部分模态缺失下的鲁棒性。实验结果表明,PASE显著提高了唇部同步的准确性,在基于NeRF和基于3DGS的渲染框架上均达到了最先进的性能水平,分别优于基于声学特征的传统方法13.7%和14.2%。重要的是,PASE可以无缝集成到多样化的人头合成管道中,无需架构修改即可提高唇部同步的准确性。
论文及项目相关链接
Summary
为提高唇形同步准确性,提出PASE(音素感知语音编码器),作为连接音素和唇形动作之间的桥梁,引入音素嵌入作为对齐锚点,并采用对比对齐模块增强音频视觉对之间的辨别力。同时,设计预测与重建任务以提高噪声和部分模态缺失下的稳健性。实验结果显示,PASE显著提高唇形同步准确性,并在NeRF和3DGS渲染框架下实现业界最佳性能,分别优于基于声学特征的传统方法13.7%和14.2%。且PASE可无缝集成到各种说话人头模型中,在不修改架构的情况下提高唇形同步准确性。
Key Takeaways
- PASE旨在提高唇形同步准确性,通过构建音素和唇形动作之间的联系来解决问题。
- 引入音素嵌入作为对齐锚点,增强音频视觉对之间的对应关系。
- 采用对比对齐模块,提高音频视觉对之间的辨别力。
- 设计与实施预测和重建任务,增强模型在噪声和部分模态缺失环境下的稳健性。
- 实验结果显示PASE在NeRF和3DGS渲染框架下表现优异,显著优于传统方法。
- PASE可以无缝集成到各种说话人头模型中,提高唇形同步精度。
点此查看论文截图







SEKE: Specialised Experts for Keyword Extraction
Authors:Matej Martinc, Hanh Thi Hong Tran, Senja Pollak, Boshko Koloski
Keyword extraction involves identifying the most descriptive words in a document, allowing automatic categorisation and summarisation of large quantities of diverse textual data. Relying on the insight that real-world keyword detection often requires handling of diverse content, we propose a novel supervised keyword extraction approach based on the mixture of experts (MoE) technique. MoE uses a learnable routing sub-network to direct information to specialised experts, allowing them to specialise in distinct regions of the input space. SEKE, a mixture of Specialised Experts for supervised Keyword Extraction, uses DeBERTa as the backbone model and builds on the MoE framework, where experts attend to each token, by integrating it with a bidirectional Long short-term memory (BiLSTM) network, to allow successful extraction even on smaller corpora, where specialisation is harder due to lack of training data. The MoE framework also provides an insight into inner workings of individual experts, enhancing the explainability of the approach. We benchmark SEKE on multiple English datasets, achieving state-of-the-art performance compared to strong supervised and unsupervised baselines. Our analysis reveals that depending on data size and type, experts specialise in distinct syntactic and semantic components, such as punctuation, stopwords, parts-of-speech, or named entities. Code is available at https://github.com/matejMartinc/SEKE_keyword_extraction
关键词提取涉及识别文档中最具描述性的词语,从而实现大量不同文本数据的自动分类和摘要。我们依赖于现实世界关键词检测需要处理多样化内容的见解,提出了一种基于专家混合(MoE)技术的新型监督关键词提取方法。MoE使用一个可学习的路由子网络来将信息定向传输给专家,允许他们在输入空间的不同区域中专业化。SEKE(用于监督关键词提取的专家混合)以DeBERTa作为骨干模型,建立在MoE框架上,专家关注每个令牌,通过与双向长短时记忆(BiLSTM)网络集成,即使在较小的语料库上也能实现成功的提取。由于缺乏训练数据,专业化变得更为困难。MoE框架还提供了对个别专家内部工作的洞察,增强了该方法的可解释性。我们在多个英文数据集上对SEKE进行了基准测试,与强大的有监督和无监督基线相比,实现了最先进的性能。我们的分析表明,根据数据的大小和类型,专家会在不同的句法和语义成分上专业化,如标点符号、停用词、词性或命名实体。相关代码可访问:https://github.com/matejMartinc/SEKE_keyword_extraction。
论文及项目相关链接
Summary
基于关键词提取的关键思想,结合专家混合(MoE)技术,提出一种新型的监督式关键词提取方法SEKE。SEKE使用DeBERTa作为主干模型,并融合MoE框架和双向长短时记忆网络(BiLSTM),实现了在小语料集上的成功提取。MoE框架增强了专家的解释性,同时揭示了专家在不同语法和语义成分上的专长。在多个英文数据集上,SEKE表现卓越,达到领先水平。代码已公开于GitHub上。
Key Takeaways
- 关键词提取是通过识别文档中最具描述性的词汇,实现大量不同文本数据的自动分类和摘要。
- 提出一种基于专家混合(MoE)技术的监督式关键词提取新方法SEKE。
- SEKE结合DeBERTa模型、MoE框架和BiLSTM网络,实现在小语料集上的成功关键词提取。
- MoE框架提供专家内部工作机制的洞察,增强方法的解释性。
- SEKE在多个英文数据集上表现卓越,达到领先水平。
- 专家根据不同数据规模和类型,在语法和语义成分(如标点、停用词、词性、命名实体等)上展现出不同的专长。
点此查看论文截图


