嘘~ 正在从服务器偷取页面 . . .

Speech


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-10-21 更新

Leveraging LLMs for Context-Aware Implicit Textual and Multimodal Hate Speech Detection

Authors:Joshua Wolfe Brook, Ilia Markov

This research introduces a novel approach to textual and multimodal Hate Speech Detection (HSD), using Large Language Models (LLMs) as dynamic knowledge bases to generate background context and incorporate it into the input of HSD classifiers. Two context generation strategies are examined: one focused on named entities and the other on full-text prompting. Four methods of incorporating context into the classifier input are compared: text concatenation, embedding concatenation, a hierarchical transformer-based fusion, and LLM-driven text enhancement. Experiments are conducted on the textual Latent Hatred dataset of implicit hate speech and applied in a multimodal setting on the MAMI dataset of misogynous memes. Results suggest that both the contextual information and the method by which it is incorporated are key, with gains of up to 3 and 6 F1 points on textual and multimodal setups respectively, from a zero-context baseline to the highest-performing system, based on embedding concatenation.

本文介绍了一种利用大型语言模型(LLM)作为动态知识库来检测和识别文本和多模态仇恨言论(HSD)的新型方法。通过生成背景上下文并将其融入HSD分类器的输入,实现对文本和多模态仇恨言论的检测。本文研究了两种生成上下文策略:一种侧重于命名实体,另一种侧重于全文提示。将上下文融入分类器输入的四种方法进行了比较:文本连接、嵌入连接、基于层次变压器的融合以及LLM驱动文本增强。实验在包含隐含仇恨言论的文本潜在仇恨数据集上进行,并应用于包含厌女主义表情符号的MAMI数据集的多模态设置。结果表明,上下文信息及其融入方法都是关键所在。与无上下文基线相比,嵌入连接方法在文本和多模态设置上分别提高了高达3点和6点的F1分数,表现最好的系统效果来源于此。

论文及项目相关链接

PDF 8 pages, 9 figures, submitted to LREC 2026

摘要
本研究介绍了一种新的文本和多模态仇恨言论检测(HSD)方法,利用大型语言模型(LLM)作为动态知识库来生成背景上下文并将其融入HSD分类器的输入。研究探讨了两种上下文生成策略,一种侧重于命名实体,另一种侧重于全文提示。将上下文融入分类器输入的四种方法进行了比较:文本串联、嵌入串联、基于层次变换器的融合以及LLM驱动文本增强。在隐含仇恨言论的文本潜在仇恨数据集上进行实验,并应用于厌女症meme的多模态设置。结果表明,上下文信息及其融入方法都至关重要,从无上下文基线到表现最佳的系统,文本和多模态设置的F1点分别提高了高达3和6点,表现最好的是基于嵌入串联的系统。

要点

  1. 本研究提出了一种新的仇恨言论检测(HSD)方法,结合了大型语言模型(LLM)与分类器。
  2. LLM用作动态知识库,生成背景上下文并融入HSD分类器的输入。
  3. 探讨了两种上下文生成策略:命名实体和全文提示。
  4. 对比了四种将上下文融入分类器输入的方法。
  5. 实验在文本和多模态数据集上进行,显示上下文信息和方法对结果至关重要。
  6. 在文本潜在仇恨数据集上,融入上下文信息提高了检测性能,F1点提高了最多6点。
  7. 表现最好的方法基于嵌入串联。

Cool Papers

点此查看论文截图

SpikeVox: Towards Energy-Efficient Speech Therapy Framework with Spike-driven Generative Language Models

Authors:Rachmad Vidya Wicaksana Putra, Aadithyan Rajesh Nair, Muhammad Shafique

Speech disorders can significantly affect the patients capability to communicate, learn, and socialize. However, existing speech therapy solutions (e.g., therapist or tools) are still limited and costly, hence such solutions remain inadequate for serving millions of patients worldwide. To address this, state-of-the-art methods employ neural network (NN) algorithms to help accurately detecting speech disorders. However, these methods do not provide therapy recommendation as feedback, hence providing partial solution for patients. Moreover, these methods incur high energy consumption due to their complex and resource-intensive NN processing, hence hindering their deployments on low-power/energy platforms (e.g., smartphones). Toward this, we propose SpikeVox, a novel framework for enabling energy-efficient speech therapy solutions through spike-driven generative language model. Specifically, SpikeVox employs a speech recognition module to perform highly accurate speech-to-text conversion; leverages a spike-driven generative language model to efficiently perform pattern analysis for speech disorder detection and generates suitable exercises for therapy; provides guidance on correct pronunciation as feedback; as well as utilizes the REST API to enable seamless interaction for users. Experimental results demonstrate that SpikeVox achieves 88% confidence level on average in speech disorder recognition, while providing a complete feedback for therapy exercises. Therefore, SpikeVox provides a comprehensive framework for energy-efficient speech therapy solutions, and potentially addresses the significant global speech therapy access gap.

言语障碍会显著影响患者的沟通、学习和社交能力。然而,现有的言语治疗解决方案(如治疗师或工具)仍然有限且成本高昂,因此这些解决方案无法为全球数百万患者提供服务。为解决这一问题,先进的方法采用神经网络(NN)算法来帮助准确检测言语障碍。然而,这些方法并不提供治疗建议作为反馈,因此对患者只提供部分解决方案。此外,这些方法由于复杂的资源密集型NN处理而导致高能耗,从而阻碍了它们在低功耗/能源平台(例如智能手机)上的部署。鉴于此,我们提出SpikeVox,一种通过脉冲驱动生成语言模型实现节能言语治疗解决方案的新框架。具体而言,SpikeVox采用语音识别模块执行高度准确的语音到文本的转换;利用脉冲驱动的生成语言模型有效地进行模式分析以检测言语障碍并生成适合的治疗练习;提供关于正确发音的反馈指导;此外,还利用REST API实现用户之间的无缝交互。实验结果表明,SpikeVox在平均情况下达到88%的置信度进行言语障碍识别,同时为治疗练习提供了完整的反馈。因此,SpikeVox提供了一个全面的节能言语治疗解决方案框架,并有望解决全球言语治疗的重要访问差距问题。

论文及项目相关链接

PDF Accepted at the IEEE Biomedical Circuits and Systems Conference (BioCAS) 2025, Abu Dhabi, UAE

Summary
现有语音治疗解决方案受限且成本高,难以满足全球众多患者需求。为解决这个问题,研究者提出了SpikeVox框架,通过脉冲驱动的生成式语言模型实现节能的语音治疗解决方案。它能进行精准的语音转文本转换,高效地进行模式分析以检测言语障碍并生成适当的训练项目,提供正确的发音反馈,并利用REST API实现无缝的用户交互。实验结果显示,SpikeVox在语音障碍识别方面达到了平均88%的置信水平,同时提供完整的治疗训练反馈。因此,SpikeVox提供了一个全面的节能语音治疗解决方案框架,并有望解决全球语音治疗访问的巨大差距。

Key Takeaways

  1. 语音障碍影响患者的沟通、学习和社交能力,现有的语音治疗解决方案有限且成本高。
  2. 先进的方法采用神经网络算法来准确检测语音障碍,但缺乏治疗建议反馈。
  3. 这些方法能源消耗高,难以在低功耗平台上部署。
  4. SpikeVox框架能够实现节能的语音治疗解决方案,包括精确语音转文本、模式分析、生成治疗训练和提供反馈等功能。
  5. SpikeVox利用脉冲驱动的生成式语言模型进行模式分析和生成治疗项目。
  6. SpikeVox提供通过REST API无缝的用户交互体验。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
  目录