⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-10-02 更新
QUARTZ : QA-based Unsupervised Abstractive Refinement for Task-oriented Dialogue Summarization
Authors:Mohamed Imed Eddine Ghebriout, Gaël Guibon, Ivan Lerner, Emmanuel Vincent
Dialogue summarization aims to distill the core meaning of a conversation into a concise text. This is crucial for reducing the complexity and noise inherent in dialogue-heavy applications. While recent approaches typically train language models to mimic human-written summaries, such supervision is costly and often results in outputs that lack task-specific focus limiting their effectiveness in downstream applications, such as medical tasks. In this paper, we propose \app, a framework for task-oriented utility-based dialogue summarization. \app starts by generating multiple summaries and task-oriented question-answer pairs from a dialogue in a zero-shot manner using a pool of large language models (LLMs). The quality of the generated summaries is evaluated by having LLMs answer task-related questions before \textit{(i)} selecting the best candidate answers and \textit{(ii)} identifying the most informative summary based on these answers. Finally, we fine-tune the best LLM on the selected summaries. When validated on multiple datasets, \app demonstrates its effectiveness by achieving competitive results in various zero-shot settings, rivaling fully-supervised State-of-the-Art (SotA) methods.
对话摘要旨在将对话的核心意义提炼成简短的文本。这对于减少对话密集型应用固有的复杂性和噪声至关重要。虽然最近的方法通常训练语言模型来模仿人类编写的摘要,但这种监督成本高昂,而且往往导致输出缺乏任务特定的重点,从而限制了它们在下游应用(如医疗任务)中的有效性。在本文中,我们提出了\app,这是一个面向任务的实用型对话摘要框架。\app首先以零样本的方式使用大量语言模型(LLM)从对话中生成多个摘要和任务导向的问答对。通过对LLM提出与任务相关的问题来评估生成的摘要的质量,然后选择最佳候选答案和基于这些答案识别出最具有信息量的摘要。\最后,我们对最佳LLM进行微调,以适应所选摘要。在多个数据集上进行验证时,\app在各种零样本设置中表现出其有效性,与全监督的最新技术(SotA)方法不相上下。
论文及项目相关链接
PDF Accepted to Empirical Methods in Natural Language Processing (EMNLP 2025)
Summary
对话摘要旨在将对话的核心意义简化为简洁的文本。对于对话密集的应用,这有助于减少复杂性和噪声。尽管现有方法通常训练语言模型来模仿人类摘要,但这种监督成本高昂,且结果往往缺乏任务特定性,限制了其在下游应用(如医疗任务)中的有效性。本文提出了一个面向任务的实用对话摘要框架\app。 \app首先以零样本方式使用大型语言模型(LLM)池从对话中生成多个摘要和任务导向的问答对。通过让LLM回答与任务相关的问题来评估生成的摘要质量,然后选择最佳候选答案和基于这些答案的最具信息量的摘要。最后,我们对最佳LLM进行微调以优化所选摘要的性能。在多个数据集上进行验证时,\app在各种零样本设置中展现出强大的效果,与全监督的当前最佳方法不相上下。
Key Takeaways
- 对话摘要旨在简化对话内容,降低对话密集应用的复杂性和噪声。
- 当前方法主要依赖成本高昂的监督方式,且生成的摘要缺乏任务特定性。
- \app是一个面向任务的实用对话摘要框架,采用零样本方式生成多个摘要和任务导向问答对。
- 利用大型语言模型(LLM)回答任务相关的问题来评估生成的摘要质量。
- 通过选择最佳候选答案和最信息量的摘要进行优化。
- 对最佳的大型语言模型进行微调,以提高所选摘要的性能。
点此查看论文截图





LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models
Authors:Guolei Huang, Qingzhi Peng, Gan Xu, Yuxuan Lu, Yongjun Shen
As Vision-Language Models (VLMs) move into interactive, multi-turn use, new safety risks arise that single-turn or single-modality moderation misses. In Multimodal Multi-Turn (MMT) dialogues, malicious intent can be spread across turns and images, while context-sensitive replies may still advance harmful content. To address this challenge, we present the first systematic definition and study of MMT dialogue safety. Building on this formulation, we introduce the Multimodal Multi-turn Dialogue Safety (MMDS) dataset. We further develop an automated multimodal multi-turn red-teaming framework based on Monte Carlo Tree Search (MCTS) to generate unsafe multimodal multi-turn dialogues for MMDS. MMDS contains 4,484 annotated multimodal dialogue samples with fine-grained safety ratings, policy dimension labels, and evidence-based rationales for both users and assistants. Leveraging MMDS, we present LLaVAShield, a powerful tool that jointly detects and assesses risk in user inputs and assistant responses. Across comprehensive experiments, LLaVAShield consistently outperforms strong baselines on MMT content moderation tasks and under dynamic policy configurations, establishing new state-of-the-art results. We will publicly release the dataset and model to support future research.
随着视觉语言模型(VLMs)向交互式多轮使用发展,出现了新的安全风险,这些风险是单一轮次或单一模态的审核所忽视的。在多模态多轮(MMT)对话中,恶意意图可以跨越多个回合和图像进行传播,而上下文敏感的回复仍可能推动有害内容的传播。为了应对这一挑战,我们对MMT对话安全进行了系统的定义和研究。在此基础上,我们引入了多模态多轮对话安全(MMDS)数据集。我们进一步开发了一个基于蒙特卡洛树搜索(MCTS)的自动化多模态多轮红队框架,以生成用于MMDS的不安全的多模态多轮对话。MMDS包含4484个带有多模态对话样本的精细安全评级、政策维度标签以及用户和助理的证据基础理由。利用MMDS,我们推出了LLaVAShield工具,它能够联合检测和评估用户输入和助理回复中的风险。在全面的实验中,LLaVAShield在MMT内容审核任务上始终优于强大的基线模型,并在动态政策配置下表现出卓越性能,取得了最新的最佳结果。我们将公开发布数据集和模型,以支持未来的研究。
论文及项目相关链接
Summary
本文主要介绍了在视觉语言模型(VLMs)进入交互式多轮对话应用时面临的新安全挑战。针对多模态多轮对话中的恶意内容传播问题,本文首次系统地定义了MMT对话安全并进行研究,构建了Multimodal Multi-turn Dialogue Safety(MMDS)数据集。同时,利用蒙特卡洛树搜索(MCTS)技术构建了一个自动化的多模态红队模拟框架来生成不安全的对话内容。本文提出的LLaVAShield工具能够在用户输入和助理回复中联合检测和评估风险,并在多项实验中表现出卓越性能。
Key Takeaways
- 视觉语言模型在多模态多轮对话中的新安全挑战:随着视觉语言模型在多轮对话中的广泛应用,面临新的安全挑战,如恶意内容的传播和有害内容的推进。
- MMT对话安全性的系统定义与研究:本文首次系统地定义了多模态多轮对话(MMT)对话的安全性,并进行了深入研究。
- MMDS数据集的构建:为了应对这一挑战,构建了Multimodal Multi-turn Dialogue Safety(MMDS)数据集,包含4484个标注的多模态对话样本,具有细粒度的安全评级、政策维度标签和基于证据的理由。
- 基于蒙特卡洛树搜索的自动化模拟框架:利用蒙特卡洛树搜索(MCTS)技术,开发了一个自动化的多模态红队模拟框架来生成不安全的对话内容。
- LLaVAShield工具的提出:本文提出了LLaVAShield工具,该工具能够在用户输入和助理回复中联合检测和评估风险,并在多项实验中表现出卓越性能。
- LLaVAShield在MMT内容管理任务中的优势:在全面的实验中,LLaVAShield在多模态多轮对话内容管理任务上始终优于强大的基线模型。
点此查看论文截图




