⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-06-21 更新
Understanding and Benchmarking the Trustworthiness in Multimodal LLMs for Video Understanding
Authors:Youze Wang, Zijun Chen, Ruoyu Chen, Shishen Gu, Yinpeng Dong, Hang Su, Jun Zhu, Meng Wang, Richang Hong, Wenbo Hu
Recent advancements in multimodal large language models for video understanding (videoLLMs) have improved their ability to process dynamic multimodal data. However, trustworthiness challenges factual inaccuracies, harmful content, biases, hallucinations, and privacy risks, undermine reliability due to video data’s spatiotemporal complexities. This study introduces Trust-videoLLMs, a comprehensive benchmark evaluating videoLLMs across five dimensions: truthfulness, safety, robustness, fairness, and privacy. Comprising 30 tasks with adapted, synthetic, and annotated videos, the framework assesses dynamic visual scenarios, cross-modal interactions, and real-world safety concerns. Our evaluation of 23 state-of-the-art videoLLMs (5 commercial,18 open-source) reveals significant limitations in dynamic visual scene understanding and cross-modal perturbation resilience. Open-source videoLLMs show occasional truthfulness advantages but inferior overall credibility compared to commercial models, with data diversity outperforming scale effects. These findings highlight the need for advanced safety alignment to enhance capabilities. Trust-videoLLMs provides a publicly available, extensible toolbox for standardized trustworthiness assessments, bridging the gap between accuracy-focused benchmarks and critical demands for robustness, safety, fairness, and privacy.
近期,针对视频理解的多模态大型语言模型(videoLLMs)的进展提升了其处理动态多模态数据的能力。然而,信任度挑战仍然存在于事实不准确、有害内容、偏见、幻觉和隐私风险等方面,由于视频数据的时空复杂性,信任度受到损害。本研究介绍了Trust-videoLLMs,这是一个全面评估videoLLMs在五个维度(真实性、安全性、稳健性、公平性和隐私性)表现的基准测试。该框架包含30个任务,包括改编、合成和注释的视频,旨在评估动态视觉场景、跨模态交互和现实世界的安全问题。我们对23款最先进视频LLM(包括商业版和视频开放源代码版各为)的评估表明,它们在理解动态视觉场景和应对跨模态扰动方面的存在明显局限性。相比商业模型而言,开源视频LLM在真实性方面偶尔具有优势,但总体可信度较差,且数据多样性优于规模效应。这些发现突显了加强先进安全对齐的需求以提升能力。Trust-videoLLMs提供了一个公开可用的可扩展工具箱,用于标准化信任度评估,弥合了注重准确性的基准测试和对稳健性、安全性、公平性和隐私性的迫切需求之间的鸿沟。
论文及项目相关链接
Summary
近期视频理解领域的大型多模态语言模型(videoLLMs)在动态多媒体数据处理方面取得了进展,但信任度问题(如事实准确性、有害内容、偏见、幻觉和隐私风险)由于视频数据的时空复杂性而影响了其可靠性。本研究提出了Trust-videoLLMs综合基准测试,从真实性、安全性、稳健性、公平性和隐私性五个维度对videoLLMs进行评估。该框架通过适应、合成和注释的视频组成30项任务,评估动态视觉场景、跨模态交互和现实世界的安全担忧。对23款最新videoLLMs(5款商用,18款开源)的评估显示,它们在动态视觉场景理解和跨模态扰动恢复方面存在重大局限。开源videoLLMs在真实性方面偶尔有优势,但总体可信度较差,且数据多样性优于规模效应。这些发现强调了在提高能力的同时加强安全对齐的必要性。Trust-videoLLMs提供了一个公开可用的可扩展工具箱,用于标准化信任度评估,缩小了以准确性为中心的基准测试和稳健性、安全性、公平性和隐私性的关键需求之间的差距。
Key Takeaways
- 视频理解领域的多模态大型语言模型(videoLLMs)在处理动态多媒体数据时取得进展。
- 信任度问题影响videoLLMs的可靠性,包括事实准确性、有害内容、偏见、幻觉和隐私风险。
- Trust-videoLLMs是一个综合基准测试,从五个维度评估videoLLMs:真实性、安全性、稳健性、公平性和隐私性。
- 评估显示,视频LLM在动态视觉场景理解和跨模态扰动恢复方面存在局限。
- 开源videoLLMs在真实性方面有优势,但总体可信度较低。
- 数据多样性在视频LLM性能中比规模效应更重要。
点此查看论文截图




