嘘~ 正在从服务器偷取页面 . . .

MMT


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-19 更新

VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction

Authors:Hao Wang, Eiki Murata, Lingfang Zhang, Ayako Sato, So Fukuda, Ziqi Yin, Wentao Hu, Keisuke Nakao, Yusuke Nakamura, Sebastian Zwirner, Yi-Chia Chen, Hiroyuki Otomo, Hiroki Ouchi, Daisuke Kawahara

Recent advances in multimodal large language models (MLLMs) have significantly enhanced video understanding capabilities, opening new possibilities for practical applications. Yet current video benchmarks focus largely on indoor scenes or short-range outdoor activities, leaving the challenges associated with long-distance travel largely unexplored. Mastering extended geospatial-temporal trajectories is critical for next-generation MLLMs, underpinning real-world tasks such as embodied-AI planning and navigation. To bridge this gap, we present VIR-Bench, a novel benchmark consisting of 200 travel videos that frames itinerary reconstruction as a challenging task designed to evaluate and push forward MLLMs’ geospatial-temporal intelligence. Experimental results reveal that state-of-the-art MLLMs, including proprietary ones, struggle to achieve high scores, underscoring the difficulty of handling videos that span extended spatial and temporal scales. Moreover, we conduct an in-depth case study in which we develop a prototype travel-planning agent that leverages the insights gained from VIR-Bench. The agent’s markedly improved itinerary recommendations verify that our evaluation protocol not only benchmarks models effectively but also translates into concrete performance gains in user-facing applications.

近期多模态大型语言模型(MLLMs)的进步极大地增强了视频理解能力,为实际应用开辟了新的可能性。然而,当前的视频基准测试主要关注室内场景或近距离户外活动,与长途旅行相关的挑战仍然在很大程度上未被探索。掌握扩展的地理时空轨迹对下一代MLLMs至关重要,为现实世界任务(如嵌入式AI规划和导航)提供支撑。为了弥补这一空白,我们推出了VIR-Bench,这是一个由200个旅行视频组成的新基准测试,它将行程重建设定为一项具有挑战性的任务,旨在评估和推动MLLMs的地理时空智能。实验结果揭示,包括专有模型在内的最新MLLMs在取得高分方面存在困难,这表明在处理涉及广泛空间和时间尺度的视频时面临挑战。此外,我们进行了一项深入的案例研究,开发了一个原型旅行规划代理,该代理利用从VIR-Bench获得的见解。代理的行程推荐显著改善,证明我们的评估协议不仅有效地评估了模型,而且还转化为面向用户的应用中的具体性能提升。

论文及项目相关链接

PDF AAAI 2026

Summary

近期多模态大型语言模型(MLLMs)的进步极大地提升了视频理解的能力,为实际应用开辟了新的可能性。然而,当前视频基准测试主要集中在室内场景或近距离户外活动上,而与远距离旅行相关的挑战仍然被大量忽视。掌握扩展地理时空轨迹对下一代MLLMs至关重要,支持现实世界任务如智能规划导航等。为填补这一空白,我们推出VIR-Bench基准测试,包含200个旅行视频,将行程重建作为挑战性任务设计,旨在评估并推动MLLMs的地理时空智能。实验结果显示,最先进的MLLMs包括专有模型在内都难以取得高分,说明处理跨越广阔空间和时间的视频非常困难。此外,我们进行了一项深入的案例研究,开发了一个利用VIR-Bench洞察的旅游规划代理原型,其行程推荐显著改善,证明了我们的评估协议不仅有效评估模型,还转化为面向用户的实际应用中的具体性能提升。

Key Takeaways

  1. 多模态大型语言模型(MLLMs)在视频理解方面取得了显著进展。
  2. 当前视频基准测试主要集中在室内场景和近距离活动上,忽视了处理远距离旅行视频的挑战。
  3. 掌握扩展地理时空轨迹对下一代MLLMs至关重要。
  4. VIR-Bench基准测试包含200个旅行视频,旨在评估MLLMs的地理时空智能。
  5. 最先进的MLLMs在处理跨越广阔空间和时间的视频时面临困难。
  6. 案例研究中开发的旅游规划代理原型利用VIR-Bench的洞察,显著改善行程推荐。

Cool Papers

点此查看论文截图

Leveraging Online Data to Enhance Medical Knowledge in a Small Persian Language Model

Authors:Mehrdad Ghassabi, Pedram Rostami, Hamidreza Baradaran Kashani, Amirhossein Poursina, Zahra Kazemi, Milad Tavakoli

The rapid advancement of language models has demonstrated the potential of artificial intelligence in the healthcare industry. However, small language models struggle with specialized domains in low-resource languages like Persian. While numerous medical-domain websites exist in Persian, no curated dataset or corpus has been available making ours the first of its kind. This study introduces a newly curated dataset comprising 20k doctor-patient Q&A pairs and 60% of a 90-million-token crawled corpus from medical magazines. Using a parameter-efficient fine-tuning approach, we enhanced the medical knowledge of the baseline model, aya-expanse-8b. Benchmark evaluations demonstrate that the fine-tuned model achieves improved accuracy in medical question answering and successfully passed the Iranian Basic Medical Science Entrance Exam (IBSEE) in September 2023, which the baseline model did not. Additionally, the fine-tuned model improved Persian-translated MMLU accuracy by an average of 2.67%. This work highlights the potential of leveraging open-access online data to enrich small language models in medical fields, providing a novel solution for Persian medical AI applications suitable for resource-constrained environments. Future research could explore multimodal input to further enhance performance.

语言模型的快速发展已经证明了人工智能在医疗行业中的潜力。然而,小型的语言模型在处理波斯语等低资源语言的特定领域时面临挑战。虽然存在许多波斯语的医疗领域网站,但一直没有可用的精选数据集或语料库,因此我们的研究是首创的。本研究介绍了一个新精选的数据集,包含2万个医生与患者的问答对,以及一个由医疗杂志爬取的9000万标记语料库的60%。通过使用参数高效的微调方法,我们增强了基线模型aya-expanse-8b的医疗知识。基准评估显示,微调后的模型在医疗问答方面的准确性得到了提高,并成功通过了2023年9月的伊朗基础医学入学考试(IBSEE),而基线模型则没有通过。此外,微调后的模型提高了波斯语翻译的MMLU准确率,平均提高了2.67%。这项工作强调了利用开放访问的在线数据来丰富小型语言模型在医疗领域的潜力,为资源受限环境中的波斯医疗人工智能应用提供了一种新的解决方案。未来的研究可以探索多模式输入来进一步提高性能。

论文及项目相关链接

PDF 8 pages, 7 figures

Summary

本文介绍了在医疗领域,语言模型的快速发展显示出人工智能的巨大潜力。然而,对于波斯语等低资源语言的专业领域,小型语言模型面临挑战。本研究首创波斯语医疗领域数据集,包含2万对医生与患者的问答对及从医学杂志爬取的9000万词汇中的60%。通过参数高效的微调方法,提升了基线模型aya-expanse-8b的医疗知识。评估显示,微调模型在医疗问答中的准确度有所提高,并通过了伊朗基础医学入学考试(IBSEE),而基线模型则未能通过。此外,微调模型提高了波斯语翻译的MMLU准确率平均达2.67%。研究突显了利用开放在线数据丰富小型语言模型在医疗领域的潜力,为资源受限环境中的波斯医疗AI应用提供新颖解决方案。

Key Takeaways

  1. 语言模型在医疗领域具有巨大潜力,但小型语言模型在专业化、低资源语言上表现不足。
  2. 首次创建了波斯语医疗领域的数据集,包含医生与患者问答对及从医学杂志爬取的语料库。
  3. 通过参数高效的微调方法提升了基线模型的医疗知识。
  4. 评估显示微调模型在医疗问答上的准确度提高,成功通过了伊朗基础医学入学考试。
  5. 相比基线模型,微调模型提高了波斯语翻译的MMLU准确率。
  6. 研究展示了利用在线数据增强小型语言模型在医疗领域的潜力。

Cool Papers

点此查看论文截图

FBSDiff: Plug-and-Play Frequency Band Substitution of Diffusion Features for Highly Controllable Text-Driven Image Translation

Authors:Xiang Gao, Jiaying Liu

Large-scale text-to-image diffusion models have been a revolutionary milestone in the evolution of generative AI and multimodal technology, allowing wonderful image generation with natural-language text prompt. However, the issue of lacking controllability of such models restricts their practical applicability for real-life content creation. Thus, attention has been focused on leveraging a reference image to control text-to-image synthesis, which is also regarded as manipulating (or editing) a reference image as per a text prompt, namely, text-driven image-to-image translation. This paper contributes a novel, concise, and efficient approach that adapts pre-trained large-scale text-to-image (T2I) diffusion model to the image-to-image (I2I) paradigm in a plug-and-play manner, realizing high-quality and versatile text-driven I2I translation without any model training, model fine-tuning, or online optimization process. To guide T2I generation with a reference image, we propose to decompose diverse guiding factors with different frequency bands of diffusion features in the DCT spectral space, and accordingly devise a novel frequency band substitution layer which realizes dynamic control of the reference image to the T2I generation result in a plug-and-play manner. We demonstrate that our method allows flexible control over both guiding factor and guiding intensity of the reference image simply by tuning the type and bandwidth of the substituted frequency band, respectively. Extensive qualitative and quantitative experiments verify superiority of our approach over related methods in I2I translation visual quality, versatility, and controllability. The code is publicly available at: https://github.com/XiangGao1102/FBSDiff.

大规模文本到图像的扩散模型在生成式人工智能和多模态技术发展中是一个革命性的里程碑。它允许使用自然语言文本提示来生成精彩的图像。然而,这类模型缺乏可控性的问题限制了它们在现实生活中的内容创作方面的实际应用。因此,人们开始关注利用参考图像来控制文本到图像的合成,这也被视为根据文本提示操作(或编辑)参考图像,即文本驱动的图像到图像翻译。本文提出了一种新颖、简洁、高效的方法,该方法将预训练的大规模文本到图像(T2I)扩散模型以即插即用方式适应于图像到图像(I2I)范式,实现了高质量、多功能文本驱动的I2I翻译,无需进行任何模型训练、模型微调或在线优化过程。为了利用参考图像引导T2I生成,我们提出在DCT谱空间中分解具有不同频率带的扩散特征的各种引导因素,并相应地设计了一种新型频率带替换层,以即插即用方式动态控制参考图像对T2I生成结果的影响。我们证明,通过简单地调整替代的频率带的类型和带宽,我们的方法能够灵活地控制参考图像的引导因素和引导强度。大量的定性和定量实验验证了我们方法在图像到图像翻译的视觉质量、多功能性和可控性方面的优越性。代码公开在:[https://github.com/XiangGao1102/FBSDiff。]

论文及项目相关链接

PDF Accepted conference paper of ACM MM 2024

摘要

大规模文本到图像的扩散模型在生成人工智能和多模态技术的演进中是一个革命性的里程碑。它能够通过自然语言文本提示生成精彩的图像。然而,模型缺乏可控性的问题限制了它们在现实生活中的内容创建的实际应用。因此,人们开始关注利用参考图像来控制文本到图像的合成,这被视为根据文本提示操作或编辑参考图像,即文本驱动的图像到图像转换。本文提出了一种新颖、简洁、高效的方法,以即插即用方式将预训练的大规模文本到图像(T2I)扩散模型适应到图像到图像(I2I)范式中,实现了高质量和通用的文本驱动的I2I转换,无需任何模型训练、模型微调或在线优化过程。我们通过分解具有不同频率带的扩散特征的各种引导因素在DCT谱空间中,并据此设计了一种新型频率带替代层,以即插即用方式实现对参考图像的动态控制。我们证明,通过调整替代频率带的类型和带宽,我们的方法能够灵活控制引导因素和参考图像的引导强度。大量的定性和定量实验验证了我们方法在图像到图像转换的视觉质量、通用性和可控性方面的优越性。代码公开在:https://github.com/XiangGao1102/FBSDiff。

关键见解

  1. 大型文本-图像扩散模型是生成人工智能和多模态技术的重要里程碑,能够基于自然语言文本提示生成精彩图像。
  2. 当前模型缺乏足够的可控性,限制了它们在现实内容创建中的应用。
  3. 利用参考图像来控制文本到图像的合成已成为研究焦点,被看作是根据文本提示操作或编辑参考图像,即文本驱动的图像到图像转换。
  4. 本文提出了一种新的方法,以即插即用方式将预训练的文本到图像扩散模型应用于图像到图像范式中,实现了高质量和通用的文本驱动转换。
  5. 通过在DCT谱空间中分解不同频率带的扩散特征,提出了新型频率带替代层,能够动态控制参考图像的影响。
  6. 该方法允许通过调整替代频率带的类型和带宽来灵活控制引导因素和引导强度。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
Few-Shot Few-Shot
Few-Shot 方向最新论文已更新,请持续关注 Update in 2025-11-19 Part-X-MLLM Part-aware 3D Multimodal Large Language Model
2025-11-19
下一篇 
Agent Agent
Agent 方向最新论文已更新,请持续关注 Update in 2025-11-19 Live-SWE-agent Can Software Engineering Agents Self-Evolve on the Fly?
2025-11-19
  目录