⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-09-19 更新
Gaussian Alignment for Relative Camera Pose Estimation via Single-View Reconstruction
Authors:Yumin Li, Dylan Campbell
Estimating metric relative camera pose from a pair of images is of great importance for 3D reconstruction and localisation. However, conventional two-view pose estimation methods are not metric, with camera translation known only up to a scale, and struggle with wide baselines and textureless or reflective surfaces. This paper introduces GARPS, a training-free framework that casts this problem as the direct alignment of two independently reconstructed 3D scenes. GARPS leverages a metric monocular depth estimator and a Gaussian scene reconstructor to obtain a metric 3D Gaussian Mixture Model (GMM) for each image. It then refines an initial pose from a feed-forward two-view pose estimator by optimising a differentiable GMM alignment objective. This objective jointly considers geometric structure, view-independent colour, anisotropic covariance, and semantic feature consistency, and is robust to occlusions and texture-poor regions without requiring explicit 2D correspondences. Extensive experiments on the Real-Estate10K dataset demonstrate that GARPS outperforms both classical and state-of-the-art learning-based methods, including MASt3R. These results highlight the potential of bridging single-view perception with multi-view geometry to achieve robust and metric relative pose estimation.
从一对图像中估计度量相对相机姿态对于3D重建和定位非常重要。然而,传统的两视图姿态估计方法并非度量方法,仅知道相机缩放的翻译,并且在宽基线、无纹理或反射表面上表现不佳。本文介绍了GARPS,这是一种无需训练的框架,将这个问题转化为两个独立重建的3D场景的直接对齐。GARPS利用度量单眼深度估计器和高斯场景重建器为每个图像获得度量3D高斯混合模型(GMM)。然后,它通过优化可微分的GMM对齐目标来改进来自前馈两视图姿态估计器的初始姿态。此目标同时考虑几何结构、与视图无关的颜色、各向异性协方差和语义特征的一致性,并且无需明确的2D对应关系即可遮挡和纹理较差的区域保持稳健。在Real-Estate10K数据集上的广泛实验表明,GARPS优于经典的和最先进的学习型方法,包括MASt3R。这些结果突出了将单视图感知与多视图几何相结合以实现稳健和度量相对姿态估计的潜力。
论文及项目相关链接
PDF 12 pages, 4 figures, accepted by AJCAI 2025
Summary
本文提出了一个名为GARPS的无训练框架,用于从一对图像中估计度量的相对相机姿态。通过直接对齐两个独立重建的3D场景来解决该问题,该框架利用单眼深度估计器和高斯场景重建器为每个图像获得度量的3D高斯混合模型(GMM)。然后,通过优化可微分的GMM对齐目标来改进来自前馈式两视图姿态估计器的初始姿态。该目标联合考虑几何结构、视独立的颜色、各向异性协方差和语义特征一致性,在遮挡和纹理不足的区域中不需要明确的二维对应关系即可保持稳健。在Real-Estate10K数据集上的广泛实验表明,GARPS在经典的和最新的基于学习的方法中表现出色,包括MASt3R。这显示了将单视图感知与多视图几何相结合以实现稳健和度量相对姿态估计的潜力。
Key Takeaways
- GARPS是一个无训练框架,用于从一对图像中估计度量的相机相对姿态。
- 该方法通过直接对齐两个独立重建的3D场景来解决姿态估计问题。
- GARPS利用单眼深度估计器和高斯场景重建器为每个图像构建度量的3D高斯混合模型(GMM)。
- 通过优化考虑几何结构、颜色、各向异性协方差和语义特征一致性的可微分GMM对齐目标来改进姿态估计。
- GARPS在广泛的数据集实验上表现出色,优于经典的和最新的基于学习的方法。
点此查看论文截图



Music2Palette: Emotion-aligned Color Palette Generation via Cross-Modal Representation Learning
Authors:Jiayun Hu, Yueyi He, Tianyi Liang, Changbo Wang, Chenhui Li
Emotion alignment between music and palettes is crucial for effective multimedia content, yet misalignment creates confusion that weakens the intended message. However, existing methods often generate only a single dominant color, missing emotion variation. Others rely on indirect mappings through text or images, resulting in the loss of crucial emotion details. To address these challenges, we present Music2Palette, a novel method for emotion-aligned color palette generation via cross-modal representation learning. We first construct MuCED, a dataset of 2,634 expert-validated music-palette pairs aligned through Russell-based emotion vectors. To directly translate music into palettes, we propose a cross-modal representation learning framework with a music encoder and color decoder. We further propose a multi-objective optimization approach that jointly enhances emotion alignment, color diversity, and palette coherence. Extensive experiments demonstrate that our method outperforms current methods in interpreting music emotion and generating attractive and diverse color palettes. Our approach enables applications like music-driven image recoloring, video generating, and data visualization, bridging the gap between auditory and visual emotion experiences.
音乐与调色板之间的情感对齐对于有效的多媒体内容至关重要,然而情感错位会造成混淆,削弱原意。然而,现有方法往往只生成一种主要的颜色,忽略了情感变化。其他方法依赖于文本或图像的间接映射,导致重要情感细节的丢失。为了解决这些挑战,我们提出了Music2Palette,这是一种通过跨模态表示学习生成与情感对齐的颜色调色板的新方法。我们首先构建了MuCED数据集,包含经过专家验证的2634对音乐调色板组合,通过基于Russell的情感向量进行对齐。为了直接将音乐转化为调色板,我们提出了一个跨模态表示学习框架,包括音乐编码器和颜色解码器。我们进一步提出了一种多目标优化方法,联合提高情感对齐、颜色多样性和调色板的一致性。大量实验表明,我们的方法在解释音乐情感和生成有吸引力和多样化的颜色调色板方面优于当前方法。我们的方法在音乐驱动图像重新着色、视频生成和数据可视化等应用中发挥作用,缩小了听觉和视觉情感体验之间的差距。
论文及项目相关链接
Summary
音乐与调色板之间的情感对齐对于有效的多媒体内容至关重要,而情感的不对齐会削弱信息传达的效果。现有方法常常只生成单一主导颜色,忽略了情感变化;其他方法则依赖于文本或图像的间接映射,导致情感细节丢失。本研究提出Music2Palette方法,通过跨模态表示学习实现音乐情感与调色板对齐。首先构建MuCED数据集,包含2634组专家验证的音乐与调色板配对;并提出一种跨模态表示学习框架,包括音乐编码器和颜色解码器,直接实现音乐到调色板的转换。此外,采用多目标优化方法,提高情感对齐、颜色多样性和调色板一致性。实验证明,该方法在解读音乐情感和生成色彩丰富、多样化的调色板方面优于现有方法。可应用于音乐驱动图像重新着色、视频生成和数据可视化等领域,缩小听觉和视觉情感体验的鸿沟。
Key Takeaways
- 音乐与调色板情感对齐对多媒体内容传达至关重要。
- 现有方法存在单一主导颜色生成及情感细节丢失问题。
- Music2Palette方法通过跨模态表示学习实现音乐到调色板的直接转换。
- 构建MuCED数据集,包含专家验证的音乐与调色板配对。
- 提出跨模态表示学习框架包括音乐编码器和颜色解码器。
- 采用多目标优化方法提高情感对齐、颜色多样性和调色板一致性。
点此查看论文截图




A Culturally-diverse Multilingual Multimodal Video Benchmark & Model
Authors:Bhuiyan Sanjid Shafique, Ashmal Vayani, Muhammad Maaz, Hanoona Abdul Rasheed, Dinura Dissanayake, Mohammed Irfan Kurpath, Yahya Hmaiti, Go Inoue, Jean Lahoud, Md. Safirur Rashid, Shadid Intisar Quasem, Maheen Fatima, Franco Vidal, Mykola Maslych, Ketan Pravin More, Sanoojan Baliah, Hasindri Watawana, Yuhao Li, Fabian Farestam, Leon Schaller, Roman Tymtsiv, Simon Weber, Hisham Cholakkal, Ivan Laptev, Shin’ichi Satoh, Michael Felsberg, Mubarak Shah, Salman Khan, Fahad Shahbaz Khan
Large multimodal models (LMMs) have recently gained attention due to their effectiveness to understand and generate descriptions of visual content. Most existing LMMs are in English language. While few recent works explore multilingual image LMMs, to the best of our knowledge, moving beyond the English language for cultural and linguistic inclusivity is yet to be investigated in the context of video LMMs. In pursuit of more inclusive video LMMs, we introduce a multilingual Video LMM benchmark, named ViMUL-Bench, to evaluate Video LMMs across 14 languages, including both low- and high-resource languages: English, Chinese, Spanish, French, German, Hindi, Arabic, Russian, Bengali, Urdu, Sinhala, Tamil, Swedish, and Japanese. Our ViMUL-Bench is designed to rigorously test video LMMs across 15 categories including eight culturally diverse categories, ranging from lifestyles and festivals to foods and rituals and from local landmarks to prominent cultural personalities. ViMUL-Bench comprises both open-ended (short and long-form) and multiple-choice questions spanning various video durations (short, medium, and long) with 8k samples that are manually verified by native language speakers. In addition, we also introduce a machine translated multilingual video training set comprising 1.2 million samples and develop a simple multilingual video LMM, named ViMUL, that is shown to provide a better tradeoff between high-and low-resource languages for video understanding. We hope our ViMUL-Bench and multilingual video LMM along with a large-scale multilingual video training set will help ease future research in developing cultural and linguistic inclusive multilingual video LMMs. Our proposed benchmark, video LMM and training data will be publicly released at https://mbzuai-oryx.github.io/ViMUL/.
大型多模态模型(LMM)由于其理解和生成视觉内容描述的有效性而最近受到关注。现有的大多数LMM都是用英语。尽管有一些近期的研究探讨了多语言图像LMM,但据我们所知,从文化包容性和语言包容性的角度来看,超越英语到视频LMM的情境尚未被探索。为了寻求更具包容性的视频LMM,我们引入了一个多语言视频LMM基准测试,名为ViMUL-Bench,可评估包括低资源语言和高资源语言在内的14种语言的视频LMM:英语、中文、西班牙语、法语、德语、印地语、阿拉伯语、俄语、孟加拉语、乌尔都语、僧伽罗语、泰米尔语、瑞典语和日本语。我们的ViMUL-Bench被设计成严格测试包括生活方式和节日在内的涵盖八个文化类别的视频LMM以及食品、仪式和当地地标以及著名文化人物等内容。ViMUL-Bench既包括开放问题(短形式和长形式)也包括涉及各种视频持续时间(短、中和长)的多个选择题,包含由母语人士人工验证的8k样本。此外,我们还引入了包含约包含一百二十万个样本的机器翻译多语言视频训练集,并开发了一个简单的多语言视频LMM命名为ViMUL。它可以平衡不同资源丰度语言之间对于视频理解的需求,显示出良好的性能。我们希望我们的ViMUL-Bench和多语言视频LMM以及大规模多语言视频训练集将有助于未来研究发展出更具文化和语言包容性的多语言视频LMM。我们提出的基准测试、视频LMM和训练数据将在https://mbzuai-oryx.github.io/ViMUL/上公开发布。
论文及项目相关链接
Summary
本文介绍了一个名为ViMUL-Bench的多语种视频大型模态模型(LMM)基准测试平台,旨在评估包含14种语言的视频LMM,包括低资源和高资源语言。该平台涵盖了15个类别,包括文化多样性丰富的类别,如生活方式、节日、食品、仪式、本地地标和著名文化人物等。此外,还引入了机器翻译的多语种视频训练集和名为ViMUL的简单多语种视频LMM,旨在为未来研究和开发文化和语言包容性的多语种视频LMM提供帮助。
Key Takeaways
- ViMUL-Bench是一个多语种视频LMM基准测试平台,支持14种语言,包括多种资源水平不同的语言。
- 平台涵盖15个类别,包括文化多样性丰富的类别,如生活方式、节日等。
- 提供了机器翻译的多语种视频训练集。
- 提出了一个简单的多语种视频LMM——ViMUL。
- ViMUL在高低资源语言之间的视频理解上达到了较好的平衡。
- ViMUL-Bench和ViMUL模型以及多语种视频训练集将有助于未来研究和开发更包含文化和语言多样性的多语种视频LMM。
点此查看论文截图




