⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-10-10 更新
GIIFT: Graph-guided Inductive Image-free Multimodal Machine Translation
Authors:Jiafeng Xiong, Yuting Zhao
Multimodal Machine Translation (MMT) has demonstrated the significant help of visual information in machine translation. However, existing MMT methods face challenges in leveraging the modality gap by enforcing rigid visual-linguistic alignment whilst being confined to inference within their trained multimodal domains. In this work, we construct novel multimodal scene graphs to preserve and integrate modality-specific information and introduce GIIFT, a two-stage Graph-guided Inductive Image-Free MMT framework that uses a cross-modal Graph Attention Network adapter to learn multimodal knowledge in a unified fused space and inductively generalize it to broader image-free translation domains. Experimental results on the Multi30K dataset of English-to-French and English-to-German tasks demonstrate that our GIIFT surpasses existing approaches and achieves the state-of-the-art, even without images during inference. Results on the WMT benchmark show significant improvements over the image-free translation baselines, demonstrating the strength of GIIFT towards inductive image-free inference.
多模态机器翻译(MMT)已经证明了视觉信息在机器翻译中的巨大帮助。然而,现有的MMT方法在利用模态差距方面面临挑战,它们通过强制视觉语言对齐而受到限制,只能在训练过的多模态域内进行推理。在这项工作中,我们构建了新型的多模态场景图,以保存和整合特定模态的信息,并引入了GIIFT,这是一个两阶段的图引导归纳无图多模态翻译框架。它使用跨模态图注意力网络适配器,在统一融合空间学习多模态知识,并归纳推广至更广泛的无图像翻译领域。在Multi30K英语到法语和英语到德语任务的实验结果表明,我们的GIIFT超越了现有方法,实现了最先进的性能,即使在推理过程中没有图像。在WMT基准测试上的结果证明,与无图像翻译基线相比,GIIFT的改进显著,显示出其在归纳无图像推理方面的优势。
论文及项目相关链接
PDF Accepted as an oral presentation at the EMNLP 2025 Workshop on Machine Translation (WMT)
Summary
多模态机器翻译(MMT)利用视觉信息对机器翻译产生重要影响。然而,现有MMT方法面临跨模态间隙的挑战,它们通过强制视觉语言对齐并受限于在训练的多模态域内进行推理。本研究构建新型多模态场景图以保留和整合模态特定信息,并引入GIIFT,这是一个两阶段的图像引导型无图像MMT框架,使用跨模态图注意力网络适配器在统一融合空间中学习多模态知识并将其归纳推广至更广泛的图像外翻译领域。在Multi30K数据集上的英语至法语和英语至德语任务实验结果证明,GIIFT超越现有方法并达到最先进的水平,且在推理过程中无需图像。在WMT基准测试上的结果也显著优于无图像翻译基线,证明了GIIFT在归纳无图像推理方面的优势。
Key Takeaways
- 多模态机器翻译(MMT)借助视觉信息对机器翻译产生积极影响。
- 现有多模态机器翻译方法存在跨模态间隙问题,即在视觉和语言之间的对齐难题,并且其应用场景局限于训练过的多模态领域。
- 为解决上述问题,研究构建了新型多模态场景图以整合模态特定信息。
- 引入了两阶段的图像引导型无图像MMT框架——GIIFT。
- GIIFT使用跨模态图注意力网络适配器在统一融合空间中学习多模态知识。
- 在Multi30K数据集上的实验证明GIIFT在无需图像的情况下超越了现有方法并达到最先进的翻译效果。
- 在WMT基准测试上,GIIFT的表现在无图像翻译领域也有显著提升,证明了其在归纳无图像推理方面的优势。
点此查看论文截图




