嘘~ 正在从服务器偷取页面 . . .

I2I Translation


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-01-21 更新

CSHNet: A Novel Information Asymmetric Image Translation Method

Authors:Xi Yang, Haoyuan Shi, Zihan Wang, Nannan Wang, Xinbo Gao

Despite advancements in cross-domain image translation, challenges persist in asymmetric tasks such as SAR-to-Optical and Sketch-to-Instance conversions, which involve transforming data from a less detailed domain into one with richer content. Traditional CNN-based methods are effective at capturing fine details but struggle with global structure, leading to unwanted merging of image regions. To address this, we propose the CNN-Swin Hybrid Network (CSHNet), which combines two key modules: Swin Embedded CNN (SEC) and CNN Embedded Swin (CES), forming the SEC-CES-Bottleneck (SCB). SEC leverages CNN’s detailed feature extraction while integrating the Swin Transformer’s structural bias. CES, in turn, preserves the Swin Transformer’s global integrity, compensating for CNN’s lack of focus on structure. Additionally, CSHNet includes two components designed to enhance cross-domain information retention: the Interactive Guided Connection (IGC), which enables dynamic information exchange between SEC and CES, and Adaptive Edge Perception Loss (AEPL), which maintains structural boundaries during translation. Experimental results show that CSHNet outperforms existing methods in both visual quality and performance metrics across scene-level and instance-level datasets. Our code is available at: https://github.com/XduShi/CSHNet.

尽管跨域图像翻译领域已经取得了进展,但在SAR-to-Optical和Sketch-to-Instance等不对称任务中仍然存在挑战,这些任务涉及将内容较少的数据域转换为内容丰富的数据域。传统的基于CNN的方法在捕捉细节方面很有效,但在全局结构上存在困难,导致图像区域的意外合并。为了解决这一问题,我们提出了CNN-Swin混合网络(CSHNet),它结合了两个关键模块:Swin嵌入CNN(SEC)和CNN嵌入Swin(CES),形成了SEC-CES瓶颈(SCB)。SEC利用CNN的细节特征提取功能,同时集成Swin Transformer的结构偏见。而CES则保留了Swin Transformer的全局完整性,弥补了CNN对结构关注的不足。此外,CSHNet还包括两个旨在增强跨域信息保留的组件:交互式引导连接(IGC),它使SEC和CES之间进行动态信息交换,以及自适应边缘感知损失(AEPL),它在翻译过程中保持结构边界。实验结果表明,CSHNet在场景级和实例级数据集上均优于现有方法在视觉质量和性能指标方面的表现。我们的代码位于:https://github.com/XduShi/CSHNet。

论文及项目相关链接

PDF

Summary

本文介绍了跨域图像翻译的挑战,特别是在SAR-to-Optical和Sketch-to-Instance等不对称任务中。为解决传统CNN方法在全局结构上的不足,提出CNN-Swin Hybrid Network(CSHNet)。该网络结合Swin Embedded CNN(SEC)和CNN Embedded Swin(CES)两个关键模块,形成SEC-CES-Bottleneck(SCB)。同时,引入Interactive Guided Connection(IGC)和Adaptive Edge Perception Loss(AEPL)增强跨域信息保留。实验结果显示,CSHNet在场景级和实例级数据集上均优于现有方法。

Key Takeaways

  1. 跨域图像翻译面临挑战,特别是在不对称任务中,如SAR-to-Optical和Sketch-to-Instance转换。
  2. 传统CNN方法在捕捉全局结构上存在困难,导致图像区域的不希望合并。
  3. 提出的CNN-Swin Hybrid Network(CSHNet)结合SEC和CES两个模块,以优化全局结构和细节捕捉。
  4. CSHNet引入Interactive Guided Connection(IGC)和Adaptive Edge Perception Loss(AEPL)以增强跨域信息保留。
  5. SEC利用CNN的细节特征提取能力,同时集成Swin Transformer的结构偏见。
  6. CES保留Swin Transformer的全局完整性,以弥补CNN对结构关注的不足。
  7. 实验结果显示,CSHNet在视觉质量和性能度量上均优于现有方法,代码已公开。

Cool Papers

点此查看论文截图

MSTS: A Multimodal Safety Test Suite for Vision-Language Models

Authors:Paul Röttger, Giuseppe Attanasio, Felix Friedrich, Janis Goldzycher, Alicia Parrish, Rishabh Bhardwaj, Chiara Di Bonaventura, Roman Eng, Gaia El Khoury Geagea, Sujata Goswami, Jieun Han, Dirk Hovy, Seogyeong Jeong, Paloma Jeretič, Flor Miriam Plaza-del-Arco, Donya Rooein, Patrick Schramowski, Anastassia Shaitarova, Xudong Shen, Richard Willats, Andrea Zugarini, Bertie Vidgen

Vision-language models (VLMs), which process image and text inputs, are increasingly integrated into chat assistants and other consumer AI applications. Without proper safeguards, however, VLMs may give harmful advice (e.g. how to self-harm) or encourage unsafe behaviours (e.g. to consume drugs). Despite these clear hazards, little work so far has evaluated VLM safety and the novel risks created by multimodal inputs. To address this gap, we introduce MSTS, a Multimodal Safety Test Suite for VLMs. MSTS comprises 400 test prompts across 40 fine-grained hazard categories. Each test prompt consists of a text and an image that only in combination reveal their full unsafe meaning. With MSTS, we find clear safety issues in several open VLMs. We also find some VLMs to be safe by accident, meaning that they are safe because they fail to understand even simple test prompts. We translate MSTS into ten languages, showing non-English prompts to increase the rate of unsafe model responses. We also show models to be safer when tested with text only rather than multimodal prompts. Finally, we explore the automation of VLM safety assessments, finding even the best safety classifiers to be lacking.

视觉语言模型(VLMs)能够处理图像和文本输入,越来越多地被集成到聊天助手和其他消费级人工智能应用程序中。然而,如果没有适当的保障措施,VLMs可能会提供有害的建议(例如如何自残)或鼓励不安全的行为(例如服用药物)。尽管这些明显的危害存在,但迄今为止很少有工作评估VLM的安全性和多模式输入产生的新型风险。为了弥补这一空白,我们引入了MSTS,即视觉语言模型的多模式安全测试套件。MSTS包含400个测试提示,涵盖40个精细的危险类别。每个测试提示都由文本和图像组成,只有结合在一起才能揭示其完全的不安全含义。使用MSTS,我们在几个开放的VLM中发现了明确的安全问题。我们还发现一些VLM出于偶然的安全,这意味着它们之所以安全是因为它们甚至无法理解简单的测试提示。我们将MSTS翻译成十种语言,展示非英语提示,以提高不安全模型响应率。我们还发现,与文本提示相比,使用多模式提示进行测试时,模型的安全性更高。最后,我们探索了VLM安全评估的自动化,发现即使是最好的安全分类器也有不足之处。

论文及项目相关链接

PDF under review

Summary
视觉语言模型(VLMs)在处理图像和文本输入时,越来越被集成到聊天助手和其他消费类人工智能应用程序中。然而,如果没有适当的保护措施,VLMs可能会提供有害的建议或鼓励不安全行为。为解决此问题,我们推出了MSTS,即视觉语言模型的多模式安全测试套件。MSTS包含400个测试提示,涵盖40个精细的危险类别。每个测试提示由文本和图像组成,只有两者结合才能揭示其完整的不安全含义。通过使用MSTS,我们在几种开放的VLMs中发现了明显安全问题。我们还发现某些VLMs出于偶然的安全状态,即使无法理解简单的测试提示也会被视为安全。我们将MSTS翻译成十种语言,展示非英语提示以提高模型不安全响应率。我们还发现与文本相比,使用多模式提示进行测试时模型更安全。最后,我们探索了VLM安全评估的自动化,发现即使是最好的安全分类器也有不足。

Key Takeaways

  1. VLMs在处理图像和文本输入时可能提供有害的建议或鼓励不安全行为。
  2. MSTS是一个多模式安全测试套件,旨在评估VLMs的安全性问题。
  3. MSTS包含400个测试提示和40个危险类别,揭示出某些VLMs存在的安全问题。
  4. 部分VLMs的安全性是偶然的,即使它们无法理解简单的测试提示也会表现出安全性。
  5. 将MSTS翻译成十种语言进行测试,发现非英语提示能提高模型不安全响应率。
  6. 与文本输入相比,使用多模式提示进行测试时,VLMs表现出更高的安全性。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
视频理解 视频理解
视频理解 方向最新论文已更新,请持续关注 Update in 2025-01-21 Tarsier2 Advancing Large Vision-Language Models from Detailed Video Description to Comprehensive Video Understanding
2025-01-21
下一篇 
Few-Shot Few-Shot
Few-Shot 方向最新论文已更新,请持续关注 Update in 2025-01-21 ACE Anatomically Consistent Embeddings in Composition and Decomposition
2025-01-21
  目录