嘘~ 正在从服务器偷取页面 . . .

GAN


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-27 更新

Beyond Binary Classification: A Semi-supervised Approach to Generalized AI-generated Image Detection

Authors:Hong-Hanh Nguyen-Le, Van-Tuan Tran, Dinh-Thuc Nguyen, Nhien-An Le-Khac

The rapid advancement of generators (e.g., StyleGAN, Midjourney, DALL-E) has produced highly realistic synthetic images, posing significant challenges to digital media authenticity. These generators are typically based on a few core architectural families, primarily Generative Adversarial Networks (GANs) and Diffusion Models (DMs). A critical vulnerability in current forensics is the failure of detectors to achieve cross-generator generalization, especially when crossing architectural boundaries (e.g., from GANs to DMs). We hypothesize that this gap stems from fundamental differences in the artifacts produced by these \textbf{distinct architectures}. In this work, we provide a theoretical analysis explaining how the distinct optimization objectives of the GAN and DM architectures lead to different manifold coverage behaviors. We demonstrate that GANs permit partial coverage, often leading to boundary artifacts, while DMs enforce complete coverage, resulting in over-smoothing patterns. Motivated by this analysis, we propose the \textbf{Tri}archy \textbf{Detect}or (TriDetect), a semi-supervised approach that enhances binary classification by discovering latent architectural patterns within the “fake” class. TriDetect employs balanced cluster assignment via the Sinkhorn-Knopp algorithm and a cross-view consistency mechanism, encouraging the model to learn fundamental architectural distincts. We evaluate our approach on two standard benchmarks and three in-the-wild datasets against 13 baselines to demonstrate its generalization capability to unseen generators.

生成器(例如StyleGAN、Midjourney、DALL-E)的快速发展产生了高度逼真的合成图像,给数字媒体的真实性带来了重大挑战。这些生成器通常基于一些核心架构家族,主要是生成对抗网络(GANs)和扩散模型(DMs)。当前检测领域的一个关键漏洞是检测器无法实现跨生成器的泛化,尤其是在跨越架构边界时(例如从GANs到DMs)。我们假设这一差距源于这些不同架构所产生痕迹的根本差异。在这项工作中,我们提供了理论分析,解释了GAN和DM架构的不同优化目标是如何导致不同的流形覆盖行为的。我们证明GANs允许部分覆盖,通常会导致边界痕迹,而DMs强制执行完全覆盖,导致过度平滑模式。受此分析驱动,我们提出了基于半监督方法的TriDetect检测器,它通过发现“伪造”类别中的潜在架构模式来增强二分类。TriDetect采用Sinkhorn-Knopp算法进行平衡聚类分配和跨视图一致性机制,鼓励模型学习基本的架构差异。我们在两个标准基准测试集和三个野生数据集上评估了我们的方法,与13种基线方法相比,以证明其对未见过的生成器的泛化能力。

论文及项目相关链接

PDF Accepted to The 40th Annual AAAI Conference on Artificial Intelligence - 2025

Summary

本文探讨了基于生成对抗网络(GANs)和扩散模型(DMs)的生成器(如StyleGAN、Midjourney、DALL-E)的发展对数字媒体真实性的挑战。文章指出当前检测器在跨生成器架构(如从GANs到DMs)的泛化方面存在不足,并假设这是由不同架构产生的特征差异造成的。文章对GAN和DM架构的不同优化目标进行了分析,并展示了它们不同的流形覆盖行为。在此基础上,提出了基于半监督方法的TriDetect检测器,通过发现伪造类别中的潜在架构模式增强二分类性能。TriDetect采用Sinkhorn-Knopp算法的平衡集群分配和跨视图一致性机制,促进模型学习基本的架构差异。实验评估表明,TriDetect在未见过的生成器上具有泛化能力。

Key Takeaways

  1. 生成器(如StyleGAN、Midjourney、DALL-E)的发展带来了高度真实的合成图像,对数字媒体的真实性构成了挑战。
  2. 当前检测器在跨不同生成器架构(如GANs到DMs)的泛化方面存在不足。
  3. GAN和DM架构有不同的优化目标和流形覆盖行为,导致不同的图像生成特点。
  4. GANs往往导致边界伪影,而DMs则产生过度平滑的模式。
  5. TriDetect检测器是一种半监督方法,旨在增强二分类性能,通过发现伪造类别中的潜在架构模式。
  6. TriDetect采用平衡集群分配和跨视图一致性机制,以促进学习基本架构差异。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
  目录