嘘~ 正在从服务器偷取页面 . . .

GAN


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-09-28 更新

FerretNet: Efficient Synthetic Image Detection via Local Pixel Dependencies

Authors:Shuqiao Liang, Jian Liu, Renzhang Chen, Quanlong Guan

The increasing realism of synthetic images generated by advanced models such as VAEs, GANs, and LDMs poses significant challenges for synthetic image detection. To address this issue, we explore two artifact types introduced during the generation process: (1) latent distribution deviations and (2) decoding-induced smoothing effects, which manifest as inconsistencies in local textures, edges, and color transitions. Leveraging local pixel dependencies (LPD) properties rooted in Markov Random Fields, we reconstruct synthetic images using neighboring pixel information to expose disruptions in texture continuity and edge coherence. Building upon LPD, we propose FerretNet, a lightweight neural network with only 1.1M parameters that delivers efficient and robust synthetic image detection. Extensive experiments demonstrate that FerretNet, trained exclusively on the 4-class ProGAN dataset, achieves an average accuracy of 97.1% on an open-world benchmark comprising across 22 generative models, surpassing state-of-the-art methods by 10.6%.

由VAEs、GANs和LDMs等先进模型生成的高仿真图像的不断增加的现实感给合成图像检测带来了重大挑战。为了解决这个问题,我们探索了生成过程中引入的两种人工制品类型:(1)潜在分布偏差和(2)解码引起的平滑效应,这些效应表现为局部纹理、边缘和颜色过渡的不一致性。我们利用根植于马尔可夫随机场的局部像素依赖性(LPD)属性,利用相邻像素信息重建合成图像,以暴露纹理连续性和边缘一致性的中断。在LPD的基础上,我们提出了FerretNet,这是一个仅有110万参数的轻量级神经网络,能够实现高效且稳健的合成图像检测。大量实验表明,仅在4类ProGAN数据集上训练的FerretNet,在由22个生成模型组成的开放世界基准测试上达到了平均97.1%的准确率,比最先进的方法高出10.6%。

论文及项目相关链接

PDF 9 pages, 4 figures, 8 tables, accepted at NeurIPS 2025

Summary
高级模型如VAEs、GANs和LDMs生成的合成图像越来越逼真,给合成图像检测带来挑战。研究通过生成过程中的潜在分布偏差和解码引起的平滑效应这两种人工制品,利用基于马尔可夫随机场的局部像素依赖性(LPD)属性,通过邻近像素信息重建合成图像,以暴露纹理连续性和边缘一致性的中断。在此基础上,提出轻量级神经网络FerretNet,仅有110万参数,能高效、稳健地检测合成图像。在由22种生成模型组成的开放世界基准测试中,仅对ProGAN数据集进行训练的FerretNet平均准确度达到97.1%,比现有技术高出10.6%。

Key Takeaways

  1. 合成图像的逼真度提升给检测带来挑战。
  2. 研究探索了生成过程中的两种人工制品:潜在分布偏差和解码引起的平滑效应。
  3. 这些人工制品会导致纹理、边缘和色彩过渡的不一致性。
  4. 利用局部像素依赖性(LPD)属性,通过邻近像素信息重建合成图像。
  5. 提出轻量级神经网络FerretNet,有效检测合成图像。
  6. FerretNet在多种生成模型的开放世界基准测试中表现优异,平均准确度达97.1%。

Cool Papers

点此查看论文截图

Integrating Object Interaction Self-Attention and GAN-Based Debiasing for Visual Question Answering

Authors:Zhifei Li, Feng Qiu, Yiran Wang, Yujing Xia, Kui Xiao, Miao Zhang, Yan Zhang

Visual Question Answering (VQA) presents a unique challenge by requiring models to understand and reason about visual content to answer questions accurately. Existing VQA models often struggle with biases introduced by the training data, leading to over-reliance on superficial patterns and inadequate generalization to diverse questions and images. This paper presents a novel model, IOG-VQA, which integrates Object Interaction Self-Attention and GAN-Based Debiasing to enhance VQA model performance. The self-attention mechanism allows our model to capture complex interactions between objects within an image, providing a more comprehensive understanding of the visual context. Meanwhile, the GAN-based debiasing framework generates unbiased data distributions, helping the model to learn more robust and generalizable features. By leveraging these two components, IOG-VQA effectively combines visual and textual information to address the inherent biases in VQA datasets. Extensive experiments on the VQA-CP v1 and VQA-CP v2 datasets demonstrate that our model shows excellent performance compared with the existing methods, particularly in handling biased and imbalanced data distributions highlighting the importance of addressing both object interactions and dataset biases in advancing VQA tasks. Our code is available at https://github.com/HubuKG/IOG-VQA.

视觉问答(VQA)通过要求模型理解和推理视觉内容来准确回答问题,从而呈现出独特的挑战。现有的VQA模型经常受到训练数据引入的偏见的影响,导致过分依赖表面模式,对多样化和不同的问题和图像缺乏足够的泛化能力。本文提出了一种新型模型IOG-VQA,它结合了对象交互自注意力和基于GAN的去偏置技术,以提高VQA模型的性能。自注意力机制允许我们的模型捕捉图像内对象之间的复杂交互,提供更全面的视觉上下文理解。同时,基于GAN的去偏框架生成无偏的数据分布,帮助模型学习更稳健和可泛化的特征。通过利用这两个组件,IOG-VQA有效地结合了视觉和文本信息,以解决VQA数据集中的固有偏见。在VQA-CP v1和VQA-CP v2数据集上的大量实验表明,与现有方法相比,我们的模型表现出优异的性能,特别是在处理有偏见和不平衡的数据分布时。这强调了解决对象交互和数据集偏见在推进VQA任务中的重要性。我们的代码位于https://github.com/HubuKG/IOG-VQA。

论文及项目相关链接

PDF 14 pages, 6 figures. ACCEPTED for publication as a REGULAR paper in the IEEE Transactions on Multimedia 2025

Summary
视觉问答(VQA)要求模型理解和推理视觉内容以准确回答问题,存在独特的挑战。现有VQA模型常受训练数据引入的偏见影响,过于依赖表面模式,对多样化和不同的问题和图像泛化不足。本文提出一种新型模型IOG-VQA,集成对象交互自注意力机制和基于GAN的去偏技术,提高VQA模型性能。自注意力机制使模型能捕捉图像内对象间的复杂交互,更全面地理解视觉上下文。同时,基于GAN的去偏框架生成无偏见的数据分布,帮助模型学习更稳健和可泛化的特征。通过利用这两个组件,IOG-VQA有效地结合视觉和文本信息,解决VQA数据集固有的偏见问题。在VQA-CP v1和VQA-CP v2数据集上的广泛实验表明,与现有方法相比,该模型表现出卓越的性能,特别是在处理有偏见和不平衡的数据分布时。

Key Takeaways

  1. VQA模型面临理解和推理视觉内容的独特挑战。
  2. 现有VQA模型受训练数据引入的偏见影响,导致过度依赖表面模式,泛化能力不足。
  3. IOG-VQA模型通过集成对象交互自注意力机制和基于GAN的去偏技术,提高VQA性能。
  4. 自注意力机制有助于模型捕捉图像内对象间的复杂交互,更全面地理解视觉上下文。
  5. 基于GAN的去偏框架生成无偏见的数据分布,增强模型的稳健性和泛化能力。
  6. IOG-VQA模型在VQA-CP v1和VQA-CP v2数据集上表现出卓越性能。

Cool Papers

点此查看论文截图

GeMix: Conditional GAN-Based Mixup for Improved Medical Image Augmentation

Authors:Hugo Carlesso, Maria Eliza Patulea, Moncef Garouani, Radu Tudor Ionescu, Josiane Mothe

Mixup has become a popular augmentation strategy for image classification, yet its naive pixel-wise interpolation often produces unrealistic images that can hinder learning, particularly in high-stakes medical applications. We propose GeMix, a two-stage framework that replaces heuristic blending with a learned, label-aware interpolation powered by class-conditional GANs. First, a StyleGAN2-ADA generator is trained on the target dataset. During augmentation, we sample two label vectors from Dirichlet priors biased toward different classes and blend them via a Beta-distributed coefficient. Then, we condition the generator on this soft label to synthesize visually coherent images that lie along a continuous class manifold. We benchmark GeMix on the large-scale COVIDx-CT-3 dataset using three backbones (ResNet-50, ResNet-101, EfficientNet-B0). When combined with real data, our method increases macro-F1 over traditional mixup for all backbones, reducing the false negative rate for COVID-19 detection. GeMix is thus a drop-in replacement for pixel-space mixup, delivering stronger regularization and greater semantic fidelity, without disrupting existing training pipelines. We publicly release our code at https://github.com/hugocarlesso/GeMix to foster reproducibility and further research.

Mixup已成为图像分类中流行的数据增强策略,但其简单的像素级插值经常会产生不切实际的图像,这些图像可能会阻碍学习,特别是在高风险医疗应用中。我们提出了GeMix,这是一个两阶段的框架,它用基于类别条件生成对抗网络(GANs)的学习感知插值替换启发式混合。首先,在目标数据集上训练StyleGAN2-ADA生成器。在数据增强过程中,我们从偏向不同类别的狄利克雷先验中采样两个标签向量,并通过Beta分布系数将它们混合。然后,我们在这些软标签上设置生成器条件,合成沿着连续类别流形视觉上连贯的图像。我们在大规模COVIDx-CT-3数据集上使用三种主干网络(ResNet-50、ResNet-101、EfficientNet-B0)对GeMix进行基准测试。当与真实数据结合时,我们的方法在所有主干网络上相对于传统混合法提高了宏F1分数,并降低了COVID-19检测的误报率。因此,GeMix可以作为像素空间混合的替代品,提供更强大的正则化和更高的语义保真度,而不会破坏现有的训练管道。我们已在https://github.com/hugocarlesso/GeMix公开发布我们的代码,以促进可重复性和进一步研究。

论文及项目相关链接

PDF Accepted at CBMI 2025

Summary
针对图像分类中常见的Mixup数据增强策略,在高风险医疗应用中产生不真实图像的问题,提出了基于类条件GAN的GeMix框架。GeMix采用两阶段方法,先训练StyleGAN2-ADA生成器,再通过采样两个偏向不同类别的Dirichlet先验标签向量,并使用Beta分布系数进行混合,生成视觉上连贯的图像。在COVIDx-CT-3数据集上进行的实验表明,GeMix能提高宏F1得分,降低COVID-19检测的误报率,可作为像素空间Mixup的替代品,提供更强大的正则化和更高的语义保真度。

Key Takeaways

  1. Mixup在图像分类中广泛应用,但在高风险医疗应用中产生不真实图像。
  2. GeMix是一个两阶段的框架,采用类条件GANs进行标签感知插值,以替代启发式的混合方法。
  3. GeMix利用StyleGAN2-ADA生成器在目标数据集上进行训练。
  4. 在合成图像时,GeMix采样两个偏向不同类别的Dirichlet先验标签向量,并使用Beta分布系数进行混合。
  5. GeMix生成的图像在视觉上连贯,位于连续的类别流形上。
  6. 在COVIDx-CT-3数据集上的实验表明,GeMix能提高宏F1得分,降低COVID-19检测的误报率。

Cool Papers

点此查看论文截图

Sample what you cant compress

Authors:Vighnesh Birodkar, Gabriel Barcik, James Lyon, Sergey Ioffe, David Minnen, Joshua V. Dillon

For learned image representations, basic autoencoders often produce blurry results. Reconstruction quality can be improved by incorporating additional penalties such as adversarial (GAN) and perceptual losses. Arguably, these approaches lack a principled interpretation. Concurrently, in generative settings diffusion has demonstrated a remarkable ability to create crisp, high quality results and has solid theoretical underpinnings (from variational inference to direct study as the Fisher Divergence). Our work combines autoencoder representation learning with diffusion and is, to our knowledge, the first to demonstrate jointly learning a continuous encoder and decoder under a diffusion-based loss and showing that it can lead to higher compression and better generation. We demonstrate that this approach yields better reconstruction quality as compared to GAN-based autoencoders while being easier to tune. We also show that the resulting representation is easier to model with a latent diffusion model as compared to the representation obtained from a state-of-the-art GAN-based loss. Since our decoder is stochastic, it can generate details not encoded in the otherwise deterministic latent representation; we therefore name our approach “Sample what you can’t compress”, or SWYCC for short.

对于学习到的图像表示,基本自动编码器通常会产生模糊的结果。通过引入对抗性(GAN)和感知损失等额外惩罚,可以改善重建质量。可以说,这些方法缺乏原则性的解释。同时,在生成环境中,扩散已经显示出创造清晰、高质量结果的惊人能力,并拥有坚实的理论基础(从变分推理到直接研究费舍尔散度)。我们的工作将自动编码器表示学习与扩散相结合,据我们所知,这是首次展示在扩散损失下联合学习连续编码器和解码器,并表明这可以导致更高的压缩率和更好的生成质量。我们证明,与基于GAN的自动编码器相比,我们的方法具有更好的重建质量,而且更容易调整。我们还表明,与从最先进的基于GAN的损失中获得的表现相比,使用潜伏扩散模型对由此产生的表现进行建模更容易。由于我们的解码器是随机的,它可以生成在否则确定性的潜在表示中没有编码的细节;因此,我们将我们的方法命名为“压缩所不能,采样你所知”(Sample what you can’t compress,简称SWYCC)。

论文及项目相关链接

PDF

Summary
学习到的图像表示中,基本自编码器常产生模糊结果。为提高重建质量,可加入对抗性(GAN)和感知损失等额外惩罚。然而这些方法缺乏原则性解释。同时,扩散在生成环境中展现出创造清晰、高质量结果的能力,并有坚实的理论支撑。我们的工作结合了自编码器表示学习与扩散,并证明联合学习连续编码器与解码器在扩散损失下能带来更高的压缩率和更好的生成效果。与基于GAN的自编码器相比,我们的方法能提供更好的重建质量且更易调整。我们还证明,与来自最先进的GAN基损失得到的表示相比,我们得到的表示更容易用潜在扩散模型建模。由于我们的解码器是随机的,它可以生成未编码在确定性潜在表示中的细节;因此,我们将我们的方法命名为“Sample what you can’t compress”,简称SWYCC。

Key Takeaways

  1. 基本自编码器在图像表示学习中会产生模糊结果。
  2. 对抗性和感知损失等额外惩罚可以提高重建质量。
  3. 扩散在生成环境中能创造清晰、高质量的结果,并具有理论支撑。
  4. 结合自编码器表示学习与扩散,首次展示了在扩散损失下联合学习连续编码器与解码器的效果。
  5. SWYCC方法能提供更高的压缩率和更好的生成质量,且比基于GAN的自编码器更易调整。
  6. SWYCC得到的表示更容易用潜在扩散模型建模。

Cool Papers

点此查看论文截图

The SkipSponge Attack: Sponge Weight Poisoning of Deep Neural Networks

Authors:Jona te Lintelo, Stefanos Koffas, Stjepan Picek

Sponge attacks aim to increase the energy consumption and computation time of neural networks. In this work, we present a novel sponge attack called SkipSponge. SkipSponge is the first sponge attack that is performed directly on the parameters of a pretrained model using only a few data samples. Our experiments show that SkipSponge can successfully increase the energy consumption of image classification models, GANs, and autoencoders, requiring fewer samples than the state-of-the-art sponge attacks (Sponge Poisoning). We show that poisoning defenses are ineffective if not adjusted specifically for the defense against SkipSponge (i.e., they decrease target layer bias values) and that SkipSponge is more effective on the GANs and the autoencoders than Sponge Poisoning. Additionally, SkipSponge is stealthy as it does not require significant changes to the victim model’s parameters. Our experiments indicate that SkipSponge can be performed even when an attacker has access to less than 1% of the entire training dataset and reaches up to 13% energy increase.

海绵攻击旨在增加神经网络的能耗和计算时间。在这项工作中,我们提出了一种新型的海绵攻击,称为SkipSponge。SkipSponge是首个直接在预训练模型的参数上使用的海绵攻击,并且仅使用少量数据样本即可。我们的实验表明,SkipSponge能够成功增加图像分类模型、生成对抗网络(GAN)和自动编码器的能耗,并且相较于现有的海绵攻击(海绵中毒)需要更少的样本。我们展示了如果不针对SkipSponge进行特定的调整(即降低目标层偏见值),那么中毒防御是无效的,并且SkipSponge在GAN和自动编码器上的效果比海绵中毒更为有效。此外,SkipSponge很隐蔽,因为它不需要对目标模型的参数进行重大更改。我们的实验表明,即使在攻击者只能访问整个训练数据集的不到1%的情况下,SkipSponge也可以实施,并且能够达到高达13%的能耗增加。

论文及项目相关链接

PDF

Summary
神经网络海绵攻击旨在增加神经网络的能耗和计算时间。本研究提出了一种新型的海绵攻击方法——SkipSponge。SkipSponge是首个直接在预训练模型参数上进行的海绵攻击,仅需少量数据样本即可完成。实验表明,SkipSponge能成功增加图像分类模型、生成对抗网络和自编码器的能耗,且使用比现有海绵攻击更少的数据样本。研究还发现防御策略仅在特定情况下有效对抗SkipSponge,并且在生成对抗网络和自编码器上的攻击效果优于海绵中毒攻击。此外,SkipSponge很隐蔽,不需要改变受害者模型的参数。实验表明,即使在攻击者只能访问整个训练数据集不到1%的情况下,也能实施SkipSponge攻击,并且能耗增加可达13%。

Key Takeaways

  • SkipSponge是一种新型的海绵攻击方法,直接针对预训练模型的参数进行攻击。
  • SkipSponge使用少量数据样本就能成功增加图像分类模型、GAN和自编码器的能耗。
  • 与现有海绵攻击相比,SkipSponge更为有效且隐蔽。
  • 实验表明防御策略需要特定调整才能有效对抗SkipSponge。
  • SkipSponge在GAN和自编码器上的攻击效果优于海绵中毒攻击。
  • SkipSponge攻击即使使用少量的数据集也能实施。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
  目录