⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-10-25 更新
FerretNet: Efficient Synthetic Image Detection via Local Pixel Dependencies
Authors:Shuqiao Liang, Jian Liu, Renzhang Chen, Quanlong Guan
The increasing realism of synthetic images generated by advanced models such as VAEs, GANs, and LDMs poses significant challenges for synthetic image detection. To address this issue, we explore two artifact types introduced during the generation process: (1) latent distribution deviations and (2) decoding-induced smoothing effects, which manifest as inconsistencies in local textures, edges, and color transitions. Leveraging local pixel dependencies (LPD) properties rooted in Markov Random Fields, we reconstruct synthetic images using neighboring pixel information to expose disruptions in texture continuity and edge coherence. Building upon LPD, we propose FerretNet, a lightweight neural network with only 1.1M parameters that delivers efficient and robust synthetic image detection. Extensive experiments demonstrate that FerretNet, trained exclusively on the 4-class ProGAN dataset, achieves an average accuracy of 97.1% on an open-world benchmark comprising 22 generative models. Our code and datasets are publicly available at https://github.com/xigua7105/FerretNet.
由VAEs、GANs和LDMs等先进模型生成的合成图像的越来越高的逼真度给合成图像检测带来了重大挑战。为了解决这个问题,我们探索了生成过程中引入的两种人工制品类型:(1)潜在分布偏差和(2)解码引起的平滑效应,这些效应表现为局部纹理、边缘和颜色过渡的不一致性。我们利用根植于马尔可夫随机场的局部像素依赖性(LPD)属性,利用相邻像素信息重建合成图像,以暴露纹理连续性和边缘一致性的中断。在LPD的基础上,我们提出了FerretNet,这是一个仅有110万个参数的轻量级神经网络,能够实现高效且稳健的合成图像检测。大量实验表明,仅在4类ProGAN数据集上训练的FerretNet,在由22个生成模型组成的开放世界基准测试上达到了97.1%的平均准确率。我们的代码和数据集可在https://github.com/xigua7105/FerretNet公开获取。
论文及项目相关链接
PDF 9 pages, 4 figures, 8 tables, accepted at NeurIPS 2025
Summary
高级模型如VAEs、GANs和LDMs生成的合成图像越来越逼真,给合成图像检测带来挑战。研究通过探索生成过程中的两种人工制品类型来解决这个问题,包括潜在分布偏差和解码引起的平滑效应,这些效应表现为局部纹理、边缘和颜色过渡的不一致性。利用马尔可夫随机场中的局部像素依赖性(LPD)属性,通过重建合成图像来揭示纹理连续性和边缘连贯性的中断。在此基础上,提出一种轻量级的神经网络FerretNet,仅包含1.1M参数,可实现高效且稳健的合成图像检测。实验表明,FerretNet在包含多种生成模型的开放世界基准测试中达到平均准确率97.1%。
Key Takeaways
- 高级模型生成的合成图像越来越逼真,给检测带来挑战。
- 研究通过探索生成过程中的两种人工制品类型来解决检测问题。
- 这些人工制品表现为局部纹理、边缘和颜色过渡的不一致性。
- 利用局部像素依赖性(LPD)属性揭示纹理连续性和边缘连贯性的中断。
- 提出一种轻量级神经网络FerretNet用于高效且稳健的合成图像检测。
- FerretNet仅包含少量参数,可公开访问其代码和数据集。
点此查看论文截图
Graph Representation Learning with Diffusion Generative Models
Authors:Daniel Wesego
Diffusion models have established themselves as state-of-the-art generative models across various data modalities, including images and videos, due to their ability to accurately approximate complex data distributions. Unlike traditional generative approaches such as VAEs and GANs, diffusion models employ a progressive denoising process that transforms noise into meaningful data over multiple iterative steps. This gradual approach enhances their expressiveness and generation quality. Not only that, diffusion models have also been shown to extract meaningful representations from data while learning to generate samples. Despite their success, the application of diffusion models to graph-structured data remains relatively unexplored, primarily due to the discrete nature of graphs, which necessitates discrete diffusion processes distinct from the continuous methods used in other domains. In this work, we leverage the representational capabilities of diffusion models to learn meaningful embeddings for graph data. By training a discrete diffusion model within an autoencoder framework, we enable both effective autoencoding and representation learning tailored to the unique characteristics of graph-structured data. We extract the representation from the combination of the encoder’s output and the decoder’s first time step hidden embedding. Our approach demonstrates the potential of discrete diffusion models to be used for graph representation learning. The code can be found at https://github.com/DanielMitiku/Graph-Representation-Learning-with-Diffusion-Generative-Models
扩散模型由于其准确逼近复杂数据分布的能力,已确立自己在各种数据模式(包括图像和视频)中的最先进的生成模型地位。不同于变分自编码器(VAEs)和生成对抗网络(GANs)等传统生成方法,扩散模型采用渐进的去噪过程,通过多个迭代步骤将噪声转化为有意义的数据。这种逐步的方法增强了其表达力和生成质量。不仅如此,扩散模型还显示出在生成样本的同时从数据中提取有意义表示的能力。尽管它们取得了成功,但扩散模型在图形结构化数据上的应用仍然相对未被探索,这主要是因为图形的离散性质,它需要不同于其他领域使用的连续方法的离散扩散过程。在这项工作中,我们利用扩散模型的表示能力来学习图形数据的有意义嵌入。通过在自编码器框架内训练离散扩散模型,我们实现了针对图形结构化数据的有效自编码和表示学习。我们从编码器输出和解码器第一步隐藏嵌入的组合中提取表示。我们的方法展示了离散扩散模型在图形表示学习中的潜力。代码可在 https://github.com/DanielMitiku/Graph-Representation-Learning-with-Diffusion-Generative-Models 找到。
论文及项目相关链接
Summary
扩散模型因其准确逼近复杂数据分布的能力,已成为图像和视频等多元数据模态的先进生成模型。通过渐进去噪过程,扩散模型能在多次迭代中将噪声转化为有意义的数据,提高表达性和生成质量。尽管扩散模型在图形结构数据的应用上尚未得到充分探索,但本文尝试利用扩散模型的表示能力来学习图形数据的有意义嵌入。通过在一个自编码器框架内训练离散扩散模型,实现了针对图形结构数据的有效自编码和表示学习。代码可在GitHub上找到。
Key Takeaways
- 扩散模型已成为图像和视频等多元数据模态的先进生成模型。
- 扩散模型通过渐进去噪过程,将噪声转化为有意义的数据。
- 离散扩散模型在图形结构数据的应用尚未得到充分探索。
- 本文利用扩散模型的表示能力来学习图形数据的有意义嵌入。
- 通过在自编码器框架内训练离散扩散模型,实现了自编码和表示学习。
- 扩散模型能结合编码器的输出和解码器的时间步隐藏嵌入来提取表示。
点此查看论文截图