⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-09-18 更新
MIA-EPT: Membership Inference Attack via Error Prediction for Tabular Data
Authors:Eyal German, Daniel Samira, Yuval Elovici, Asaf Shabtai
Synthetic data generation plays an important role in enabling data sharing, particularly in sensitive domains like healthcare and finance. Recent advances in diffusion models have made it possible to generate realistic, high-quality tabular data, but they may also memorize training records and leak sensitive information. Membership inference attacks (MIAs) exploit this vulnerability by determining whether a record was used in training. While MIAs have been studied in images and text, their use against tabular diffusion models remains underexplored despite the unique risks of structured attributes and limited record diversity. In this paper, we introduce MIAEPT, Membership Inference Attack via Error Prediction for Tabular Data, a novel black-box attack specifically designed to target tabular diffusion models. MIA-EPT constructs errorbased feature vectors by masking and reconstructing attributes of target records, disclosing membership signals based on how well these attributes are predicted. MIA-EPT operates without access to the internal components of the generative model, relying only on its synthetic data output, and was shown to generalize across multiple state-of-the-art diffusion models. We validate MIA-EPT on three diffusion-based synthesizers, achieving AUC-ROC scores of up to 0.599 and TPR@10% FPR values of 22.0% in our internal tests. Under the MIDST 2025 competition conditions, MIA-EPT achieved second place in the Black-box Multi-Table track (TPR@10% FPR = 20.0%). These results demonstrate that our method can uncover substantial membership leakage in synthetic tabular data, challenging the assumption that synthetic data is inherently privacy-preserving. Our code is publicly available at https://github.com/eyalgerman/MIA-EPT.
合成数据生成在促进数据共享方面发挥着重要作用,特别是在医疗和金融等敏感领域。扩散模型的最新进展使得生成现实、高质量表格数据成为可能,但它们也可能记住训练记录并泄露敏感信息。成员推理攻击(MIAs)通过确定记录是否用于训练来利用这一漏洞。虽然MIAs在图像和文本方面已有研究,但针对表格扩散模型的应用仍然被忽视,尽管结构化属性和记录多样性有限存在独特风险。在本文中,我们介绍了MIA-EPT(基于错误预测的表格数据成员推理攻击),这是一种专门针对表格扩散模型设计的新型黑箱攻击。MIA-EPT通过掩盖和重建目标记录的属性来构建基于错误的特征向量,并根据这些属性的预测情况披露成员身份信号。MIA-EPT操作无需访问生成模型的内部组件,仅依赖其合成数据输出,并且被证明可以在多个最先进的扩散模型中实现通用化。我们在三个基于扩散的合成器上验证了MIA-EPT,在我们的内部测试中,AUC-ROC得分高达0.599,TPR@10%FPR值为22.0%。在MIDST 2025竞赛条件下,MIA-EPT在Black-box Multi-Table赛道中取得第二名(TPR@10%FPR = 20.0%)。这些结果表明,我们的方法可以揭示合成表格数据中的大量成员身份泄露,挑战了合成数据固有隐私保护假设。我们的代码可在https://github.com/eyalgerman/MIA-EPT公开访问。
论文及项目相关链接
摘要
合成数据生成在促进数据共享方面发挥着重要作用,特别是在医疗和金融等敏感领域。扩散模型的最新进展使得生成现实、高质量的数据表成为可能,但它们也可能记住训练记录并泄露敏感信息。成员推理攻击(MIAs)利用这一漏洞,通过确定记录是否用于训练来利用扩散模型的脆弱性。尽管结构化属性和记录多样性的独特风险,针对数据表扩散模型的MIAs的使用仍然被忽视。本文介绍了一种专门针对数据表扩散模型的新型黑盒攻击MIA-EPT(基于误差预测的成员推理攻击)。MIA-EPT通过掩盖和重建目标记录的属性来构建基于错误的特征向量,并基于这些属性预测的准确度来披露成员身份信号。MIA-EPT无需访问生成模型的内部组件,仅依赖其合成数据输出进行操作,并且在多个最先进的扩散模型上表现出普遍适用性。我们在三个基于扩散的合成器上验证了MIA-EPT的有效性,在内部测试中达到AUC-ROC分数高达0.599,在TPR@10%FPR值为22.0%的情况下实现有效识别。在MIDST 2025竞赛条件下,MIA-EPT在黑盒多表赛道中获得了第二名(TPR@10%FPR = 20.0%)。这些结果表明,我们的方法可以揭示合成数据表中的大量成员身份泄露,挑战了合成数据固有隐私保护属性的假设。我们的代码可在https://github.com/eyalgerman/MIA-EPT公开访问。
关键见解
- 合成数据生成在敏感领域如医疗和金融中促进了数据共享。
- 扩散模型能够生成高质量的数据表,但可能泄露训练记录中的敏感信息。
- 成员推理攻击(MIAs)被用来确定记录是否用于扩散模型的训练,这是一种新型的攻击方式。
- 论文提出了一种新的黑盒攻击方法MIA-EPT,专门用于针对数据表扩散模型。
- MIA-EPT通过构建基于错误的特征向量来揭示成员身份信号,这种方法不需要访问生成模型的内部组件。
- 在多个先进的扩散模型和多种测试环境下,MIA-EPT均表现出较高的识别准确率。
点此查看论文截图



ReTrack: Data Unlearning in Diffusion Models through Redirecting the Denoising Trajectory
Authors:Qitan Shi, Cheng Jin, Jiawei Zhang, Yuantao Gu
Diffusion models excel at generating high-quality, diverse images but suffer from training data memorization, raising critical privacy and safety concerns. Data unlearning has emerged to mitigate this issue by removing the influence of specific data without retraining from scratch. We propose ReTrack, a fast and effective data unlearning method for diffusion models. ReTrack employs importance sampling to construct a more efficient fine-tuning loss, which we approximate by retaining only dominant terms. This yields an interpretable objective that redirects denoising trajectories toward the $k$-nearest neighbors, enabling efficient unlearning while preserving generative quality. Experiments on MNIST T-Shirt, CelebA-HQ, CIFAR-10, and Stable Diffusion show that ReTrack achieves state-of-the-art performance, striking the best trade-off between unlearning strength and generation quality preservation.
扩散模型在生成高质量、多样化的图像方面表现出色,但存在训练数据记忆问题,引发了关于隐私和安全的担忧。为了解决这一问题,数据遗忘通过在不重新训练的基础上消除特定数据的影响而出现。我们提出了ReTrack,这是一种快速有效的针对扩散模型的数据遗忘方法。ReTrack采用重要性采样构建更有效的微调损失,我们只保留主要项来进行近似,从而产生一个可解释的目标,引导降噪轨迹朝向k个最近邻,能够在保持生成质量的同时实现高效遗忘。在MNIST T恤、CelebA-HQ、CIFAR-10和Stable Diffusion上的实验表明,ReTrack达到了最先进的性能,在遗忘强度和生成质量保留之间取得了最佳平衡。
论文及项目相关链接
Summary
本文讨论了扩散模型在生成高质量、多样化图像方面的优势,但同时也存在训练数据记忆问题,引发了隐私和安全担忧。为缓解这一问题,出现了数据遗忘技术,无需从头开始重新训练即可消除特定数据的影响。本文提出了一种快速有效的针对扩散模型的数据遗忘方法——ReTrack。ReTrack采用重要性采样构建更有效的微调损失,只保留主导项进行近似,从而产生可解释的目标,引导去噪轨迹朝向k近邻,在保持生成质量的同时实现高效遗忘。实验结果表明,ReTrack在MNIST T-Shirt、CelebA-HQ、CIFAR-10和Stable Diffusion数据集上达到了最佳遗忘强度和生成质量保留之间的平衡,实现了最先进的性能。
Key Takeaways
- 扩散模型虽能生成高质量、多样化的图像,但存在训练数据记忆问题,引发隐私和安全问题。
- 数据遗忘技术旨在缓解这一问题,无需完全重新训练即可消除特定数据的影响。
- 提出了一种新的数据遗忘方法——ReTrack,适用于扩散模型。
- ReTrack采用重要性采样构建更有效的微调损失,只保留主导项进行近似。
- ReTrack产生可解释的目标,引导去噪轨迹朝向k近邻,实现高效遗忘同时保持生成质量。
- 实验结果表明,ReTrack在多个数据集上实现了最先进的性能。
点此查看论文截图





Runge-Kutta Approximation and Decoupled Attention for Rectified Flow Inversion and Semantic Editing
Authors:Weiming Chen, Zhihan Zhu, Yijia Wang, Zhihai He
Rectified flow (RF) models have recently demonstrated superior generative performance compared to DDIM-based diffusion models. However, in real-world applications, they suffer from two major challenges: (1) low inversion accuracy that hinders the consistency with the source image, and (2) entangled multimodal attention in diffusion transformers, which hinders precise attention control. To address the first challenge, we propose an efficient high-order inversion method for rectified flow models based on the Runge-Kutta solver of differential equations. To tackle the second challenge, we introduce Decoupled Diffusion Transformer Attention (DDTA), a novel mechanism that disentangles text and image attention inside the multimodal diffusion transformers, enabling more precise semantic control. Extensive experiments on image reconstruction and text-guided editing tasks demonstrate that our method achieves state-of-the-art performance in terms of fidelity and editability. Code is available at https://github.com/wmchen/RKSovler_DDTA.
纠正流(RF)模型最近表现出比基于DDIM的扩散模型更优越的生成性能。然而,在实际应用中,它们面临两大挑战:(1)较低的反转精度,阻碍了与源图像的一致性;(2)扩散变压器中的纠缠多模态注意力,这阻碍了精确的控制注意力。为了解决第一个挑战,我们提出了一种基于Runge-Kutta微分方程求解器的高效高阶反转方法为纠正流模型。为了解决第二个挑战,我们引入了“解耦扩散变压器注意力”(DDTA)这一新机制,它在多模态扩散变压器内部解耦文本和图像注意力,从而实现更精确语义控制。在图像重建和文本指导编辑任务上的大量实验表明,我们的方法在保真度和可编辑性方面达到了最先进的性能。代码可在https://github.com/wmchen/RKSovler_DDTA找到。
论文及项目相关链接
Summary
本文介绍了基于Rectified Flow模型的最新研究进展。针对现有挑战,如低反转精度和扩散变压器中的多模态注意力纠缠问题,研究团队提出了高效的高阶反转方法和解耦扩散变压器注意力机制(DDTA)。实验结果在图像重建和文本引导编辑任务上显示出卓越性能。相关代码已公开于GitHub。
Key Takeaways
- Rectified flow模型在生成性能上展现出优于DDIM-based扩散模型的潜力。
- 该模型面临两大挑战:低反转精度和扩散变压器中的多模态注意力纠缠。
- 提出了一种基于Runge-Kutta解算器的高效高阶反转方法来解决低反转精度问题。
- 引入了Decoupled Diffusion Transformer Attention(DDTA)机制,解决了多模态注意力纠缠问题,实现了更精确的语义控制。
- 广泛的实验结果显示,该方法在图像重建和文本引导编辑任务上达到业界领先水平。
- 模型在提高保真度和可编辑性方面表现突出。
点此查看论文截图





Generalizable Holographic Reconstruction via Amplitude-Only Diffusion Priors
Authors:Jeongsol Kim, Chanseok Lee, Jong Chul Ye, Mooseok Jang
Phase retrieval in inline holography is a fundamental yet ill-posed inverse problem due to the nonlinear coupling between amplitude and phase in coherent imaging. We present a novel off-the-shelf solution that leverages a diffusion model trained solely on object amplitude to recover both amplitude and phase from diffraction intensities. Using a predictor-corrector sampling framework with separate likelihood gradients for amplitude and phase, our method enables complex field reconstruction without requiring ground-truth phase data for training. We validate the proposed approach through extensive simulations and experiments, demonstrating robust generalization across diverse object shapes, imaging system configurations, and modalities, including lensless setups. Notably, a diffusion prior trained on simple amplitude data (e.g., polystyrene beads) successfully reconstructs complex biological tissue structures, highlighting the method’s adaptability. This framework provides a cost-effective, generalizable solution for nonlinear inverse problems in computational imaging, and establishes a foundation for broader coherent imaging applications beyond holography.
在内联全息术中,相位恢复是一个基本但不适定的反问题,这是由于相干成像中振幅和相位之间的非线性耦合所导致的。我们提出了一种新颖的解决方案,该方案利用仅对物体振幅进行训练的扩散模型,从衍射强度恢复振幅和相位。我们的方法采用预测校正采样框架,为振幅和相位提供单独的可能性梯度,从而实现复杂场的重建,而无需为训练提供真实相位数据。我们通过大量的模拟和实验验证了所提出的方法,证明了其在不同物体形状、成像系统配置和模式(包括无透镜设置)中的稳健泛化能力。值得注意的是,使用简单的振幅数据(例如聚苯乙烯珠)训练的扩散先验成功地重建了复杂的生物组织结构,凸显了该方法的适应性。此框架为解决计算成像中的非线性反问题提供了经济高效、可推广的解决方案,并为全息技术以外的更广泛相干成像应用奠定了基础。
论文及项目相关链接
PDF Keywords: Diffusion model, phase retrieval, inline-holography, inverse problem
Summary
在相干成像中,相位检索是内联全息术的基本问题之一,由于振幅和相位之间的非线性耦合导致它是一个不适定的反问题。我们提出了一种新颖的即用解决方案,它通过扩散模型仅对物体振幅进行训练,从衍射强度恢复振幅和相位。我们的方法采用预测校正采样框架,为振幅和相位提供单独的似然梯度,能够在不需要训练基准相位数据的情况下重建复杂场。通过广泛的模拟和实验验证了该方法的有效性,证明了其在不同物体形状、成像系统配置和模式(包括无透镜设置)下的稳健泛化能力。值得注意的是,仅使用简单的振幅数据(如聚苯乙烯珠)训练的扩散先验模型成功重建了复杂的生物组织结构,凸显了该方法的适应性。此框架为解决计算成像中的非线性反问题提供了经济高效、通用性强的解决方案,并为全息术以外的更广泛相干成像应用奠定了基础。
Key Takeaways
- 相位检索在内联全息术中是一个基本但不适定的反问题,因为振幅和相位之间存在非线性耦合。
- 提出了一种新型的即用解决方案,通过扩散模型从衍射强度恢复振幅和相位。
- 采用预测校正采样框架,无需基准相位数据即可重建复杂场。
- 方法经过广泛模拟和实验验证,具有在不同物体形状、成像系统配置和模式下的稳健泛化能力。
- 扩散先验模型能够在不使用复杂的训练数据的情况下成功重建复杂的生物组织结构。
- 框架为解决计算成像中的非线性反问题提供了有效的解决方案。
点此查看论文截图




AC-Refiner: Efficient Arithmetic Circuit Optimization Using Conditional Diffusion Models
Authors:Chenhao Xue, Kezhi Li, Jiaxing Zhang, Yi Ren, Zhengyuan Shi, Chen Zhang, Yibo Lin, Lining Zhang, Qiang Xu, Guangyu Sun
Arithmetic circuits, such as adders and multipliers, are fundamental components of digital systems, directly impacting the performance, power efficiency, and area footprint. However, optimizing these circuits remains challenging due to the vast design space and complex physical constraints. While recent deep learning-based approaches have shown promise, they struggle to consistently explore high-potential design variants, limiting their optimization efficiency. To address this challenge, we propose AC-Refiner, a novel arithmetic circuit optimization framework leveraging conditional diffusion models. Our key insight is to reframe arithmetic circuit synthesis as a conditional image generation task. By carefully conditioning the denoising diffusion process on target quality-of-results (QoRs), AC-Refiner consistently produces high-quality circuit designs. Furthermore, the explored designs are used to fine-tune the diffusion model, which focuses the exploration near the Pareto frontier. Experimental results demonstrate that AC-Refiner generates designs with superior Pareto optimality, outperforming state-of-the-art baselines. The performance gain is further validated by integrating AC-Refiner into practical applications.
算术电路,如加法器和乘法器,是数字系统的基本组成部分,直接影响性能、功耗和面积占用。然而,由于巨大的设计空间和复杂的物理约束,优化这些电路仍然是一个挑战。虽然最近的基于深度学习的方法显示出了一定的前景,但它们难以持续探索高潜力的设计变体,从而限制了优化效率。为了应对这一挑战,我们提出了AC-Refiner,一个利用条件扩散模型的新型算术电路优化框架。我们的关键见解是将算术电路合成重新构建为条件图像生成任务。通过仔细将去噪扩散过程置于目标结果质量(QoR)上,AC-Refiner能够持续产生高质量的电路设计。此外,所探索的设计用于微调扩散模型,这将探索重点放在了帕累托前沿附近。实验结果表明,AC-Refiner生成的设计具有优越的帕累托最优性,超过了最新的基线标准。通过将AC-Refiner集成到实际应用中,进一步验证了其性能提升。
论文及项目相关链接
PDF 8 pages, 12 figures, to appear in ASP-DAC’26
Summary
基于算术电路在数字系统中的核心作用及其优化挑战,研究团队提出了AC-Refiner框架,利用条件扩散模型进行算术电路优化。该研究将算术电路合成重新定义为条件图像生成任务,并通过目标结果质量对去噪扩散过程进行细致调节,以生成高质量电路设计。此外,利用生成的电路设计对扩散模型进行微调,使其专注于帕累托前沿的探索。实验结果显示,AC-Refiner生成的设计具有优越的帕累托最优性,超越了现有基线水平,并通过实际应用验证其性能提升。
Key Takeaways
- 算术电路是数字系统的核心组件,影响其性能、功耗和面积占用。
- 近期深度学习方法在优化算术电路方面展现出潜力,但难以持续探索高潜力设计变体,优化效率有限。
- AC-Refiner框架利用条件扩散模型进行算术电路优化,将电路合成定义为条件图像生成任务。
- AC-Refiner通过目标结果质量对去噪扩散过程进行细致调节,生成高质量电路设计。
- 扩散模型利用生成的电路设计进行微调,专注于帕累托前沿的探索。
- 实验结果显示AC-Refiner生成的设计具有优越的帕累托最优性,超越现有基线。
点此查看论文截图








WorldExplorer: Towards Generating Fully Navigable 3D Scenes
Authors:Manuel-Andreas Schneider, Lukas Höllein, Matthias Nießner
Generating 3D worlds from text is a highly anticipated goal in computer vision. Existing works are limited by the degree of exploration they allow inside of a scene, i.e., produce streched-out and noisy artifacts when moving beyond central or panoramic perspectives. To this end, we propose WorldExplorer, a novel method based on autoregressive video trajectory generation, which builds fully navigable 3D scenes with consistent visual quality across a wide range of viewpoints. We initialize our scenes by creating multi-view consistent images corresponding to a 360 degree panorama. Then, we expand it by leveraging video diffusion models in an iterative scene generation pipeline. Concretely, we generate multiple videos along short, pre-defined trajectories, that explore the scene in depth, including motion around objects. Our novel scene memory conditions each video on the most relevant prior views, while a collision-detection mechanism prevents degenerate results, like moving into objects. Finally, we fuse all generated views into a unified 3D representation via 3D Gaussian Splatting optimization. Compared to prior approaches, WorldExplorer produces high-quality scenes that remain stable under large camera motion, enabling for the first time realistic and unrestricted exploration. We believe this marks a significant step toward generating immersive and truly explorable virtual 3D environments.
从文本生成3D世界是计算机视觉领域一个备受期待的目标。现有工作受限于场景内的探索程度,即在中心或全景视角之外移动时,会产生拉伸和嘈杂的伪影。为此,我们提出了WorldExplorer,这是一种基于自回归视频轨迹生成的新方法,构建了在广泛视点范围内具有一致视觉质量的可完全导航的3D场景。我们通过创建与360度全景相对应的多视角一致图像来初始化场景。然后,我们利用视频扩散模型在迭代场景生成管道中进行扩展。具体来说,我们沿着短预定义轨迹生成多个视频,深入探索场景,包括围绕物体的运动。我们的新场景记忆以最重要的先前视图为条件,对每一个视频进行约束,同时碰撞检测机制防止了退化结果,如进入物体内部。最后,我们通过3D高斯拼贴优化将所有生成的视图融合成统一的三维表示。与世界上的其他方法相比,WorldExplorer能够生成高质量的场景,在大范围相机运动下保持稳定,首次实现了真实且不受限制的探索。我们相信,这是朝着生成沉浸式和真正可探索的虚拟3D环境迈出的重要一步。
论文及项目相关链接
PDF Accepted to SIGGRAPH Asia 2025. Project page: see https://mschneider456.github.io/world-explorer, video: see https://youtu.be/N6NJsNyiv6I, code: https://github.com/mschneider456/WorldExplorer
Summary
本文提出了WorldExplorer方法,基于视频轨迹生成技术,构建可在广泛视角范围内具有一致视觉质量的可导航3D场景。通过创建多视角一致图像初始化场景,并借助视频扩散模型在迭代场景生成管道中扩展。该方法生成多个视频,沿预定义的短轨迹探索场景深度,包括物体周围的运动。场景记忆使每个视频以最相关的先前视角为条件,碰撞检测机制防止产生退化结果。最终,将所有生成的视角融合成统一的三维表示,通过三维高斯拼贴优化。WorldExplorer生成高质量场景,在大范围相机运动中保持稳定,首次实现真实且不受限制的探索。
Key Takeaways
- WorldExplorer方法允许在3D世界中的广泛探索,解决现有技术中场景探索程度有限的难题。
- 通过创建多视角一致图像初始化场景,确保场景的准确性及连贯性。
- 利用视频扩散模型在迭代场景生成管道中扩展,增强场景的细节和丰富度。
- 生成多个视频短轨迹,深入探索场景,包括物体周围的运动。
- 场景记忆机制确保视频生成与先前视角的相关性。
- 碰撞检测机制避免了生成结果的退化,如穿透物体等。
- 最终将所有生成的视角融合成统一的三维表示,实现场景的全面呈现。
点此查看论文截图




WaterFlow: Learning Fast & Robust Watermarks using Stable Diffusion
Authors:Vinay Shukla, Prachee Sharma, Ryan Rossi, Sungchul Kim, Tong Yu, Aditya Grover
The ability to embed watermarks in images is a fundamental problem of interest for computer vision, and is exacerbated by the rapid rise of generated imagery in recent times. Current state-of-the-art techniques suffer from computational and statistical challenges such as the slow execution speed for practical deployments. In addition, other works trade off fast watermarking speeds but suffer greatly in their robustness or perceptual quality. In this work, we propose WaterFlow (WF), a fast and extremely robust approach for high fidelity visual watermarking based on a learned latent-dependent watermark. Our approach utilizes a pretrained latent diffusion model to encode an arbitrary image into a latent space and produces a learned watermark that is then planted into the Fourier Domain of the latent. The transformation is specified via invertible flow layers that enhance the expressivity of the latent space of the pre-trained model to better preserve image quality while permitting robust and tractable detection. Most notably, WaterFlow demonstrates state-of-the-art performance on general robustness and is the first method capable of effectively defending against difficult combination attacks. We validate our findings on three widely used real and generated datasets: MS-COCO, DiffusionDB, and WikiArt.
将图片嵌入水印是计算机视觉领域的一个基础且重要的问题,近年来随着生成图像技术的快速发展,这一问题愈发严重。当前最先进的技术面临着计算和统计方面的挑战,如在实际部署中的执行速度慢。此外,其他方法虽然实现了快速的水印嵌入速度,但在其稳健性或感知质量方面存在很大的缺陷。在这项工作中,我们提出了WaterFlow(WF),这是一种基于学习潜在依赖水印的快速且非常稳健的高保真视觉水印嵌入方法。我们的方法利用预训练的潜在扩散模型将任意图像编码到潜在空间,并产生学习的水印,然后将其植入潜在空间的傅里叶域。通过可逆流层进行转换,增强了预训练模型的潜在空间的表现力,可以更好地保持图像质量,同时实现稳健且易于检测。最值得注意的是,WaterFlow在一般稳健性方面表现出卓越的性能,并且是第一种能够有效防御复杂组合攻击的方法。我们在三个广泛使用的真实和生成数据集MS-COCO、DiffusionDB和WikiArt上验证了我们的发现。
论文及项目相关链接
Summary
本文介绍了一种基于预训练扩散模型的快速且极其鲁棒的高保真视觉水印技术——WaterFlow(WF)。它通过利用扩散模型将任意图像编码到潜在空间,并在潜在空间的傅立叶域中植入学习到的水印来实现水印嵌入。WaterFlow通过可逆流层进行转换,增强了预训练模型的潜在空间表达能力,从而更好地保持图像质量并实现了鲁棒性和可检测性。WaterFlow在通用鲁棒性方面表现出卓越性能,并且是首个能有效防御复杂组合攻击的方法。实验在MS-COCO、DiffusionDB和WikiArt三个广泛使用的真实和生成数据集上进行了验证。
Key Takeaways
- WaterFlow是一种基于预训练扩散模型的快速且鲁棒的高保真视觉水印技术。
- 利用扩散模型将图像编码到潜在空间,并在该空间内植入学习到的水印。
- WaterFlow通过可逆流层进行转换,增强了潜在空间的表达能力。
- 该方法能够在保持图像质量的同时实现鲁棒性和可检测性。
- WaterFlow在通用鲁棒性方面表现出卓越性能,能够防御复杂的组合攻击。
- 实验在MS-COCO、DiffusionDB和WikiArt三个数据集上进行了验证。
- 该技术对于应对生成图像中水印嵌入的需求具有重大意义。
点此查看论文截图






Detection of Synthetic Face Images: Accuracy, Robustness, Generalization
Authors:Nela Petrzelkova, Jan Cech
An experimental study on detecting synthetic face images is presented. We collected a dataset, called FF5, of five fake face image generators, including recent diffusion models. We find that a simple model trained on a specific image generator can achieve near-perfect accuracy in separating synthetic and real images. The model handles common image distortions (reduced resolution, compression) by using data augmentation. Moreover, partial manipulations, where synthetic images are blended into real ones by inpainting, are identified and the area of the manipulation is localized by a simple model of YOLO architecture. However, the model turned out to be vulnerable to adversarial attacks and does not generalize to unseen generators. Failure to generalize to detect images produced by a newer generator also occurs for recent state-of-the-art methods, which we tested on Realistic Vision, a fine-tuned version of StabilityAI’s Stable Diffusion image generator.
本文介绍了对检测合成面部图像的实验研究。我们收集了一个名为FF5的数据集,包含五个虚假面部图像生成器,包括最新的扩散模型。我们发现,在特定图像生成器上训练的简单模型在区分合成图像和真实图像时可以达到近乎完美的精度。该模型通过使用数据增强来处理常见的图像失真(降低分辨率、压缩)。此外,该模型还能识别将合成图像通过修复技术混合到真实图像中的部分操作,并通过YOLO架构的简单模型对操作区域进行定位。然而,该模型在对抗攻击面前显得脆弱,并且无法推广到未见过的生成器上。我们测试的最新先进方法也未能推广到由更新的生成器产生的图像检测上,我们在“现实视觉”上对其实施了测试,这是微调后的StabilityAI的稳定扩散图像生成器的一个版本。
论文及项目相关链接
PDF The paper was presented at the DAGM German Conference on Pattern Recognition (GCPR), 2025
Summary
本文研究了检测合成人脸图像的实验。研究团队收集了一个名为FF5的数据集,包含了五个虚假人脸图像生成器,包括最新的扩散模型。研究发现,针对特定图像生成器训练的简单模型可以在区分合成图像和真实图像方面达到近乎完美的准确率。该模型通过数据增强处理常见的图像失真(如降低分辨率、压缩)。此外,该模型还能识别出合成图像通过补全技术融入真实图像的部分操纵,并使用YOLO架构的简单模型定位操纵区域。然而,该模型容易受到对抗性攻击的影响,且无法推广到未见过的生成器。对于最新、最先进的测试方法也是如此,它们在针对精细调整过的StabilityAI的稳定扩散图像生成器的Realistic Vision上也出现了检测失败的情况。
Key Takeaways
- 研究团队收集了一个名为FF5的数据集,包含五个虚假人脸图像生成器。
- 简单模型可以针对特定图像生成器达到近乎完美的区分合成与真实图像准确率。
- 模型通过数据增强处理常见的图像失真问题。
- 模型可以识别合成图像通过补全技术融入真实图像的操纵。
- 模型使用YOLO架构定位操纵区域。
- 模型容易受到对抗性攻击的影响,无法推广到未见过的生成器。
点此查看论文截图



