⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-10-22 更新
Beyond Real Faces: Synthetic Datasets Can Achieve Reliable Recognition Performance without Privacy Compromise
Authors:Paweł Borsukiewicz, Fadi Boutros, Iyiola E. Olatunji, Charles Beumier, Wendkûuni C. Ouedraogo, Jacques Klein, Tegawendé F. Bissyandé
The deployment of facial recognition systems has created an ethical dilemma: achieving high accuracy requires massive datasets of real faces collected without consent, leading to dataset retractions and potential legal liabilities under regulations like GDPR. While synthetic facial data presents a promising privacy-preserving alternative, the field lacks comprehensive empirical evidence of its viability. This study addresses this critical gap through extensive evaluation of synthetic facial recognition datasets. We present a systematic literature review identifying 25 synthetic facial recognition datasets (2018-2025), combined with rigorous experimental validation. Our methodology examines seven key requirements for privacy-preserving synthetic data: identity leakage prevention, intra-class variability, identity separability, dataset scale, ethical data sourcing, bias mitigation, and benchmark reliability. Through experiments involving over 10 million synthetic samples, extended by a comparison of results reported on five standard benchmarks, we provide the first comprehensive empirical assessment of synthetic data’s capability to replace real datasets. Best-performing synthetic datasets (VariFace, VIGFace) achieve recognition accuracies of 95.67% and 94.91% respectively, surpassing established real datasets including CASIA-WebFace (94.70%). While those images remain private, publicly available alternatives Vec2Face (93.52%) and CemiFace (93.22%) come close behind. Our findings reveal that they ensure proper intra-class variability while maintaining identity separability. Demographic bias analysis shows that, even though synthetic data inherits limited biases, it offers unprecedented control for bias mitigation through generation parameters. These results establish synthetic facial data as a scientifically viable and ethically imperative alternative for facial recognition research.
面部识别系统的部署引发了一个道德困境:实现高精度需要收集大量未经同意的真实面部数据,这导致了数据集被撤回以及在GDPR等法规下可能面临的法律风险。虽然合成面部数据为隐私保护提供了有前景的替代方案,但这一领域缺乏对其可行性的全面实证证据。本研究通过对面部识别合成数据集的广泛评估来解决这一关键差距。我们进行了系统的文献综述,确定了25个合成面部识别数据集(2018-2025年),并结合严格的实验验证。我们的方法研究了隐私保护合成数据的七个关键要求:防止身份泄露、类内变化、身份可分性、数据集规模、伦理数据来源、偏见缓解和基准可靠性。通过对超过1000万张合成样本的实验以及五个标准基准测试结果的比较,我们对合成数据替代真实数据集的能力进行了首次全面的实证评估。表现最佳的合成数据集(VariFace和VIGFace)的识别准确率分别为95.67%和94.91%,超过了包括CASIA-WebFace(94.70%)在内的既定真实数据集。这些图像保持私密性,而可用的替代方案Vec2Face(93.52%)和CemiFace(93.22%)紧随其后。我们的研究结果表明,它们确保了适当的类内变化,同时保持了身份的可分性。人口统计偏见分析表明,尽管合成数据继承了有限的偏见,但它通过生成参数提供了前所未有的控制偏见缓解的能力。这些结果证明了合成面部数据作为面部识别研究的科学可行性和伦理必要性的替代方案。
论文及项目相关链接
Summary
人脸识别系统的部署引发了伦理困境:实现高精确度需要收集大量未经同意的真实人脸数据,这导致了数据集被撤回并可能违反GDPR等法规。尽管合成面部数据为隐私保护提供了有前景的替代方案,但这一领域缺乏关于其可行性的全面实证证据。本研究通过对面部识别合成数据集的广泛评估来解决这一关键空白。我们对合成面部识别数据集进行了系统文献综述和严格的实验验证。通过实验和比较,我们发现一些高性能的合成数据集在识别准确性上超越了真实数据集。这些结果证明了合成面部数据作为面部识别研究的科学可行性和伦理替代方案的重要性。
Key Takeaways
- 人脸识别系统的部署引发伦理困境,涉及数据隐私和同意问题。
- 合成面部数据作为隐私保护的有前景的替代方案。
- 缺乏关于合成面部数据可行性的全面实证证据。
- 本研究通过系统文献综述和实验验证评估了合成面部识别数据集。
- 高性能的合成数据集在识别准确性上超越真实数据集。
- 合成面部数据确保适当的类内变化并维持身份可分性。
- 合成数据为减少人口统计偏见提供了前所未有的控制力。
点此查看论文截图
Investigating Adversarial Robustness against Preprocessing used in Blackbox Face Recognition
Authors:Roland Croft, Brian Du, Darcy Joseph, Sharath Kumar
Face Recognition (FR) models have been shown to be vulnerable to adversarial examples that subtly alter benign facial images, exposing blind spots in these systems, as well as protecting user privacy. End-to-end FR systems first obtain preprocessed faces from diverse facial imagery prior to computing the similarity of the deep feature embeddings. Whilst face preprocessing is a critical component of FR systems, and hence adversarial attacks against them, we observe that this preprocessing is often overlooked in blackbox settings. Our study seeks to investigate the transferability of several out-of-the-box state-of-the-art adversarial attacks against FR when applied against different preprocessing techniques used in a blackbox setting. We observe that the choice of face detection model can degrade the attack success rate by up to 78%, whereas choice of interpolation method during downsampling has relatively minimal impacts. Furthermore, we find that the requirement for facial preprocessing even degrades attack strength in a whitebox setting, due to the unintended interaction of produced noise vectors against face detection models. Based on these findings, we propose a preprocessing-invariant method using input transformations that improves the transferability of the studied attacks by up to 27%. Our findings highlight the importance of preprocessing in FR systems, and the need for its consideration towards improving the adversarial generalisation of facial adversarial examples.
人脸识别(FR)模型已被证明容易受到对抗样例的影响,这些对抗样例会微妙地改变良性面部图像,从而暴露这些系统的盲点并保护用户隐私。 端到端FR系统首先从各种面部图像中获取预处理的面部,然后再计算深度特征嵌入的相似性。虽然面部预处理是FR系统(以及因此针对它们的对抗攻击)的关键组成部分,但我们观察到在黑色环境中往往忽略了这种预处理。我们的研究旨在调查针对FR的最新高级对抗攻击在黑色环境中应用于不同预处理技术时的可迁移性。我们发现,人脸检测模型的选择可能会使攻击成功率降低高达78%,而在下采样过程中选择插值方法的相对影响较小。此外,我们发现面部预处理的要求甚至在白色环境中也降低了攻击力度,这是由于生成的噪声向量与面部检测模型之间的意外相互作用。基于这些发现,我们提出了一种预处理不变的方法,使用输入转换提高了研究的攻击可迁移性高达27%。我们的研究强调了预处理在FR系统中的重要性和对其改进的考虑必要性,以改善面部对抗样例的对抗性泛化。
论文及项目相关链接
PDF Accepted for publication in DICTA 2025
Summary
人脸识别(FR)模型容易受到对抗样本的影响,这些对抗样本轻微改变良性面部图像,暴露了这些系统的盲点并可能泄露用户隐私。尽管面部预处理是FR系统和对抗攻击的关键部分,但我们在研究中观察到,在黑盒环境中应用的面部预处理往往被忽视。本研究调查了在不同面部预处理技术下应用的最新先进对抗攻击对FR的迁移性。我们发现面部检测模型的选择可能会使攻击成功率降低高达78%,而插值方法的选择对攻击影响较小。此外,即使在白盒环境中,面部预处理的要求也会降低攻击强度,因为产生的噪声向量与面部检测模型之间出现了意外的交互。基于这些发现,我们提出了一种预处理不变的方法,使用输入转换提高了研究的攻击迁移性达27%。我们的研究强调了面部预处理在FR系统中的重要性,并需要考虑到改进面部对抗样本的对抗泛化能力。
Key Takeaways
- 人脸识别(FR)模型存在对抗样本的问题,暴露了系统的盲点并威胁用户隐私。
- 在黑盒环境下,面部预处理在FR对抗攻击中的重要性经常被忽视。
- 研究表明面部检测模型的选择影响攻击成功率,影响可能高达78%。相比之下,插值方法的变动对攻击的影响较小。
- 面部预处理要求在白盒环境中也会降低攻击强度。这是因为噪声向量与面部检测模型之间的意外交互导致的。
- 提出了一种预处理不变的方法,通过输入转换提高了攻击迁移性达27%。
点此查看论文截图