⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-08-20 更新
Hybrid Generative Fusion for Efficient and Privacy-Preserving Face Recognition Dataset Generation
Authors:Feiran Li, Qianqian Xu, Shilong Bao, Boyu Han, Zhiyong Yang, Qingming Huang
In this paper, we present our approach to the DataCV ICCV Challenge, which centers on building a high-quality face dataset to train a face recognition model. The constructed dataset must not contain identities overlapping with any existing public face datasets. To handle this challenge, we begin with a thorough cleaning of the baseline HSFace dataset, identifying and removing mislabeled or inconsistent identities through a Mixture-of-Experts (MoE) strategy combining face embedding clustering and GPT-4o-assisted verification. We retain the largest consistent identity cluster and apply data augmentation up to a fixed number of images per identity. To further diversify the dataset, we generate synthetic identities using Stable Diffusion with prompt engineering. As diffusion models are computationally intensive, we generate only one reference image per identity and efficiently expand it using Vec2Face, which rapidly produces 49 identity-consistent variants. This hybrid approach fuses GAN-based and diffusion-based samples, enabling efficient construction of a diverse and high-quality dataset. To address the high visual similarity among synthetic identities, we adopt a curriculum learning strategy by placing them early in the training schedule, allowing the model to progress from easier to harder samples. Our final dataset contains 50 images per identity, and all newly generated identities are checked with mainstream face datasets to ensure no identity leakage. Our method achieves \textbf{1st place} in the competition, and experimental results show that our dataset improves model performance across 10K, 20K, and 100K identity scales. Code is available at https://github.com/Ferry-Li/datacv_fr.
本文中,我们介绍了针对DataCV ICCV挑战赛的方法,该挑战赛的重点是构建高质量的人脸数据集来训练人脸识别模型。构建的数据集不应包含与任何现有公共人脸数据集重叠的身份。为了应对这一挑战,我们从彻底清理基线HSFace数据集开始,通过混合专家策略(MoE)结合人脸嵌入聚类和GPT-4o辅助验证来识别和移除错误标记或身份不一致的情况。我们保留最大的连续身份集群,并对每个身份的图像进行最多数据增强至固定数量。为了进一步优化数据集多样性,我们使用Stable Diffusion通过提示工程生成合成身份。由于扩散模型计算量大,我们为每个身份只生成一个参考图像,并使用Vec2Face有效地进行扩展,Vec2Face可以快速生成49个身份一致的变体。这种混合方法融合了基于GAN和基于扩散的样本,能够高效地构建多样且高质量的数据集。为了解决合成身份之间的高视觉相似性,我们采用了一种课程学习策略,将它们置于训练安排的早期阶段,允许模型从易到难的样本进行渐进学习。我们的最终数据集包含每个身份50张图像,所有新生成的身份都与主流人脸数据集进行了核对,以确保没有身份泄露。我们的方法在比赛中获得了第一名,实验结果表明我们的数据集在面向各种规模的场景中均能显著提高模型的性能表现,涵盖了对小到最多几十人的企业人脸识别项目或者数百万规模的实时公安业务库的不同人脸识别项目识别率的提升。相关代码已发布在https://github.com/Ferry-Li/datacv_fr上。
论文及项目相关链接
PDF This paper has been accpeted to ICCV 2025 DataCV Workshop
Summary
本文介绍了一种针对DataCV ICCV挑战赛的方法,该方法专注于构建高质量的人脸数据集以训练人脸识别模型。文章详细介绍了数据集的构建过程,包括基于混合专家策略的HSFace数据集清洗、基于稳定扩散生成合成身份的策略以及使用Vec2Face快速生成身份一致变体等方法。最终构建的数据集包含每身份50张图像,能够提高模型在不同身份规模下的性能,并在比赛中获得第一名。
Key Takeaways
- 该方法专注于构建高质量的人脸数据集,用于训练人脸识别模型。
- 采用混合专家策略清洗HSFace数据集,去除误标或身份不一致的数据。
- 使用稳定扩散生成合成身份,解决数据集多样性问题。
- 使用Vec2Face快速生成身份一致变体,提高数据效率。
- 采用课程学习策略,将合成身份放在训练早期,使模型从简单样本过渡到复杂样本。
- 最终数据集每身份包含50张图像,与主流人脸数据集无身份泄露。
- 该方法在DataCV ICCV挑战赛中取得第一名,并提高了模型在不同身份规模下的性能。
点此查看论文截图



