⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2024-12-16 更新
GoHD: Gaze-oriented and Highly Disentangled Portrait Animation with Rhythmic Poses and Realistic Expression
Authors:Ziqi Zhou, Weize Quan, Hailin Shi, Wei Li, Lili Wang, Dong-Ming Yan
Audio-driven talking head generation necessitates seamless integration of audio and visual data amidst the challenges posed by diverse input portraits and intricate correlations between audio and facial motions. In response, we propose a robust framework GoHD designed to produce highly realistic, expressive, and controllable portrait videos from any reference identity with any motion. GoHD innovates with three key modules: Firstly, an animation module utilizing latent navigation is introduced to improve the generalization ability across unseen input styles. This module achieves high disentanglement of motion and identity, and it also incorporates gaze orientation to rectify unnatural eye movements that were previously overlooked. Secondly, a conformer-structured conditional diffusion model is designed to guarantee head poses that are aware of prosody. Thirdly, to estimate lip-synchronized and realistic expressions from the input audio within limited training data, a two-stage training strategy is devised to decouple frequent and frame-wise lip motion distillation from the generation of other more temporally dependent but less audio-related motions, e.g., blinks and frowns. Extensive experiments validate GoHD’s advanced generalization capabilities, demonstrating its effectiveness in generating realistic talking face results on arbitrary subjects.
音频驱动的谈话头部生成需要在面对由不同输入肖像和音频与面部动作之间的复杂关联所带来的挑战时,实现音频和视觉数据无缝集成。对此,我们提出一个稳健的GoHD框架,旨在以高度真实、有表现力和可控的肖像视频来响应任何参考身份的任何动作。GoHD通过三个关键模块进行创新:首先,引入利用潜在导航的动画模块,以提高跨未见输入风格的泛化能力。该模块实现了动作和身份的高度分离,并纳入目光方向来纠正以前被忽视的异常眼睛动作。其次,设计了一个符合条件的扩散模型,以确保能够感知语调的头部姿势。第三,为了在有限的训练数据内从输入音频中估计出同步且真实的表情,采用了一种两阶段训练策略,将频繁且帧级的嘴唇运动分离出来,与其他更时间上依赖但较少与音频相关的动作(如眨眼和皱眉)的生成分开进行。大量实验验证了GoHD先进的泛化能力,证明了它在任意主体上生成真实谈话头部结果的有效性。
论文及项目相关链接
PDF Accepted by AAAI 2025
Summary
语音驱动的头部分析生成需要应对音频和视觉数据无缝集成的挑战,以及不同输入肖像和音频与面部动作之间复杂关系的挑战。我们提出了一种稳健的GoHD框架,能够针对任何参考身份生成高度逼真、有表现力和可控的肖像视频。GoHD的创新之处在于三个关键模块:利用潜在导航的动画模块提高了跨未见输入风格的泛化能力;采用自适应结构条件扩散模型保证了对韵律感知的头位;为了在有限的训练数据下从输入音频估计同步和逼真的表情,设计了分阶段训练策略,将频繁和帧级别的唇部运动提炼与其他更时间上相关但较少与音频相关的动作分离。实验证明GoHD具有出色的泛化能力,能够在任意主体上生成逼真的说话面部结果。
Key Takeaways
- GoHD框架支持从任何参考身份生成高度逼真、有表现力和可控的肖像视频。
- GoHD包含三个关键模块:利用潜在导航的动画模块、自适应结构条件扩散模型和分阶段训练策略。
- 动画模块实现了高分离的身份和运动,并能纠正先前被忽视的眼部动作中的不自然之处。
- 自适应结构条件扩散模型确保头部位对韵律感知的敏感性。
- 分阶段训练策略有助于在有限的训练数据下从音频生成逼真的表情,同时将唇部动作与其他动作分离。
- GoHD具有良好的泛化能力,能够在未见过的输入风格上表现优异。
点击展开 Cool Papers 详细信息
Q: 这篇论文试图解决什么问题?
A: 这篇论文提出了一个名为GoHD(Gaze-oriented and Highly Disentangled)的框架,旨在解决音频驱动的头像生成中的关键挑战,包括:
多样化输入肖像的挑战:现有方法在处理不同外观、表情的输入肖像时,难以充分解耦身份和运动信息,导致泛化能力差和失真。
视线方向的自然性:在生成视频中,现有方法在视线方向的控制上存在限制,导致生成的视频看起来不自然。
音频与低频运动之间的复杂映射:例如头部姿势,需要模型同时具有韵律感知和结果多样性,但先前工作往往只强调其中一个方面。
音频同步唇部运动的学习:需要大量的训练样本对来实现跨模态适应,这对于普通研究者来说是不切实际的。
面部表情的复杂性:唇部运动需要精确的帧同步,而眼部运动(如眨眼和皱眉)更多依赖于时间动态,增加了整体表情生成过程的复杂性。
为了解决这些问题,GoHD框架通过三个关键模块来实现:一个利用潜在导航的动画模块来提高跨未见输入风格的泛化能力;一个设计用于保证韵律感知头部姿势的共形结构条件扩散模型;以及一个通过两阶段训练策略来估计音频同步和现实表情的表达估计器。这些模块共同作用,以生成更真实、富有表现力和可控制的头像视频。
Q: 有哪些相关研究?
A: 根据提供的论文内容,以下是与GoHD框架相关的一些研究工作:
音频驱动的头像动画(Audio-driven Talking Face Animation):
- Chen et al. (2019) 提出了一种层次化的跨模态头像生成方法,使用显式的面部标记来增强音频-视觉控制。
- Zhou et al. (2019) 使用解耦的潜在表示来增强音频-视觉控制。
- PC-AVS (Zhou et al., 2021) 通过解耦的潜在姿势空间来解决头部姿势等自发运动的问题。
- StyleTalk (Ma et al., 2023a) 引入了风格可控的解码器。
- Yu et al. (2023) 将潜在空间分解为唇部和非唇部空间。
视频驱动的头像运动模仿(Video-driven Talking Face Motion Imitation):
- FOMM (Siarohin et al., 2019) 使用学习到的关键点及其仿射变换作为结构参考。
- 其他方法通过使用3D信息或深度信息,以及修改的运动估计来增强FOMM。
- LIA (Wang et al., 2022b) 引入了一个在潜在空间中导航的运动变形框架,避免了显式表示的错误。
其他相关工作:
- MakeItTalk (Zhou et al., 2020) 通过估计说话者特定的运动来限制表情传达。
- MODA (Liu et al., 2023) 通过使用更密集的标记来增强运动解耦。
- 一些工作探索了3DMMs,但出现了唇部运动不同步和姿势不真实的问题。
这些研究工作为GoHD框架的发展提供了理论基础和技术背景。GoHD框架通过引入新的方法来解决现有方法中存在的问题,如自然嘴形的保持、未见数据的严重形变扭曲和身份变化、音频同步唇部运动的生成难度等。通过这些相关研究,GoHD旨在实现对任何参考身份和任何运动的高度真实、富有表现力和可控制的头像视频生成。
Q: 论文如何解决这个问题?
A: 论文提出了一个名为GoHD的框架,通过以下三个主要模块来解决音频驱动的头像生成中的问题:
潜在导航的面部动画模块(Latent Navigable Face Animator):
- 利用潜在空间导航技术来解耦身份和运动,提高了对不同输入身份的泛化能力。
- 在此模块中,将输入的参考图像编码为潜在身份代码,与基于学习的运动代码库预测的运动向量结合,通过解码得到动画结果。
- 同时,考虑了视线方向作为条件,以修正潜在的不自然眼睛运动。
共形结构的条件扩散模型(Conformer-Structured Conditional Diffusion Model):
- 设计用于生成与音频节奏同步的头部姿势。
- 该模型使用扩张卷积和自注意力模块来捕捉音频提示,生成自然、有节奏的结果。
两阶段训练策略的表情估计器(Two-Stage Training Strategy for Expression Prediction):
- 首先,通过一个基于多层感知器(MLP)的网络从音频-视觉对中提取精确的帧同步唇部运动。
- 其次,使用长短期记忆网络(LSTM)生成依赖于时间动态的其他面部动作(例如眨眼和皱眉)。
具体来说,GoHD框架的工作流程如下:
步骤1:扩散式头部姿势生成(Diffused Head Poses):
- 使用条件扩散模型基于输入音频帧和原始参数合成一系列节奏性的头部姿势系数。
步骤2:音频到表情的预测(Audio-to-expression Prediction):
- 通过两阶段训练的预测器从给定的音频片段和原始表情参数中获得一系列表情系数。
步骤3:视线导向的面部动画(Gaze-oriented Face Animation):
- 结合预测的运动描述符和预定的视线方向,通过潜在空间导航实现健壮的面部运动转换,逐帧生成动画结果。
通过这种设计,GoHD能够有效地解决现有方法中存在的挑战,包括对不同输入身份的泛化能力差、视线方向的不自然、以及音频同步唇部运动的生成难度等问题,从而生成更真实、富有表现力和可控制的头像视频。
Q: 论文做了哪些实验?
A: 论文中进行了一系列实验来验证GoHD框架的有效性,包括以下几个方面:
实验设置(Experimental Settings):
- 使用VoxCeleb数据集的一个子集作为训练集,HDTF数据集的部分用于生成运动描述符。
- 大部分测试在这两个数据集的未见过的视频上进行。
与最新方法的比较(Comparison with State-of-the-art Methods):
- 定量评估了唇同步和视频质量,与Wav2Lip、MakeItTalk、Audio2Head、EAMM和SadTalker等方法进行比较。
- 使用Frechet Inception Distance (FID)评估图像质量,使用预训练的SyncNet模型评估唇部运动的置信度(LSE-C)和距离(LSE-D)。
- 计算眼睛和眉毛地标序列的结构相似性(SSIMe)和方差(Vare)来评估眼部运动的自然性。
- 使用预训练的姿态检测模型评估生成视频中的姿态序列,并计算这些序列的结构相似性(SSIMp)和特征向量的平均方差(Varp)。
与最新方法的视觉比较(Qualitative Comparison):
- 在HDTF和VoxCeleb数据集上展示了不同方法的视觉效果比较。
用户研究(User Study):
- 邀请37名志愿者对不同方法在头部姿势自然性、表情生动性、视线自然性、唇同步和整体自然性等方面的性能进行评估。
验证实验(Validation Experiments):
- 运动插值(Motion Interpolation):展示了面部动画器在运动编辑中的鲁棒性。
- 视线控制(Gaze Orientation):验证了面部动画器在视线方向控制上的能力。
- 多模态驱动(Multi-modal Driving):展示了从源视频中提取中间运动描述符进行多模态驱动动画的效果。
消融研究(Ablation Study):
- 对两阶段表情预测策略的有效性进行验证。
这些实验全面评估了GoHD框架在生成逼真、可控制的头像视频方面的能力,并与现有技术进行了比较,证明了其在任意主题上生成逼真说话面部结果的先进性。
Q: 有什么可以进一步探索的点?
A: 根据论文内容和补充材料,以下是一些可以进一步探索的点:
提高运动描述符的精确度:
- 论文中提到输入运动描述符为显式表示,无法准确传达微妙的头部或面部运动。可以探索更精细的描述符,例如基于更高级的3D面部建模技术,以提高最终驱动结果的分辨率和细节。
改善时间连续性:
- 由于当前的框架是基于帧的驱动方法,可能在最终生成结果中出现轻微的抖动。可以研究如何引入时间连续性约束,以减少抖动并提高视频的真实性。
扩展到更广泛的数据集和应用场景:
- 尽管论文中使用了VoxCeleb和HDTF数据集,但测试可以扩展到更多样化的数据集,包括不同种族、年龄和表情的数据,以增强模型的泛化能力。
提高唇部和眼部运动的自然性:
- 尽管论文提出了两阶段训练策略来生成音频同步的面部表情,但在唇部和眼部运动的自然性方面仍有改进空间。可以进一步研究如何更准确地模拟这些复杂的面部运动。
多模态输入的融合:
- 论文提出了一种基于音频和视频驱动的动画方法,但可以考虑将更多的模态(如文本或情感状态)融入到动画生成过程中,以实现更丰富的交互和表达。
提高模型的鲁棒性和泛化能力:
- 探索不同的训练策略和正则化技术,以提高模型在面对不同输入风格和质量时的鲁棒性和泛化能力。
实时性能优化:
- 研究如何优化模型结构和计算过程,以实现实时或近实时的头像动画生成,这对于视频会议和虚拟主播等应用尤为重要。
伦理和安全问题:
- 考虑到深度伪造技术的潜在滥用风险,研究如何通过水印、检测算法等技术手段来确保生成内容的可追溯性和安全性。
用户交互和定制化:
- 开发用户友好的界面和工具,允许用户根据自己的需求定制和调整动画参数,以创造个性化的虚拟形象。
这些探索点不仅可以推动头像动画技术的发展,还有助于确保技术的安全和负责任使用。
Q: 总结一下论文的主要内容
A: 这篇论文提出了一个名为GoHD(Gaze-oriented and Highly Disentangled)的框架,旨在生成高度逼真、富有表现力且可控制的头像视频。GoHD框架通过以下三个关键模块来解决音频驱动头像生成中的挑战:
潜在导航的面部动画模块:该模块利用潜在空间导航技术来解耦身份和运动信息,提高了对不同输入身份的泛化能力,并能修正不自然的眼睛运动。
共形结构的条件扩散模型:该模型用于生成与音频节奏同步的头部姿势,能够捕捉音频提示并生成自然、有节奏的结果。
两阶段训练策略的表情估计器:这一部分首先从音频-视觉对中提取精确的帧同步唇部运动,然后使用长短期记忆网络(LSTM)生成依赖于时间动态的其他面部动作,如眨眼和皱眉。
GoHD的工作流程包括:
- 利用条件扩散模型基于输入音频帧合成一系列节奏性的头部姿势系数。
- 通过两阶段训练的预测器从给定的音频片段和原始表情参数中获得一系列表情系数。
- 结合预测的运动描述符和预定的视线方向,通过潜在空间导航实现健壮的面部运动转换,逐帧生成动画结果。
论文通过一系列实验验证了GoHD框架的有效性,包括与最新技术的比较、视觉比较、用户研究、验证实验和消融研究。实验结果表明,GoHD能够在任意主题上生成逼真的说话面部结果。此外,论文还讨论了潜在的改进方向、限制和伦理考虑,强调了负责任地使用技术的重要性。
Q: 想要进一步了解论文
A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。