发布日期: 2024-11-05

更新日期: 2024-12-10

文章字数: 4.3k

阅读时长: 16 分

阅读次数:

⚠️ 以下所有内容总结都来自于 Google的大语言模型Gemini-Pro的能力，如有错误，仅供参考，谨慎使用
🔴 请注意：千万不要用于严肃的学术场景，只能用于论文阅读前的初筛！
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ，还请您给我们一些鼓励！⭐️ HuggingFace免费体验

2024-11-05 更新

Stereo-Talker: Audio-driven 3D Human Synthesis with Prior-Guided Mixture-of-Experts

Authors:Xiang Deng, Youxin Pang, Xiaochen Zhao, Chao Xu, Lizhen Wang, Hongjiang Xiao, Shi Yan, Hongwen Zhang, Yebin Liu

This paper introduces Stereo-Talker, a novel one-shot audio-driven human video synthesis system that generates 3D talking videos with precise lip synchronization, expressive body gestures, temporally consistent photo-realistic quality, and continuous viewpoint control. The process follows a two-stage approach. In the first stage, the system maps audio input to high-fidelity motion sequences, encompassing upper-body gestures and facial expressions. To enrich motion diversity and authenticity, large language model (LLM) priors are integrated with text-aligned semantic audio features, leveraging LLMs’ cross-modal generalization power to enhance motion quality. In the second stage, we improve diffusion-based video generation models by incorporating a prior-guided Mixture-of-Experts (MoE) mechanism: a view-guided MoE focuses on view-specific attributes, while a mask-guided MoE enhances region-based rendering stability. Additionally, a mask prediction module is devised to derive human masks from motion data, enhancing the stability and accuracy of masks and enabling mask guiding during inference. We also introduce a comprehensive human video dataset with 2,203 identities, covering diverse body gestures and detailed annotations, facilitating broad generalization. The code, data, and pre-trained models will be released for research purposes.

PDF

Summary
提出了一种名为Stereo-Talker的一步法音频驱动的3D人像视频生成系统，实现精确唇同步、表情和动作，并具有连续视角控制。

Key Takeaways

Stereo-Talker实现音频驱动的3D人像视频生成。
采用两阶段方法，第一阶段映射音频到高保真动作序列。
利用LLM和语义音频特征增强动作质量。
第二阶段改进了基于扩散的视频生成模型，加入MoE机制。
MoE机制包括视角引导和掩码引导。
引入掩码预测模块，提高掩码稳定性和准确性。
构建了包含2,203个身份的综合人像视频数据集。

ChatPaperFree

标题及翻译：Stereo-Talker: Audio-driven 3D Human Synthesis with Prior-Guided Mixture-of-Experts。翻译：Stereo-Talker：基于先验引导混合专家模型的音频驱动3D人像合成。
作者：Xiang Deng, Youxin Pang, Xiaochen Zhao, Chao Xu等。具体作者名单及所属机构已在文中给出。
所属机构翻译：清华大学自动化系等。具体根据文中给出的作者所属机构进行翻译。
关键词：3D人类生成，多模态3D，运动合成。
链接：论文链接待补充，GitHub代码链接（如果可用）：GitHub:None（若该论文的GitHub仓库尚未公开或没有可用的代码链接，可以如此填写）。
摘要：
- (1)研究背景：本文的研究背景是音频驱动的三维人像合成技术。随着电影制作、人机交互和虚拟现实等领域的快速发展，该技术成为了一个热门研究方向。
- (2)过去的方法及问题：早期的方法主要集中在基于音频信号的嘴巴区域合成，忽视了其他身体部分。随着面部重塑方法的进步，基于单幅肖像图像的全头谈话视频生成得到了广泛探索。但现有方法常常生成不真实或模糊的视觉伪影，特别是在面部和手部区域，且未探索视点控制。
- (3)研究方法：本文提出了Stereo-Talker框架，一个用于音频驱动、可控制视点的三维人像视频合成的系统。通过结合扩散模型的生成能力和先验引导混合专家模型（MoE）机制，实现了高质量的三维人像合成。其中，引入了视点引导的MoE和掩膜引导的MoE，以提高不同视点和身体部位的生成质量。同时，使用了一个掩膜预测模块，从运动数据中推导出人体掩膜，增强了推理过程中的稳定性和准确性。
- (4)任务与性能：本文的方法在音频驱动的三维人像合成任务上取得了显著成果。通过广泛的实验验证，证明了该方法在生成高质量、高保真的三维谈话视频方面的能力，且支持连续视点控制。性能结果支持了该方法的有效性。

希望上述回答能满足您的要求！
7. 方法论：

- (1) 研究背景与问题定义：文章针对音频驱动的三维人像合成技术进行研究，随着电影制作、人机交互和虚拟现实等领域的快速发展，该技术成为热门研究方向。早期方法主要基于音频信号的嘴巴区域合成，忽视了其他身体部分。现有方法常常生成不真实或模糊的视觉伪影，特别是在面部和手部区域，且未探索视点控制。

- (2) 方法提出：文章提出了Stereo-Talker框架，一个用于音频驱动、可控制视点的三维人像视频合成的系统。结合扩散模型的生成能力和先验引导混合专家模型（MoE）机制，实现了高质量的三维人像合成。引入了视点引导的MoE和掩膜引导的MoE，以提高不同视点和身体部位的生成质量。同时，使用掩膜预测模块，从运动数据中推导出人体掩膜，增强了推理过程中的稳定性和准确性。

- (3) 技术细节：首先，利用预训练的大型语言模型建立原始音频和人体运动序列之间的精细映射。然后，设计了一种观点引导混合专家（MoE）模块和掩膜引导混合专家（MoE）模块，旨在增强合成视频输出的真实性和稳定性，从而推动视频生成质量边界。通过利用投影网络将高级语音语义特征转化为与文本潜在空间兼容的表示形式，利用扩散模型生成对应的运动序列。此外，通过引入视点先验信息和图像分割技术，提高合成视频的连贯性和逼真度。同时，开发了一个辅助模块来预测人类面具从骨骼数据，增强了方法的实用性。整个框架的训练过程中使用大规模人脸视频数据集进行验证和优化。最终实现了高质量的音频驱动的三维人像合成效果。

Conclusion:

(1)这篇工作的意义在于其对于音频驱动的三维人像合成技术的重大贡献。随着电影制作、人机交互和虚拟现实等领域的快速发展，该技术成为了一个热门且具挑战性的研究方向。该文章的工作为这一领域提供了新颖的框架和方法，推动了技术的发展。

(2)创新点：该文章提出了Stereo-Talker框架，结合扩散模型的生成能力和先验引导混合专家模型（MoE）机制，实现了高质量的三维人像合成。引入了视点引导的MoE和掩膜引导的MoE，提高了不同视点和身体部位的生成质量。此外，使用掩膜预测模块，从运动数据中推导出人体掩膜，增强了推理过程中的稳定性和准确性。
性能：该文章的方法在音频驱动的三维人像合成任务上取得了显著成果，通过广泛的实验验证，证明了该方法在生成高质量、高保真的三维谈话视频方面的能力，且支持连续视点控制。
工作量：文章详细描述了方法的实现过程，包括技术细节、训练过程等。同时，使用大规模人脸视频数据集进行验证和优化，证明了方法的实用性和效果。

总体来看，该文章在音频驱动的三维人像合成领域做出了重要的贡献，提供了新颖的方法和框架，并取得了显著的成果。

点此查看论文截图

ProbTalk3D: Non-Deterministic Emotion Controllable Speech-Driven 3D Facial Animation Synthesis Using VQ-VAE

Authors:Sichun Wu, Kazi Injamamul Haque, Zerrin Yumak

Audio-driven 3D facial animation synthesis has been an active field of research with attention from both academia and industry. While there are promising results in this area, recent approaches largely focus on lip-sync and identity control, neglecting the role of emotions and emotion control in the generative process. That is mainly due to the lack of emotionally rich facial animation data and algorithms that can synthesize speech animations with emotional expressions at the same time. In addition, majority of the models are deterministic, meaning given the same audio input, they produce the same output motion. We argue that emotions and non-determinism are crucial to generate diverse and emotionally-rich facial animations. In this paper, we propose ProbTalk3D a non-deterministic neural network approach for emotion controllable speech-driven 3D facial animation synthesis using a two-stage VQ-VAE model and an emotionally rich facial animation dataset 3DMEAD. We provide an extensive comparative analysis of our model against the recent 3D facial animation synthesis approaches, by evaluating the results objectively, qualitatively, and with a perceptual user study. We highlight several objective metrics that are more suitable for evaluating stochastic outputs and use both in-the-wild and ground truth data for subjective evaluation. To our knowledge, that is the first non-deterministic 3D facial animation synthesis method incorporating a rich emotion dataset and emotion control with emotion labels and intensity levels. Our evaluation demonstrates that the proposed model achieves superior performance compared to state-of-the-art emotion-controlled, deterministic and non-deterministic models. We recommend watching the supplementary video for quality judgement. The entire codebase is publicly available (https://github.com/uuembodiedsocialai/ProbTalk3D/).

PDF 14 pages, 9 figures, 3 tables. Includes code. Accepted at ACM SIGGRAPH MIG 2024

Summary
提出基于情感控制的不确定性语音驱动3D面部动画合成方法，实现更丰富情感表达。

Key Takeaways

研究关注音频驱动的3D面部动画合成。
忽略情感和情感控制，仅关注唇同步和身份控制。
缺乏情感丰富的面部动画数据和合成算法。
多数模型确定性高，输出运动相同。
强调情感和非确定性对多样性面部动画的重要性。
提出ProbTalk3D模型，使用VQ-VAE和3DMEAD数据集。
模型在客观、主观评估中优于现有方法。
代码库公开，可在线获取。

ChatPaperFree

Title: 基于非确定性模型的面部表情控制语音驱动三维人脸动画合成研究
Authors: 吴思春, 哈克·因贾马穆勒, 于扎克瑞·尤玛克
Affiliation: 乌得勒支大学（荷兰）
Keywords: 三维人脸动画合成，深度学习，虚拟人物，非确定性模型，情感控制面部动画
Urls: 论文链接：暂未提供；Github代码链接：GitHub:None
Summary:

(1) 研究背景：随着虚拟现实技术的不断发展，三维人脸动画不仅在影视制作和游戏生产中扮演着重要角色，还在各种扩展现实应用领域中发挥着关键作用。创建三维人物面部表情动画是一项需要手动工作并依赖于熟练技术人员的任务。近年来，音频驱动的三维人脸动画合成已成为一个热门研究领域，其中情感控制和表情丰富性是该领域的重要研究方向。然而，大多数现有模型在确定性的框架下进行工作，无法生成多样化的情感丰富的面部表情动画。本文旨在解决这一问题。

(2) 过去的方法及问题：当前的研究主要关注唇同步和身份控制，忽视了情感在生成过程中的作用。由于缺少情感丰富的面部动画数据和能够同时合成带有情感表达的语音动画的算法，这一领域的研究进展有限。此外，大多数模型是确定性的，即给定相同的音频输入，它们会产生相同的输出运动。这限制了面部表情动画的多样性和情感丰富性。

(3) 研究方法：本文提出了一种基于非确定性神经网络模型的语音驱动三维人脸动画合成方法——ProbTalk3D。该方法使用两阶段VQ-VAE模型和丰富的情感数据集3DMEAD。通过引入非确定性模型，ProbTalk3D能够生成多样化的情感丰富的面部表情动画。该模型使用同一音频输入生成多个不同的动画样本，确保动画的唇同步、情感表达力和视觉质量。此外，该模型还允许通过情感标签和强度级别控制面部表情动画。

(4) 任务与性能：本文对所提出的ProbTalk3D模型进行了广泛的比较分析，通过客观、主观和用户感知研究等多种评估方法，将其与最新的三维人脸动画合成方法进行了比较。实验结果表明，ProbTalk3D在随机和确定性的模型以及情感控制模型中实现了卓越的性能。该模型的性能支持了其目标，即生成多样化的情感丰富的面部表情动画。

总的来说，本文提出了一种创新的非确定性模型ProbTalk3D，用于情感控制的语音驱动三维人脸动画合成，实现了良好的性能。
7. 方法论：

(1) 背景介绍：该研究针对虚拟现实技术中三维人脸动画合成的重要性，特别是在影视制作、游戏生产以及扩展现实应用领域的广泛应用进行了阐述。针对现有模型在确定性的框架下工作，无法生成多样化的情感丰富的面部表情动画的问题，提出了一种基于非确定性神经网络模型的语音驱动三维人脸动画合成方法。

(2) 数据集选择：研究使用了3DMEAD数据集，该数据集通过从二维视听数据集中重建得到，包含了多种情感和强度的面部动画数据。数据集的每个帧都用FLAME 3D模型参数表示。为了进行有效的训练和生成动画，研究对原始训练配置进行了修改，提出了一个新的数据集分割方法。

(3) 问题定义：任务是基于音频和风格输入生成面部动画序列。为了解决这个问题，研究提出了一种监督神经网络模型训练方法，通过学习数据中的模式来预测面部运动。训练过程中使用了音频-运动对的数据。

(4) 模型构建：研究提出了ProbTalk3D模型，该模型分为两个阶段进行训练。第一阶段是运动自编码器阶段，通过向量量化变分自编码器（VQ-VAE）学习运动先验知识。第二阶段是利用预训练的HuBERT音频编码器和第一阶段的运动先验知识，进行语音和风格条件网络的训练。与其他模型不同，ProbTalk3D能够产生多样化的非确定性输出，并且使用较少的训练数据，具有更简洁、更高效的架构。在训练过程中，使用了量化重建损失和表情重建损失等多种损失函数来优化模型性能。此外，为了允许通过情感标签和强度级别控制面部表情动画，研究将风格向量（包含主体ID、情感类别和情感强度等信息）融入模型中。

总的来说，该研究通过对神经网络模型的训练和构建，实现了语音驱动的、非确定性的、情感可控的三维人脸动画合成。
8. Conclusion:

(1)这篇工作的意义在于提出了一种基于非确定性神经网络模型的语音驱动三维人脸动画合成方法，该方法在虚拟现实技术中具有重要的应用价值，能够生成多样化的情感丰富的面部表情动画，为影视制作、游戏生产以及扩展现实应用领域提供更加丰富、真实的虚拟人物表情表现。
(2)创新点：该文章提出了基于非确定性模型的ProbTalk3D语音驱动三维人脸动画合成方法，实现了良好的性能。其创新之处在于引入非确定性模型，能够生成多样化的情感丰富的面部表情动画，解决了现有模型在确定性的框架下工作，无法生成多样化的情感丰富的面部表情动画的问题。
性能：该文章提出的ProbTalk3D模型在广泛的比较分析和评估中表现出优异的性能，能够生成高质量的面部表情动画，且具有良好的唇同步、情感表达力和视觉质量。
工作量：该文章使用了大量的数据预处理和模型训练，工作量较大，但实验结果证明了其有效性。

希望以上总结符合您的要求。

点此查看论文截图