嘘~ 正在从服务器偷取页面 . . .

Talking Head Generation


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-09-17 更新

AvatarSync: Rethinking Talking-Head Animation through Autoregressive Perspective

Authors:Yuchen Deng, Xiuyang Wu, Hai-Tao Zheng, Suiyang Zhang, Yi He, Yuxing Han

Existing talking-head animation approaches based on Generative Adversarial Networks (GANs) or diffusion models often suffer from inter-frame flicker, identity drift, and slow inference. These limitations inherent to their video generation pipelines restrict their suitability for applications. To address this, we introduce AvatarSync, an autoregressive framework on phoneme representations that generates realistic and controllable talking-head animations from a single reference image, driven directly text or audio input. In addition, AvatarSync adopts a two-stage generation strategy, decoupling semantic modeling from visual dynamics, which is a deliberate “Divide and Conquer” design. The first stage, Facial Keyframe Generation (FKG), focuses on phoneme-level semantic representation by leveraging the many-to-one mapping from text or audio to phonemes. A Phoneme-to-Visual Mapping is constructed to anchor abstract phonemes to character-level units. Combined with a customized Text-Frame Causal Attention Mask, the keyframes are generated. The second stage, inter-frame interpolation, emphasizes temporal coherence and visual smoothness. We introduce a timestamp-aware adaptive strategy based on a selective state space model, enabling efficient bidirectional context reasoning. To support deployment, we optimize the inference pipeline to reduce latency without compromising visual fidelity. Extensive experiments show that AvatarSync outperforms existing talking-head animation methods in visual fidelity, temporal consistency, and computational efficiency, providing a scalable and controllable solution.

基于生成对抗网络(GANs)或扩散模型的现有说话人动画方法常常存在帧间闪烁、身份漂移和推理速度慢等问题。这些固有的视频生成管道限制其在应用程序中的适用性。为解决此问题,我们引入了AvatarSync,这是一个基于音素表示的自回归框架,能够从单个参考图像生成真实可控的说话人动画,直接由文本或音频输入驱动。此外,AvatarSync采用两阶段生成策略,将语义建模与视觉动态解耦,这是一种有意的“分而治之”设计。第一阶段,面部关键帧生成(FKG)专注于音素级别的语义表示,通过利用文本或音频到音素的多对一映射关系。构建了音素到视觉的映射,将抽象音素锚定到字符级单元。结合定制的文本帧因果注意力掩码,生成关键帧。第二阶段,帧间插值,强调时间连贯性和视觉平滑性。我们引入了一种基于选择状态空间模型的时间戳感知自适应策略,实现高效的双向上下文推理。为支持部署,我们优化了推理管道,降低延迟而不影响视觉保真度。大量实验表明,AvatarSync在视觉保真度、时间一致性和计算效率方面优于现有的说话人动画方法,提供了一种可扩展和可控的解决方案。

论文及项目相关链接

PDF

Summary

基于生成对抗网络(GANs)或扩散模型的现有说话人动画方法常常存在帧间闪烁、身份漂移及推理速度慢等问题,这些固有的限制影响了它们在应用中的适用性。为解决这些问题,我们推出了AvatarSync,这是一个基于音素表示的自动生成框架,能够从单张参考图像生成真实可控的说话人动画,直接由文本或音频输入驱动。AvatarSync采用两阶段生成策略,将语义建模与视觉动态解耦,这是有意为之的“分而治之”设计。第一阶段,面部关键帧生成(FKG),专注于音素级别的语义表示,通过文本或音频到音素的多种映射关系。构建了音素到视觉的映射,将抽象的音素锚定到字符级单元。结合定制的文本帧因果注意力掩码,生成关键帧。第二阶段,帧间插值,强调时间连贯性和视觉平滑性。我们引入了一种基于选择性状态空间模型的时间戳感知自适应策略,实现高效的双向上下文推理。为支持部署,我们优化了推理管道,降低了延迟,不损害视觉保真度。大量实验表明,AvatarSync在视觉保真度、时间一致性和计算效率方面优于现有的说话人动画方法,提供了一种可扩展且可控的解决方案。

Key Takeaways

  1. AvatarSync是一个基于音素表示的自动生成框架,能够生成真实可控的说话人动画。
  2. 采用两阶段生成策略,第一阶段生成面部关键帧,第二阶段进行帧间插值。
  3. 利用文本或音频输入驱动动画,实现多样化的表达方式。
  4. 采用音素到视觉的映射,将抽象的音素与字符级单元相结合。
  5. 引入时间戳感知自适应策略,提高时间连贯性和视觉平滑性。
  6. 优化推理管道,降低延迟,同时保持视觉保真度。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
R1_Reasoning R1_Reasoning
R1_Reasoning 方向最新论文已更新,请持续关注 Update in 2025-09-17 Do machine learning climate models work in changing climate dynamics?
2025-09-17
下一篇 
Interactive Interactive
Interactive 方向最新论文已更新,请持续关注 Update in 2025-09-16 Multi-Intent Recognition in Dialogue Understanding A Comparison Between Smaller Open-Source LLMs
2025-09-16
  目录