发布日期: 2025-10-22

更新日期: 2025-11-27

文章字数: 2k

阅读时长: 7 分

阅读次数:

⚠️ 以下所有内容总结都来自于大语言模型的能力，如有错误，仅供参考，谨慎使用
🔴 请注意：千万不要用于严肃的学术场景，只能用于论文阅读前的初筛！
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ，还请您给我们一些鼓励！⭐️ HuggingFace免费体验

2025-10-22 更新

When Words Smile: Generating Diverse Emotional Facial Expressions from Text

Authors:Haidong Xu, Meishan Zhang, Hao Ju, Zhedong Zheng, Erik Cambria, Min Zhang, Hao Fei

Enabling digital humans to express rich emotions has significant applications in dialogue systems, gaming, and other interactive scenarios. While recent advances in talking head synthesis have achieved impressive results in lip synchronization, they tend to overlook the rich and dynamic nature of facial expressions. To fill this critical gap, we introduce an end-to-end text-to-expression model that explicitly focuses on emotional dynamics. Our model learns expressive facial variations in a continuous latent space and generates expressions that are diverse, fluid, and emotionally coherent. To support this task, we introduce EmoAva, a large-scale and high-quality dataset containing 15,000 text-3D expression pairs. Extensive experiments on both existing datasets and EmoAva demonstrate that our method significantly outperforms baselines across multiple evaluation metrics, marking a significant advancement in the field.

使数字人类能够表达丰富的情绪在对话系统、游戏和其他交互场景中具有重要应用。尽管最近在说话人头部合成方面的进展在嘴唇同步方面取得了令人印象深刻的结果，但它们往往忽视了面部表情的丰富性和动态性。为了填补这一关键空白，我们引入了一个端到端的文本到表情模型，该模型明确地专注于情感动态。我们的模型在连续的潜在空间中学习表情面部变化，并生成多样、流畅、情感连贯的表达式。为了支持此任务，我们推出了EmoAva数据集，这是一个包含15，000个文本-3D表情对的大型高质量数据集。在现有数据集和EmoAva上的大量实验表明，我们的方法在多个评价指标上显著优于基线，标志着该领域的重大进展。

论文及项目相关链接

PDF Accepted by EMNLP 2025 (Oral); Project Page: https://walkermitty.github.io/EmoAva

Summary

近期数字人类在对话系统、游戏和其他交互场景中的应用日益广泛，其中情感表达是关键的一环。尽管当前说话人头部合成技术已经实现了令人印象深刻的唇同步效果，但它们忽略了面部表情的丰富性和动态性。为解决这一重要空白，我们提出了一种端到端的文本到表情模型，该模型可学习连续潜在空间中的表情面部变化，并生成多样、流畅和情感连贯的面部表情。为支持此任务，我们引入了EmoAva数据集，包含15,000个文本-3D表情对。在现有数据集和EmoAva上的实验表明，该方法在多个评估指标上显著优于基线方法，标志着该领域取得了重大进展。

Key Takeaways

数字人在对话系统、游戏等交互场景中的情感表达应用重要。
现有说话人头部合成技术虽实现唇同步，但忽略面部表情的丰富性和动态性。
提出一种端到端的文本到表情模型，关注情感动力学的表达。
模型在连续潜在空间中学习表情面部变化。
引入EmoAva数据集，支持表情生成任务，包含大量高质量文本-3D表情对。
实验证明，该方法在多个评估指标上显著优于现有技术。

Cool Papers

点此查看论文截图

Efficient Long-duration Talking Video Synthesis with Linear Diffusion Transformer under Multimodal Guidance

Authors:Haojie Zhang, Zhihao Liang, Ruibo Fu, Bingyan Liu, Zhengqi Wen, Xuefei Liu, Jianhua Tao, Yaling Liang

Long-duration talking video synthesis faces enduring challenges in achieving high video quality, portrait and temporal consistency, and computational efficiency. As video length increases, issues such as visual degradation, identity inconsistency, temporal incoherence, and error accumulation become increasingly problematic, severely affecting the realism and reliability of the results. To address these challenges, we present LetsTalk, a diffusion transformer framework equipped with multimodal guidance and a novel memory bank mechanism, explicitly maintaining contextual continuity and enabling robust, high-quality, and efficient generation of long-duration talking videos. In particular, LetsTalk introduces a noise-regularized memory bank to alleviate error accumulation and sampling artifacts during extended video generation. To further improve efficiency and spatiotemporal consistency, LetsTalk employs a deep compression autoencoder and a spatiotemporal-aware transformer with linear attention for effective multimodal fusion. We systematically analyze three fusion schemes and show that combining deep (Symbiotic Fusion) for portrait features and shallow (Direct Fusion) for audio achieves superior visual realism and precise speech-driven motion, while preserving diversity of movements. Extensive experiments demonstrate that LetsTalk establishes new state-of-the-art in generation quality, producing temporally coherent and realistic talking videos with enhanced diversity and liveliness, and maintains remarkable efficiency with 8x fewer parameters than previous approaches.

长期对话视频合成在达到高视频质量、肖像和时序一致性以及计算效率方面持续面临挑战。随着视频长度的增加，视觉退化、身份不一致、时序不一致和误差累积等问题变得越来越严重，严重影响了结果的真实性和可靠性。为了解决这些挑战，我们推出了LetsTalk，这是一款配备多模式指导和新型内存银行机制的扩散变压器框架，明确地保持了上下文连续性，并实现了长期对话视频的稳定、高质量和高效生成。特别地，LetsTalk引入了一个噪声正则化内存银行，以减轻扩展视频生成过程中的误差累积和采样伪影。为了进一步提高效率和时空一致性，LetsTalk采用深度压缩自动编码器和具有线性注意力的时空感知变压器，以实现有效的多模式融合。我们系统地分析了三种融合方案，并表明结合深度（共生融合）进行肖像特征和浅层（直接融合）进行音频融合，可实现卓越视觉真实感和精确语音驱动运动，同时保持运动多样性。大量实验表明，LetsTalk在生成质量方面达到了新的先进技术水平，产生了具有增强多样性和生动性的时间连贯和真实的对话视频，并且与以前的方法相比，保持了显著效率，参数减少了8倍。

论文及项目相关链接

PDF 10 pages, 7 figures

Summary

基于扩散变压器框架的LetsTalk方法，通过多模态引导和新颖的记忆库机制，解决了长时视频合成中的高视频质量、肖像和时序一致性以及计算效率等挑战性问题。其引入噪声正则化记忆库减轻长时间视频生成中的误差积累和采样失真问题，同时采用深度压缩自编码器和时空感知变压器提升效率和时空一致性。通过三种融合方案的深入分析发现，融合深度肖像特征和浅层音频可实现更佳的视觉真实感和精确语音驱动运动。实验证明，LetsTalk在生成质量上达到新的水平，生成具有连贯性和真实感的视频，且计算效率极高。

Key Takeaways