⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-10-18 更新
Talking Points: Describing and Localizing Pixels
Authors:Matan Rusanovsky, Shimon Malnick, Shai Avidan
Vision-language models have achieved remarkable success in cross-modal understanding. Yet, these models remain limited to object-level or region-level grounding, lacking the capability for pixel-precise keypoint comprehension through natural language. We introduce a novel framework for pixel level grounding. The framework consists of two complementary components: a Point Descriptor that generates rich, contextual descriptions of individual keypoints, and a Point Localizer that regresses precise pixel coordinates from these descriptions. Unlike prior work that relies on templated prompts or keypoint names, our approach produces free-form, coarse-to-fine descriptions that situate keypoints within their visual context. Since there is no available dataset to train such a system, we introduce LlamaPointInPart, a carefully curated dataset of 20K+ image-keypoint-description triplets synthesized from multiple vision-language models, capturing multi-scale information from scene-level context to visual features around the keypoint. For cross-category generalization, we optimize the Point Descriptor on AP-10K via GRPO, using the frozen Point Localizer as a reward model to produce descriptions that maximize localization accuracy. To evaluate our results we establish a new evaluation protocol. Instead of comparing the text description produced by our method to the ground truth, we use the localizer to determine how close is the predicted point generated to the ground truth point. Experiments demonstrate superior performance compared to baseline models on LlamaPointInPart.The bidirectional nature of our framework should enable future applications in both keypoint-guided image understanding and language-guided precise localization. Our code and dataset are publicly available at https://github.com/matanr/Talking_Points.
视觉语言模型在多模态理解方面取得了显著的成功。然而,这些模型仍然局限于对象级别或区域级别的定位,缺乏通过自然语言进行像素精确关键点理解的能力。我们引入了一个新颖的像素级别定位框架。该框架由两个互补的组件构成:一个点描述符,用于生成单个关键点的丰富上下文描述;一个点定位器,用于从这些描述中回归精确的像素坐标。不同于以前的工作依赖于模板提示或关键点名称,我们的方法生成自由形式的、从粗到细的描述,将关键点置于其视觉上下文中。由于没有可用的数据集来训练这样的系统,我们引入了LlamaPointInPart数据集,这是一个精心制作的由2万多个图像-关键点-描述三元组合成的数据集,从场景级别的上下文到关键点周围的视觉特征,捕捉多尺度信息。为了实现跨类别的泛化,我们使用GRPO优化点描述符在AP-10K上的性能,使用冻结的点定位器作为奖励模型来生成最大化定位精度的描述。为了评估我们的结果,我们建立了一个新的评估协议。不同于将我们的方法产生的文本描述与真实值进行比较,我们使用定位器来确定预测点与真实点之间的接近程度。在LlamaPointInPart数据集上的实验表明,与基线模型相比,我们的方法具有更优越的性能。我们框架的双向性质有望在未来实现关键点的图像理解和语言指导的精确定位的应用程序中得到应用。我们的代码和数据集可在https://github.com/matanr/Talking_Points公开访问。
论文及项目相关链接
Summary
本文提出一种新颖的像素级定位框架,包含两个互补组件:点描述符和点定位器。点描述符生成个体关键点的丰富上下文描述,而点定位器则根据这些描述回归精确像素坐标。该方法能够产生自由形式的、从粗到细的描述,将关键点置于其视觉背景中,不同于依赖模板提示或关键点名称的先前方法。由于无法训练此类系统用的数据集,因此引入了LlamaPointInPart数据集,包含2万多个图像-关键点-描述三元组,由多个视觉语言模型合成,捕捉从场景级上下文到关键点周围视觉特征的多尺度信息。实验证明,该方法在LlamaPointInPart上的性能优于基线模型。
Key Takeaways
- 视觉语言模型在跨模态理解方面取得了显著成功,但仍局限于对象级或区域级的定位,缺乏通过自然语言进行像素精确的关键点理解。
- 提出了一种新颖的像素级定位框架,包含点描述符和点定位器两个互补组件。
- 点描述符能够生成关键点的丰富上下文描述,而点定位器可以根据这些描述回归精确像素坐标。
- 该方法能够产生自由形式的、置于其视觉背景中的描述,不同于依赖模板提示或关键点名称的先前方法。
- 引入了LlamaPointInPart数据集,用于训练此类系统,包含2万多个图像-关键点-描述三元组。
- 通过优化点描述符在AP-10K上的性能,实现了跨类别的泛化。
点此查看论文截图




Do Slides Help? Multi-modal Context for Automatic Transcription of Conference Talks
Authors:Supriti Sinhamahapatra, Jan Niehues
State-of-the-art (SOTA) Automatic Speech Recognition (ASR) systems primarily rely on acoustic information while disregarding additional multi-modal context. However, visual information are essential in disambiguation and adaptation. While most work focus on speaker images to handle noise conditions, this work also focuses on integrating presentation slides for the use cases of scientific presentation. In a first step, we create a benchmark for multi-modal presentation including an automatic analysis of transcribing domain-specific terminology. Next, we explore methods for augmenting speech models with multi-modal information. We mitigate the lack of datasets with accompanying slides by a suitable approach of data augmentation. Finally, we train a model using the augmented dataset, resulting in a relative reduction in word error rate of approximately 34%, across all words and 35%, for domain-specific terms compared to the baseline model.
当前最先进的自动语音识别(ASR)系统主要依赖于音频信息,而忽略了额外的多模态上下文。然而,视觉信息在解歧和适应方面至关重要。虽然大多数工作都专注于处理噪音条件下的演讲者图像,但这项工作还专注于将演示幻灯片集成到科学演示的应用场景中。首先,我们为多模态演示创建一个基准测试,包括自动分析转录专业术语的领域。接下来,我们探索用多模态信息增强语音模型的方法。我们通过适当的数据增强方法缓解了缺乏附带幻灯片的数据集问题。最后,我们使用增强数据集训练模型,与基准模型相比,在所有单词上的词错误率大约降低了34%,在专业术语上的词错误率降低了35%。
论文及项目相关链接
Summary
本文主要研究将多模态信息(包括演讲者的图像和演示文稿)融入自动语音识别(ASR)系统的方法。通过建立多模态演示的基准测试,探索了增强语音模型的方法,并通过数据增强技术解决了缺乏附带幻灯片的数据集问题。最终,使用增强数据集训练的模型相较于基准模型,在单词错误率上降低了约34%(针对所有单词)和针对特定领域的术语错误率降低了约35%。提高了系统的清晰度和准确性。简化后的内容便于实际应用与拓展研究。对于基于声学信息的现有技术是一个有益的补充与拓展。此为语音识别领域的进步提供了参考范例。有助于理解自动语音识别系统面临的挑战,以及如何利用多模态信息提高性能。在演讲和演示文稿识别方面展现出巨大潜力。该工作不仅解决了特定领域的术语识别问题,也为未来的语音识别技术提供了重要思路。为未来的ASR系统的发展提供了方向性的启示。有助于解决自动语音识别技术在复杂环境下的挑战。通过对数据的扩充技术为现有的语音识别数据集注入更多样化的内容提供了可能的解决方案。总结了工作提出的具体解决方案和对行业的贡献与意义。Key Takeaways:
- 多模态信息融入自动语音识别系统提高性能研究对声学信息的局限提出新的思路方向
- 创建了针对语音与幻灯片展示结合的展示系统处理研究的基准测试,通过该测试能够进一步扩展其应用与研究
- 采用数据增强技术解决了缺乏幻灯片配套数据集的问题
- 训练的新模型相比基准模型降低了大约百分之三十四的单词错误率和百分之三十五的专业术语错误率
- 此研究在语音识别领域展现了极大的潜力,尤其是在解决特定术语识别问题方面表现出优势
- 该研究对于未来解决自动语音识别系统在复杂环境下的挑战提供了重要启示
点此查看论文截图



Playmate2: Training-Free Multi-Character Audio-Driven Animation via Diffusion Transformer with Reward Feedback
Authors:Xingpei Ma, Shenneng Huang, Jiaran Cai, Yuansheng Guan, Shen Zheng, Hanfeng Zhao, Qiang Zhang, Shunsi Zhang
Recent advances in diffusion models have significantly improved audio-driven human video generation, surpassing traditional methods in both quality and controllability. However, existing approaches still face challenges in lip-sync accuracy, temporal coherence for long video generation, and multi-character animation. In this work, we propose a diffusion transformer (DiT)-based framework for generating lifelike talking videos of arbitrary length, and introduce a training-free method for multi-character audio-driven animation. First, we employ a LoRA-based training strategy combined with a position shift inference approach, which enables efficient long video generation while preserving the capabilities of the foundation model. Moreover, we combine partial parameter updates with reward feedback to enhance both lip synchronization and natural body motion. Finally, we propose a training-free approach, Mask Classifier-Free Guidance (Mask-CFG), for multi-character animation, which requires no specialized datasets or model modifications and supports audio-driven animation for three or more characters. Experimental results demonstrate that our method outperforms existing state-of-the-art approaches, achieving high-quality, temporally coherent, and multi-character audio-driven video generation in a simple, efficient, and cost-effective manner.
近期扩散模型(diffusion models)的进展极大地推动了音频驱动的人类视频生成技术,无论是在质量还是可控性方面都超越了传统方法。然而,现有方法仍然面临嘴唇同步精度、长视频生成的时序连贯性以及多角色动画方面的挑战。在这项工作中,我们提出了一个基于扩散变压器(DiT)的框架,用于生成任意长度的逼真谈话视频,并介绍了一种无训练的多角色音频驱动动画方法。首先,我们采用LoRA为基础的训练策略,结合位置偏移推理方法,既能够高效生成长视频,同时又保留了基础模型的能力。此外,我们将部分参数更新与奖励反馈相结合,以提高嘴唇同步和自然身体动作的质量。最后,我们提出了无训练的多角色动画方法——掩膜分类器免费指导(Mask Classifier-Free Guidance,Mask-CFG),它不需要特定的数据集或模型修改,并支持三个或更多角色的音频驱动动画。实验结果表明,我们的方法超越了现有的最先进方法,以简单、高效和成本效益高的方式实现了高质量、时序连贯和多角色的音频驱动视频生成。
论文及项目相关链接
Summary
本文介绍了基于扩散模型的最新进展在音频驱动的人脸视频生成中的应用。提出了一种基于扩散变换器的框架,用于生成任意长度的逼真对话视频,并引入了一种无训练的多角色音频驱动动画方法。通过采用LoRA训练策略和位置偏移推断方法,实现了高效的长视频生成,同时保留了基础模型的能力。通过部分参数更新和奖励反馈,提高了唇同步和自然动作的表现。此外,还提出了一种无训练的多角色动画方法——Mask Classifier-Free Guidance(Mask-CFG),无需特定数据集或模型修改,支持三个或更多角色的音频驱动动画。实验结果证明,该方法优于现有先进技术,实现了高质量、时间连贯性和多角色音频驱动视频生成,简单、高效且经济实惠。
Key Takeaways
- 扩散模型的最新进展显著改进了音频驱动的人脸视频生成技术,在质量和可控性方面超越了传统方法。
- 提出了基于扩散变换器的框架,用于生成任意长度的逼真对话视频。
- 采用LoRA训练策略和位置偏移推断方法,实现高效长视频生成,同时保留基础模型能力。
- 通过部分参数更新和奖励反馈增强唇同步和自然动作表现。
- 引入了无训练的多角色音频驱动动画方法——Mask Classifier-Free Guidance(Mask-CFG)。
- 该方法无需特定数据集或模型修改,支持三个或更多角色的音频驱动动画。
点此查看论文截图




DEMO: Disentangled Motion Latent Flow Matching for Fine-Grained Controllable Talking Portrait Synthesis
Authors:Peiyin Chen, Zhuowei Yang, Hui Feng, Sheng Jiang, Rui Yan
Audio-driven talking-head generation has advanced rapidly with diffusion-based generative models, yet producing temporally coherent videos with fine-grained motion control remains challenging. We propose DEMO, a flow-matching generative framework for audio-driven talking-portrait video synthesis that delivers disentangled, high-fidelity control of lip motion, head pose, and eye gaze. The core contribution is a motion auto-encoder that builds a structured latent space in which motion factors are independently represented and approximately orthogonalized. On this disentangled motion space, we apply optimal-transport-based flow matching with a transformer predictor to generate temporally smooth motion trajectories conditioned on audio. Extensive experiments across multiple benchmarks show that DEMO outperforms prior methods in video realism, lip-audio synchronization, and motion fidelity. These results demonstrate that combining fine-grained motion disentanglement with flow-based generative modeling provides a powerful new paradigm for controllable talking-head video synthesis.
基于扩散生成模型的音频驱动头部运动视频生成技术已经迅速发展,但生成时间连贯且具有精细动作控制的视频仍然具有挑战性。我们提出了DEMO,这是一个面向音频驱动的说话人视频合成的流匹配生成框架,实现了对唇部运动、头部姿势和眼睛注视的独立、高保真控制。核心贡献在于运动自编码器,它构建了一个结构化潜在空间,在该空间中独立表示运动因素并进行近似正交化处理。在这个解耦的运动空间上,我们应用基于最优传输的流匹配,结合转换器预测器,根据音频生成时间平滑的运动轨迹。在多个基准测试上的广泛实验表明,DEMO在视频逼真度、唇音同步和动作保真度方面优于以前的方法。这些结果表明,将精细动作解耦与基于流的生成模型相结合,为可控的说话人视频合成提供了强大的新范式。
论文及项目相关链接
PDF 5 pages
摘要
基于扩散模型的音频驱动谈话视频生成技术取得进展迅速,但产生时间连贯的视频并实现精细动作控制仍是挑战。我们提出DEMO,一个面向音频驱动谈话肖像视频合成的流匹配生成框架,提供唇部动作、头部姿态和眼睛注视的独立控制和高保真度。核心贡献在于运动自编码器,它构建了一个结构化潜在空间,其中运动因素独立表示并近似正交化。在此分离的运动空间中,我们使用基于最优传输的流匹配方法和变换预测器生成条件音频的时间平滑运动轨迹。在多个基准测试上的广泛实验表明,DEMO在视频逼真度、唇音同步和动作保真度方面优于先前的方法。这些结果证明,结合精细动作分离与流生成建模为可控谈话头视频合成提供了强大的新范式。
要点
- 音频驱动谈话视频生成技术现状和挑战。
- 引入DEMO框架及其主要组件:运动自编码器。
- 运动自编码器构建结构化潜在空间,实现独立动作控制。
- 基于最优传输的流匹配方法和变换预测器生成条件音频的时间平滑运动轨迹。
- 在多个基准测试上的广泛实验表现优越。
- 结合精细动作分离与流生成建模为可控谈话头视频合成提供新范式。
点此查看论文截图




SyncLipMAE: Contrastive Masked Pretraining for Audio-Visual Talking-Face Representation
Authors:Zeyu Ling, Xiaodong Gu, Jiangnan Tang, Changqing Zou
We introduce SyncLipMAE, a self-supervised pretraining framework for talking-face video that learns synchronization-aware and transferable facial dynamics from unlabeled audio-visual streams. Our approach couples masked visual modeling with cross-modal contrastive alignment and employs three per-frame prompt tokens that explicitly encode the essential factors of a talking-face frame - identity, vocal motion (speech-synchronized facial dynamics), and ambient motion (audio-agnostic movements such as blinks and head pose). The contrastive objective uses time-aligned vocal-motion and audio tokens as positives and misaligned pairs as negatives, driving both modalities into a shared embedding space and yielding token-level audio-visual stream synchronization. After pretraining, the aligned audio tokens together with the visual prompt tokens (identity, vocal motion, ambient motion) form a unified interface for four disparate downstream settings: (i) audio-visual stream synchronization; (ii) facial emotion and head/face action recognition; (iii) visual speech recognition; and (iv) visual dubbing, for which we enable indistinguishable audio- or video-driven control within a single model. Across four task families that require distinct capabilities, SyncLipMAE achieves state-of-the-art results, underscoring the effectiveness of synchronization-aware, factorized self-supervised pretraining.
我们介绍了SyncLipMAE,这是一种用于说话人脸视频的自我监督预训练框架,它可以从无标签的视听流中学习同步感知和可迁移的面动。我们的方法结合了掩模视觉建模和跨模态对比对齐,并采用了三个每帧提示令牌,显式编码说话人脸帧的关键因素:身份、语音运动(与语音同步的面动)和环境运动(与音频无关的动作,如眨眼和头部姿势)。对比目标使用时间对齐的语音运动和声学令牌作为正样本,错位的配对作为负样本,将两种模态驱动到共享嵌入空间,并产生令牌级的视听流同步。预训练后,对齐的声学令牌与视觉提示令牌(身份、语音运动、环境运动)形成了一个统一的接口,用于四种不同的下游场景:(i)视听流同步;(ii)面部情感识别和头部/面部动作识别;(iii)视觉语音识别;(iv)视频配音,我们在单个模型中实现了不可区分的音频或视频驱动控制。在需要不同能力的四个任务家族中,SyncLipMAE取得了最先进的结果,强调了同步感知、因子化的自我监督预训练的有效性。
论文及项目相关链接
Summary
SyncLipMAE是一个用于说话人脸视频的自我监督预训练框架,它通过无标签的视听流学习同步感知和可迁移的面部动态。该方法结合了掩膜视觉建模和跨模态对比对齐,并采用三个每帧提示令牌显式编码说话人脸帧的关键因素:身份、语音动作(与语音同步的面部动态)和环境动作(与音频无关的动作,如眨眼和头部姿势)。对比目标使用时间对齐的语音动作和音频令牌作为正样本,错位的对作为负样本,推动两种模式进入共享嵌入空间,产生令牌级的视听流同步。预训练后,对齐的音频令牌与视觉提示令牌(身份、语音动作、环境动作)形成一个统一的接口,用于四种不同的下游设置,包括视听流同步、面部情感及头部/面部动作识别、视觉语音识别和视觉配音。SyncLipMAE在四个需要不同能力的任务家族中取得了最先进的成果,突显了同步感知、分解自我监督预训练的有效性。
Key Takeaways
- SyncLipMAE是一个自我监督预训练框架,专为说话人脸视频设计。
- 该框架通过无标签的视听流学习同步感知和可迁移的面部动态。
- SyncLipMAE结合掩膜视觉建模和跨模态对比对齐。
- 使用三个每帧提示令牌来编码说话人脸帧的关键因素:身份、语音动作和环境动作。
- 对比目标使用时间对齐的语音动作和音频令牌,以推动两种模式进入共享嵌入空间。
- 预训练后,SyncLipMAE可在四种不同的下游设置中使用,包括视听流同步、面部情感及动作识别、视觉语音识别和视觉配音。
点此查看论文截图






EGSTalker: Real-Time Audio-Driven Talking Head Generation with Efficient Gaussian Deformation
Authors:Tianheng Zhu, Yinfeng Yu, Liejun Wang, Fuchun Sun, Wendong Zheng
This paper presents EGSTalker, a real-time audio-driven talking head generation framework based on 3D Gaussian Splatting (3DGS). Designed to enhance both speed and visual fidelity, EGSTalker requires only 3-5 minutes of training video to synthesize high-quality facial animations. The framework comprises two key stages: static Gaussian initialization and audio-driven deformation. In the first stage, a multi-resolution hash triplane and a Kolmogorov-Arnold Network (KAN) are used to extract spatial features and construct a compact 3D Gaussian representation. In the second stage, we propose an Efficient Spatial-Audio Attention (ESAA) module to fuse audio and spatial cues, while KAN predicts the corresponding Gaussian deformations. Extensive experiments demonstrate that EGSTalker achieves rendering quality and lip-sync accuracy comparable to state-of-the-art methods, while significantly outperforming them in inference speed. These results highlight EGSTalker’s potential for real-time multimedia applications.
本文介绍了EGSTalker,一个基于3D高斯拼贴(3DGS)的实时音频驱动说话人头部生成框架。EGSTalker旨在提高速度和视觉保真度,仅需3-5分钟的训练视频即可合成高质量的面部动画。该框架包括两个关键阶段:静态高斯初始化和音频驱动变形。在第一阶段,使用多分辨率哈希三角平面和Kolmogorov-Arnold网络(KAN)提取空间特征并构建紧凑的3D高斯表示。在第二阶段,我们提出了有效的空间音频注意力(ESAA)模块,以融合音频和空间线索,而KAN则预测相应的高斯变形。大量实验表明,EGSTalker的渲染质量和嘴唇同步精度可与最先进的方法相媲美,同时在推理速度上显著优于它们。这些结果突出了EGSTalker在实时多媒体应用中的潜力。
论文及项目相关链接
PDF Main paper (6 pages). Accepted for publication by IEEE International Conference on Systems, Man, and Cybernetics 2025
Summary
基于3D高斯喷绘技术(3DGS),本文提出了实时音频驱动说话人头部生成框架EGSTalker。该框架旨在提高速度和视觉保真度,仅需要3-5分钟的训练视频即可合成高质量面部动画。它包含两个关键阶段:静态高斯初始化和音频驱动变形。首先,使用多分辨率哈希三平面和Kolmogorov-Arnold网络(KAN)提取空间特征并建立紧凑的3D高斯表示。然后,提出高效空间音频注意力(ESAA)模块来融合音频和空间线索,同时KAN预测相应的高斯变形。广泛实验表明,EGSTalker的渲染质量和唇同步准确性可与最新技术相媲美,且在推理速度上显著优于它们。这突显了EGSTalker在实时多媒体应用中的潜力。
Key Takeaways
- EGSTalker是一个基于3D高斯喷绘技术的实时音频驱动说话人头部生成框架。
- 框架包含静态高斯初始化和音频驱动变形两个关键阶段。
- EGSTalker使用多分辨率哈希三平面和Kolmogorov-Arnold网络来提取空间特征并建立3D高斯表示。
- 提出了高效空间音频注意力模块来融合音频与空间线索。
- EGSTalker仅需3-5分钟的训练视频即可合成高质量面部动画。
- 广泛实验表明,EGSTalker的渲染质量和唇同步准确性可与最新技术方法相媲美。
点此查看论文截图








AvatarSync: Rethinking Talking-Head Animation through Phoneme-Guided Autoregressive Perspective
Authors:Yuchen Deng, Xiuyang Wu, Hai-Tao Zheng, Suiyang Zhang, Yi He, Yuxing Han
Talking-head animation focuses on generating realistic facial videos from audio input. Following Generative Adversarial Networks (GANs), diffusion models have become the mainstream, owing to their robust generative capacities. However, inherent limitations of the diffusion process often lead to inter-frame flicker and slow inference, restricting their practical deployment. To address this, we introduce AvatarSync, an autoregressive framework on phoneme representations that generates realistic and controllable talking-head animations from a single reference image, driven directly by text or audio input. To mitigate flicker and ensure continuity, AvatarSync leverages an autoregressive pipeline that enhances temporal modeling. In addition, to ensure controllability, we introduce phonemes, which are the basic units of speech sounds, and construct a many-to-one mapping from text/audio to phonemes, enabling precise phoneme-to-visual alignment. Additionally, to further accelerate inference, we adopt a two-stage generation strategy that decouples semantic modeling from visual dynamics, and incorporate a customized Phoneme-Frame Causal Attention Mask to support multi-step parallel acceleration. Extensive experiments conducted on both Chinese (CMLR) and English (HDTF) datasets demonstrate that AvatarSync outperforms existing talking-head animation methods in visual fidelity, temporal consistency, and computational efficiency, providing a scalable and controllable solution.
谈话头动画主要关注从音频输入生成逼真的面部视频。继生成对抗网络(GANs)之后,扩散模型由于其强大的生成能力已成为主流。然而,扩散过程本身的固有局限性常常导致帧间闪烁和推理缓慢,从而限制了其实际部署应用。为了解决这一问题,我们引入了AvatarSync,这是一个基于音素表示的自回归框架,能够从单个参考图像生成逼真且可控的谈话头动画,直接由文本或音频输入驱动。为了减轻闪烁并确保连续性,AvatarSync利用自回归管道增强了时间建模。此外,为了确保可控性,我们引入了音素(即语音声音的基本单位),构建了从文本/音频到音素的多元到一元映射,实现了精确的音素到视觉的对应。另外,为了进一步加速推理,我们采用了两阶段生成策略,将语义建模与视觉动态解耦,并融入定制的音素帧因果注意力掩码,以支持多步并行加速。在中文(CMLR)和英文(HDTF)数据集上进行的广泛实验表明,AvatarSync在视觉保真度、时间一致性和计算效率方面超越了现有的谈话头动画方法,提供了一种可扩展且可控的解决方案。
论文及项目相关链接
Summary
本文介绍了基于语音输入的谈话头动画技术。采用生成对抗网络(GANs)的扩散模型因强大的生成能力而成为主流。然而,扩散过程固有的局限性导致帧间闪烁和推理速度慢,限制了实际应用。为解决这一问题,提出AvatarSync,一个基于语音表征的自回归框架,能从单一参考图像生成真实可控的谈话头动画,由文本或音频输入驱动。通过自回归管道减轻闪烁并确保连续性。引入音素(语音基本单位)构建文本/音频到音素的多个一对一映射,实现精确的音素-视觉对齐。采用两阶段生成策略加速推理,将语义建模与视觉动态解耦,并融入定制的音素帧因果注意力掩膜,支持多步并行加速。在中文(CMLR)和英文(HDTF)数据集上的大量实验表明,AvatarSync在视觉保真度、时间一致性和计算效率方面优于现有谈话头动画方法,提供可伸缩和可控的解决方案。
Key Takeaways
- 谈话头动画技术重点从音频输入生成真实面部视频。
- 扩散模型因强大的生成能力成为主流,但存在帧间闪烁和推理速度慢的问题。
- AvatarSync是一个自回归框架,能从单一参考图像生成真实可控的谈话头动画,由文本或音频驱动。
- 通过自回归管道和音素引入减轻闪烁,确保动画连续性并精确对齐音素和视觉。
- 采用两阶段生成策略加速推理,解耦语义建模和视觉动态。
- 定制的音素帧因果注意力掩膜支持多步并行加速。
点此查看论文截图




Talk Isn’t Always Cheap: Understanding Failure Modes in Multi-Agent Debate
Authors:Andrea Wynn, Harsh Satija, Gillian Hadfield
While multi-agent debate has been proposed as a promising strategy for improving AI reasoning ability, we find that debate can sometimes be harmful rather than helpful. Prior work has primarily focused on debates within homogeneous groups of agents, whereas we explore how diversity in model capabilities influences the dynamics and outcomes of multi-agent interactions. Through a series of experiments, we demonstrate that debate can lead to a decrease in accuracy over time - even in settings where stronger (i.e., more capable) models outnumber their weaker counterparts. Our analysis reveals that models frequently shift from correct to incorrect answers in response to peer reasoning, favoring agreement over challenging flawed reasoning. We perform additional experiments investigating various potential contributing factors to these harmful shifts - including sycophancy, social conformity, and model and task type. These results highlight important failure modes in the exchange of reasons during multi-agent debate, suggesting that naive applications of debate may cause performance degradation when agents are neither incentivised nor adequately equipped to resist persuasive but incorrect reasoning.
虽然多智能体辩论被认为是提高人工智能推理能力的一种有前途的策略,但我们发现辩论有时可能有害而非有益。先前的工作主要集中在同质智能体群体内的辩论上,而我们探索模型能力的多样性如何影响多智能体交互的动力和结果。通过一系列实验,我们证明了辩论会导致准确性随着时间的推移而下降——即使在更强的模型(即更强大的模型)数量超过较弱对手的情况下也是如此。我们的分析表明,模型经常从正确的答案转向错误的答案来回应同伴的推理,更喜欢接受有缺陷的推理而不愿意质疑挑战它。我们进行了更多的实验来调查导致这些有害转变的各种潜在因素,包括奉承、社会一致性和模型和任务类型。这些结果突出了多智能体辩论过程中交流推理的重要失败模式,表明当智能体既没有受到激励也没有得到充分准备来抵制具有说服力的错误推理时,简单应用辩论可能导致性能下降。
论文及项目相关链接
PDF ICML MAS Workshop 2025
Summary
本文探讨了多智能体辩论对AI推理能力的影响,发现辩论有时可能产生负面影响。研究突破了以往对同构智能体辩论的局限,探讨了模型能力多样性对多智能体交互动态和结果的影响。实验表明,即使在强模型数量超过弱模型的情况下,辩论也可能导致准确性随时间降低。分析显示,智能体在回应同行推理时容易改变原先的正确答案而趋向错误的答案,且偏好于接受而非挑战错误的推理。实验还探讨了包括奉承、社会从众心理以及模型和任务类型等因素对有害影响的作用。这些结果凸显了多智能体辩论过程中交换理由的重要失败模式,提示在智能体未能受到激励或充分应对说服性但错误的推理时,盲目应用辩论可能导致性能下降。
Key Takeaways
- 多智能体辩论虽被视为提升AI推理能力的有效策略,但有时可能产生负面影响。
- 研究考察了模型能力多样性对多智能体辩论的影响,突破了以往研究的主要局限。
- 实验显示,即使在强模型占多数的情况下,辩论也可能导致AI的准确性下降。
- AI在回应同行推理时容易改变答案,更倾向于接受而非挑战错误的推理。
- 实验探讨了多种潜在因素,包括奉承、社会从众心理等对辩论过程中有害变化的影响。
- 这些发现揭示了多智能体辩论中的失败模式,指出了在某些情况下辩论可能导致AI性能下降。
点此查看论文截图



Talk Less, Call Right: Enhancing Role-Play LLM Agents with Automatic Prompt Optimization and Role Prompting
Authors:Saksorn Ruangtanusak, Pittawat Taveekitworachai, Kunat Pipatanakul
This report investigates approaches for prompting a tool-augmented large language model (LLM) to act as a role-playing dialogue agent in the API track of the Commonsense Persona-grounded Dialogue Challenge (CPDC) 2025. In this setting, dialogue agents often produce overly long in-character responses (over-speaking) while failing to use tools effectively according to the persona (under-acting), such as generating function calls that do not exist or making unnecessary tool calls before answering. We explore four prompting approaches to address these issues: 1) basic role prompting, 2) improved role prompting, 3) automatic prompt optimization (APO), and 4) rule-based role prompting. The rule-based role prompting (RRP) approach achieved the best performance through two novel techniques-character-card/scene-contract design and strict enforcement of function calling-which led to an overall score of 0.571, improving on the zero-shot baseline score of 0.519. These findings demonstrate that RRP design can substantially improve the effectiveness and reliability of role-playing dialogue agents compared with more elaborate methods such as APO. To support future efforts in developing persona prompts, we are open-sourcing all of our best-performing prompts and the APO tool Source code is available at https://github.com/scb-10x/apo
本报告旨在探讨在Commonsense Persona-grounded Dialogue Challenge(CPDC 2025)的API赛道中,如何提示工具增强的大型语言模型(LLM)扮演角色扮演对话代理的方法。在此场景中,对话代理往往会生成过长的角色内响应(说话过多),同时未能根据角色有效地使用工具(表现不足),例如生成不存在的函数调用或在回答问题之前进行不必要的工具调用。我们探索了四种提示方法来解决这些问题:1)基本角色提示,2)改进的角色提示,3)自动提示优化(APO),以及4)基于规则的角色提示。基于规则的角色提示(RRP)方法表现最佳,它通过两种新技术——角色卡/场景合约设计和严格的功能调用执行,获得了0.571的总体得分,相较于零基准线得分0.519有所提高。这些发现表明,与更精细的方法(如APO)相比,RRP设计可以显著提高角色扮演对话代理的有效性和可靠性。为了支持未来在开发个性化提示方面的努力,我们公开了所有表现最佳的提示和APO工具源代码,可在https://github.com/scb-10x/apo查看。
论文及项目相关链接
PDF EMNLP 2025 Wordplay Workshop (Spotlight)
Summary
本报告研究了如何引导工具增强的大型语言模型(LLM)在Commonsense Persona-grounded Dialogue Challenge(CPDC)2025的API赛道中扮演角色对话代理的方法。针对对话代理在角色扮演过程中产生的对话过长、工具使用不当等问题,探索了四种提示方法。其中,基于规则的角色提示(RRP)方法表现最佳,通过角色卡/场景合约设计和功能调用的严格实施,实现了整体得分0.571,相较于零基线提升了性能。研究表明,RRP设计能显著提升角色扮演对话代理的有效性和可靠性。
Key Takeaways
- 报告研究了在CPDC 2025的API赛道中引导LLM扮演角色对话代理的方法。
- 对话代理存在对话过长和工具使用不当的问题。
- 报告探索了四种解决上述问题的方法,包括基本角色提示、改进角色提示、自动提示优化和基于规则的角色提示。
- 基于规则的角色提示(RRP)方法表现最佳,通过角色卡/场景合约设计和功能调用的严格实施,实现了整体得分为0.571。
- RRP设计能显著提升角色扮演对话代理的有效性和可靠性。
- 报告公开了最佳性能的角色提示和自动提示优化工具源代码。
点此查看论文截图





AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars
Authors:Tianbao Zhang, Jian Zhao, Yuer Li, Zheng Zhu, Ping Hu, Zhaoxin Fan, Wenjun Wu, Xuelong Li
Whole-body audio-driven avatar pose and expression generation is a critical task for creating lifelike digital humans and enhancing the capabilities of interactive virtual agents, with wide-ranging applications in virtual reality, digital entertainment, and remote communication. Existing approaches often generate audio-driven facial expressions and gestures independently, which introduces a significant limitation: the lack of seamless coordination between facial and gestural elements, resulting in less natural and cohesive animations. To address this limitation, we propose AsynFusion, a novel framework that leverages diffusion transformers to achieve harmonious expression and gesture synthesis. The proposed method is built upon a dual-branch DiT architecture, which enables the parallel generation of facial expressions and gestures. Within the model, we introduce a Cooperative Synchronization Module to facilitate bidirectional feature interaction between the two modalities, and an Asynchronous LCM Sampling strategy to reduce computational overhead while maintaining high-quality outputs. Extensive experiments demonstrate that AsynFusion achieves state-of-the-art performance in generating real-time, synchronized whole-body animations, consistently outperforming existing methods in both quantitative and qualitative evaluations.
全身音频驱动的角色姿态和表情生成对于创建逼真的数字人类并增强交互式虚拟代理的能力是一项至关重要的任务,在虚拟现实、数字娱乐和远程通信等领域具有广泛的应用。现有方法通常独立生成音频驱动的面部表情和动作,这引入了一个显著的局限性:面部表情和动作元素之间缺乏无缝协调,导致动画效果不那么自然和连贯。为了解决这一局限性,我们提出了AsynFusion,这是一个利用扩散变压器实现和谐表情和动作合成的新型框架。该方法建立在双分支DiT架构之上,实现了面部表情和动作的并行生成。在该模型中,我们引入了一个协作同步模块,以促进两种模式之间的双向特征交互,以及一种异步LCM采样策略,以减少计算开销的同时保持高质量输出。大量实验表明,AsynFusion在生成实时同步的全身动画方面达到了最新技术水平,在定量和定性评估中均超越了现有方法。
论文及项目相关链接
PDF 15pages, conference
Summary
本文介绍了全音频驱动的角色姿态与表情生成技术的重要性及其在虚拟现实、数字娱乐和远程通信等领域的应用。现有方法通常独立生成音频驱动的面部表情和动作,导致面部表情和动作之间缺乏无缝协调,动画效果不自然且连贯性不足。为解决这一问题,本文提出了AsynFusion框架,利用扩散变压器实现和谐的表情和动作合成。该方法基于双分支DiT架构构建,能够实现面部表情和动作的并行生成。此外,还引入了一种协同同步模块和一种异步LCM采样策略来促进面部和动作之间的双向特征交互并维持高质量输出同时降低计算开销。实验证明,AsynFusion在生成实时同步全身动画方面达到最佳性能。其在定量和定性评估中都超越了现有方法。
Key Takeaways
- 音频驱动的角色姿态与表情生成在虚拟现实、数字娱乐等领域具有广泛应用价值。
- 现有方法存在面部表情与动作不协调的问题,导致动画不自然且连贯性不足。
- AsynFusion框架使用扩散变压器实现和谐的表情和动作合成,通过双分支DiT架构并行生成面部表情和动作。
- 引入协同同步模块促进面部和动作之间的双向特征交互。
- 提出一种异步LCM采样策略,以减少计算开销并维持高质量输出。
点此查看论文截图



GestureCoach: Rehearsing for Engaging Talks with LLM-Driven Gesture Recommendations
Authors:Ashwin Ram, Varsha Suresh, Artin Saberpour Abadian, Vera Demberg, Jürgen Steimle
This paper introduces GestureCoach, a system designed to help speakers deliver more engaging talks by guiding them to gesture effectively during rehearsal. GestureCoach combines an LLM-driven gesture recommendation model with a rehearsal interface that proactively cues speakers to gesture appropriately. Trained on experts’ gesturing patterns from TED talks, the model consists of two modules: an emphasis proposal module, which predicts when to gesture by identifying gesture-worthy text segments in the presenter notes, and a gesture identification module, which determines what gesture to use by retrieving semantically appropriate gestures from a curated gesture database. Results of a model performance evaluation and user study (N=30) show that the emphasis proposal module outperforms off-the-shelf LLMs in identifying suitable gesture regions, and that participants rated the majority of these predicted regions and their corresponding gestures as highly appropriate. A subsequent user study (N=10) showed that rehearsing with GestureCoach encouraged speakers to gesture and significantly increased gesture diversity, resulting in more engaging talks. We conclude with design implications for future AI-driven rehearsal systems.
本文介绍了GestureCoach系统,该系统旨在通过指导演讲者在排练过程中进行有效的手势辅助,帮助演讲者进行更有吸引力的演讲。GestureCoach结合了一个由大型语言模型驱动的手势推荐模型和一个排练界面,该界面会主动提示演讲者进行适当的手势。该模型以TED演讲中专家手势模式为训练数据,包含两个模块:重点提案模块,通过识别演讲笔记中值得做手势的文本片段来预测何时进行手势;手势识别模块,通过从精选的手势数据库中检索语义适当的手势来确定应使用何种手势。模型性能评估和用户研究(N=30)的结果显示,重点提案模块在识别合适的手势区域方面优于现有的大型语言模型,并且大多数参与者认为这些预测区域及其对应的手势高度合适。随后的用户研究(N=10)表明,使用GestureCoach进行排练鼓励了演讲者进行手势,并显著增加了手势的多样性,从而产生了更具吸引力的演讲。最后,我们总结了对未来AI驱动排练系统的设计启示。
论文及项目相关链接
PDF Accepted at UIST 2025
Summary
本文介绍了GestureCoach系统,该系统通过引导演讲者在排练过程中进行有效的手势,帮助演讲者进行更具吸引力的演讲。GestureCoach结合了LLM驱动的手势推荐模型与排练界面,提前提示演讲者进行适当的手势。该模型基于TED演讲专家的手势模式训练,包含两个模块:重点提示模块,通过识别值得手势的文本片段来预测何时进行手势;手势识别模块,通过从精选的手势数据库中检索语义适当的手势来确定应使用何种手势。模型性能评估和一项有30名参与者的用户研究表明,重点提示模块在识别合适的手势区域方面表现优于现成的LLM,并且大多数参与者认为这些预测区域及其对应的手势非常合适。另一项有10名参与者的研究表明,使用GestureCoach排练鼓励演讲者进行手势,并显著增加了手势的多样性,从而使演讲更加引人入胜。
Key Takeaways
- GestureCoach系统旨在通过引导演讲者进行有效手势来提升演讲吸引力。
- 系统结合LLM驱动的手势推荐模型和排练界面,提前提示演讲者进行手势。
- 手势推荐模型包含重点提示模块和手势识别模块。
- 重点提示模块能识别值得手势的文本片段,预测最佳手势时机。
- 手势识别模块从精选数据库中检索语义适当的手势。
- 用户研究表明,该系统能有效提高演讲者的手势使用频率和多样性。
点此查看论文截图




PASE: Phoneme-Aware Speech Encoder to Improve Lip Sync Accuracy for Talking Head Synthesis
Authors:Yihuan Huang, Jiajun Liu, Yanzhen Ren, Jun Xue, Wuyang Liu, Zongkun Sun
Recent talking head synthesis works typically adopt speech features extracted from large-scale pre-trained acoustic models. However, the intrinsic many-to-many relationship between speech and lip motion causes phoneme-viseme alignment ambiguity, leading to inaccurate and unstable lips. To further improve lip sync accuracy, we propose PASE (Phoneme-Aware Speech Encoder), a novel speech representation model that bridges the gap between phonemes and visemes. PASE explicitly introduces phoneme embeddings as alignment anchors and employs a contrastive alignment module to enhance the discriminability between corresponding audio-visual pairs. In addition, a prediction and reconstruction task is designed to improve robustness under noise and partial modality absence. Experimental results show PASE significantly improves lip sync accuracy and achieves state-of-the-art performance across both NeRF- and 3DGS-based rendering frameworks, outperforming conventional methods based on acoustic features by 13.7 % and 14.2 %, respectively. Importantly, PASE can be seamlessly integrated into diverse talking head pipelines to improve the lip sync accuracy without architectural modifications.
最新的说话人头部合成工作通常采用从大规模预训练声学模型中提取的语音特征。然而,语音和唇部运动之间固有的多对多关系导致了音素-动素对齐的模糊性,从而导致唇部不准确且不稳定。为了进一步提高唇部同步精度,我们提出了PASE(音素感知语音编码器),这是一种新型的语音表示模型,能够弥合音素和动素之间的鸿沟。PASE显式引入音素嵌入作为对齐锚点,并采用对比对齐模块增强相应视听对的辨别力。此外,还设计了预测和重建任务,以提高噪声和局部模态缺失情况下的稳健性。实验结果表明,PASE显著提高了唇部同步精度,在基于NeRF和3DGS的渲染框架下均达到了最先进的性能水平,基于声学特征的传统方法分别提高了13.7%和14.2%。重要的是,PASE可以无缝集成到多样化的说话人头部管道中,提高唇部同步精度而无需进行架构修改。
论文及项目相关链接
摘要
近期说话人头部合成研究通常采用从大规模预训练声音模型中提取的语音特征。然而,语音和唇部运动之间的内在多对多关系导致了音素-面部动素对齐的模糊性,从而导致唇部表现不准确且不稳定。为了进一步提高唇部同步精度,我们提出了PASE(音素感知语音编码器),这是一种新的语音表示模型,能够缩小音素和面部动素之间的差距。PASE通过引入音素嵌入作为对齐锚点,并采用了对比对齐模块来增强对应音频视觉对之间的区分度。此外,还设计了一个预测和重建任务,以提高在噪声和部分模态缺失下的稳健性。实验结果表明,PASE显著提高了唇部同步精度,并在基于NeRF和3DGS的渲染框架上实现了卓越性能,相较于基于声音特征的传统方法分别提高了13.7%和14.2%。重要的是,PASE可以无缝集成到各种说话人头部管道中,以提高唇部同步精度而无需进行架构修改。
要点
- 说话人头部合成面临唇部同步的挑战,因为语音和唇部运动之间存在多对多的关系。
- PASE模型通过引入音素感知机制来缩小音素和面部动素之间的差距。
- PASE采用对比对齐模块增强音频视觉对的区分度。
- PASE设计预测和重建任务以提高在噪声和部分模态缺失下的稳健性。
- 实验结果显示PASE显著提高唇部同步精度,并在不同渲染框架上表现优越。
- PASE可在各种说话人头部管道中集成,提高唇部同步精度而无需改变架构。
点此查看论文截图







Tokenizing Motion: A Generative Approach for Scene Dynamics Compression
Authors:Shanzhi Yin, Zihan Zhang, Bolin Chen, Shiqi Wang, Yan Ye
This paper proposes a novel generative video compression framework that leverages motion pattern priors, derived from subtle dynamics in common scenes (e.g., swaying flowers or a boat drifting on water), rather than relying on video content priors (e.g., talking faces or human bodies). These compact motion priors enable a new approach to ultra-low bitrate communication while achieving high-quality reconstruction across diverse scene contents. At the encoder side, motion priors can be streamlined into compact representations via a dense-to-sparse transformation. At the decoder side, these priors facilitate the reconstruction of scene dynamics using an advanced flow-driven diffusion model. Experimental results illustrate that the proposed method can achieve superior rate-distortion-performance and outperform the state-of-the-art conventional-video codec Enhanced Compression Model (ECM) on-scene dynamics sequences. The project page can be found at-https://github.com/xyzysz/GNVDC.
本文提出了一种新型生成式视频压缩框架,该框架利用来自常见场景中的细微动态(如摇曳的花朵或水上飘动的船只)所推导出的运动模式先验,而不是依赖于视频内容先验(如人脸或人体)。这些紧凑的运动先验知识为实现超低比特率通信提供了一种新方法,同时在各种场景内容中实现了高质量重建。在编码器端,通过稠密到稀疏的转换,可以将运动先验知识简化为紧凑的表示形式。在解码器端,这些先验知识有助于使用先进的流驱动扩散模型重建场景动态。实验结果表明,该方法在率失真性能方面表现优异,并且在场景动态序列上优于当前最先进的传统视频编码增强压缩模型(ECM)。该项目页面可在 https://github.com/xyzysz/GNVDC 找到。
论文及项目相关链接
PDF 5page, 5 figures
Summary
本文提出了一种新型的视频压缩框架,它利用从常见场景中的细微动态(如摇曳的花朵或水上漂流的船只)得出的运动模式先验知识,而不是依赖于视频内容先验知识(如人脸或人体)。这种紧凑的运动先验知识为实现超低比特率通信提供了新的途径,同时在各种场景内容中实现了高质量重建。编码器端可通过密集到稀疏的转换来简化运动先验知识表示,而解码器端则利用先进的流驱动扩散模型重建场景动态。实验结果表明,该方法在率失真性能上表现优越,并在场景动态序列上超越了现有的先进视频编码器增强压缩模型(ECM)。更多详情可访问项目页面:https://github.com/xyzysz/GNVDC。
Key Takeaways
- 新型视频压缩框架利用运动模式先验知识,这是从常见场景的细微动态中得出的。
- 框架实现了超低比特率通信,同时保持高质量重建。
- 编码器端通过密集到稀疏的转换简化运动先验知识表示。
- 解码器端利用先进的流驱动扩散模型重建场景动态。
- 该方法在实验中的率失真性能表现优越。
- 该方法超越了现有的先进视频编码器增强压缩模型(ECM)在场景动态序列上的表现。
点此查看论文截图




