嘘~ 正在从服务器偷取页面 . . .

TTS


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-21 更新

StreamingTalker: Audio-driven 3D Facial Animation with Autoregressive Diffusion Model

Authors:Yifan Yang, Zhi Cen, Sida Peng, Xiangwei Chen, Yifu Deng, Xinyu Zhu, Fan Jia, Xiaowei Zhou, Hujun Bao

This paper focuses on the task of speech-driven 3D facial animation, which aims to generate realistic and synchronized facial motions driven by speech inputs. Recent methods have employed audio-conditioned diffusion models for 3D facial animation, achieving impressive results in generating expressive and natural animations. However, these methods process the whole audio sequences in a single pass, which poses two major challenges: they tend to perform poorly when handling audio sequences that exceed the training horizon and will suffer from significant latency when processing long audio inputs. To address these limitations, we propose a novel autoregressive diffusion model that processes input audio in a streaming manner. This design ensures flexibility with varying audio lengths and achieves low latency independent of audio duration. Specifically, we select a limited number of past frames as historical motion context and combine them with the audio input to create a dynamic condition. This condition guides the diffusion process to iteratively generate facial motion frames, enabling real-time synthesis with high-quality results. Additionally, we implemented a real-time interactive demo, highlighting the effectiveness and efficiency of our approach. We will release the code at https://zju3dv.github.io/StreamingTalker/.

本文专注于语音驱动的三维面部动画任务,旨在通过语音输入生成逼真且同步的面部运动。最近的方法采用音频条件扩散模型进行三维面部动画,在生成富有表现力和自然的动画方面取得了令人印象深刻的结果。然而,这些方法在一次传递中处理整个音频序列,这带来了两个主要挑战:当处理超过训练范围的音频序列时,它们的性能往往不佳,而且在处理长音频输入时会出现显著的延迟。为了解决这些局限性,我们提出了一种新的自回归扩散模型,以流的方式处理输入音频。这种设计确保了不同音频长度的灵活性,并实现了与音频持续时间无关的低延迟。具体来说,我们选择有限数量的过去帧作为历史运动上下文,并与音频输入相结合,创建一个动态条件。此条件引导扩散过程迭代生成面部运动帧,实现实时合成和高品质结果。此外,我们实现了一个实时交互演示,突出了我们方法的有效性和效率。我们将在https://zju3dv.github.io/StreamingTalker/发布代码。

论文及项目相关链接

PDF

Summary

本文研究了语音驱动的三维面部动画任务,旨在通过语音输入生成真实且同步的面部运动。文章提出了一种新颖的流式自回归扩散模型,以处理输入音频的流式处理,解决了现有方法在处理长音频输入时性能不佳和延迟显著的问题。该模型结合历史运动上下文和音频输入,为扩散过程提供动态条件,实现实时生成高质量面部运动帧的合成。

Key Takeaways

  1. 文章关注语音驱动的三维面部动画任务,旨在生成真实且同步的面部运动。
  2. 现有方法采用音频条件扩散模型,但处理长音频序列时性能不佳且存在延迟问题。
  3. 本文提出了一种新颖的流式自回归扩散模型,以流式方式处理输入音频,适应不同音频长度并实现低延迟。
  4. 模型结合历史运动上下文和音频输入,为扩散过程提供动态条件。
  5. 实时合成面部运动帧,实现高质量结果。
  6. 文章实现了实时互动演示,展示了该方法的有效性和效率。

Cool Papers

点此查看论文截图

TalkSketch: Multimodal Generative AI for Real-time Sketch Ideation with Speech

Authors:Weiyan Shi, Sunaya Upadhyay, Geraldine Quek, Kenny Tsu Wei Choo

Sketching is a widely used medium for generating and exploring early-stage design concepts. While generative AI (GenAI) chatbots are increasingly used for idea generation, designers often struggle to craft effective prompts and find it difficult to express evolving visual concepts through text alone. In the formative study (N=6), we examined how designers use GenAI during ideation, revealing that text-based prompting disrupts creative flow. To address these issues, we developed TalkSketch, an embedded multimodal AI sketching system that integrates freehand drawing with real-time speech input. TalkSketch aims to support a more fluid ideation process through capturing verbal descriptions during sketching and generating context-aware AI responses. Our work highlights the potential of GenAI tools to engage the design process itself rather than focusing on output.

草图是一种广泛应用于生成和探索早期设计概念的媒介。虽然生成式人工智能(GenAI)聊天机器人越来越多地用于创意生成,但设计师往往难以构思有效的提示,并且发现仅通过文字来表达不断变化的视觉概念很困难。在形成性研究(N=6)中,我们研究了设计师在创意构思过程中如何使用GenAI,发现基于文本的提示会破坏创造流。为了解决这些问题,我们开发了TalkSketch,这是一个嵌入式多模式AI草图系统,它将自由手绘与实时语音输入相结合。TalkSketch旨在通过在草图绘制过程中捕捉口头描述并生成上下文感知的AI响应来支持更流畅的创意构思过程。我们的工作强调了GenAI工具参与设计过程本身的潜力,而不是仅仅关注输出。

论文及项目相关链接

PDF Accepted at AAAI 2026 Workshop on Creative AI for Live Interactive Performances (CLIP). To be published in Springer CCIS series

Summary

该研究探讨了设计师在创意构思阶段使用生成式人工智能(GenAI)聊天机器人的挑战,发现文本提示会破坏创意流程。为解决这一问题,研究团队开发了TalkSketch系统,该系统是一个嵌入式的多模式AI素描系统,结合了自由手绘和实时语音输入。TalkSketch旨在通过捕捉素描过程中的语言描述和生成上下文感知的AI响应来支持更流畅的创意构思过程。研究凸显了GenAI工具在设计过程中的潜力,而不仅仅是关注输出。

Key Takeaways

  1. 生成式人工智能(GenAI)在设计师创意构思阶段得到应用,但存在文本提示破坏创意流程的问题。
  2. 设计师在使用GenAI时,难以通过文本有效表达视觉概念的变化。
  3. TalkSketch系统是一个多模式AI素描系统,集成了手绘和语音输入,旨在更流畅地支持创意构思过程。
  4. TalkSketch能通过捕捉语言描述和生成上下文感知的AI响应来辅助设计过程。
  5. 该系统强调了在设计过程中使用GenAI工具的潜力,而不仅仅是关注其输出效果。
  6. 研究采用了包括6名参与者的形成性研究(N=6)来验证TalkSketch系统的有效性。

Cool Papers

点此查看论文截图

MrMARTIAN: A Multi-resolution Mass Reconstruction Algorithm Combining Free-form and Analytic Components

Authors:Sangjun Cha, M. James Jee

We present ${\tt MrMARTIAN}$ (Multi-resolution MAximum-entropy Reconstruction Technique Integrating Analytic Node), a new hybrid strong lensing (SL) modeling algorithm. By incorporating physically motivated analytic nodes into the free-form method ${\tt MARS}$, ${\tt MrMARTIAN}$ enables stable and flexible mass reconstructions while mitigating oversmoothing in the inner mass profile. Its multi-resolution framework increases the degrees of freedom in regions with denser strong lensing constraints, thereby enhancing computational efficiency for a fixed number of free parameters. We evaluate the performance of ${\tt MrMARTIAN}$ using publicly available simulated SL data and find that it consistently outperforms ${\tt MARS}$ in recovering both mass and magnification. In particular, it delivers significantly more stable reconstructions when multiple images are sparsely distributed. Finally, we apply ${\tt MrMARTIAN}$ to the galaxy cluster MACS J0416.1-2403, incorporating two analytic nodes centered on the northeastern and southwestern BCGs. Our mass model, constrained by 412 multiple images, achieves an image-plane rms scatter of ~0”.11, the smallest to date for this dataset.

我们提出MrMARTIAN(多分辨率最大熵重建技术集成分析节点),这是一种新的混合强透镜(SL)建模算法。通过将基于物理原理的分析节点融入自由形态方法MARS中,MrMARTIAN能够实现稳定和灵活的质量重建,同时减轻内质量分布图中的过平滑现象。其多分辨率框架在强透镜约束较密集的区域增加了自由度,从而在固定数量的自由参数下提高了计算效率。我们使用公开可用的模拟SL数据评估了MrMARTIAN的性能,发现它在恢复质量和放大率方面始终优于MARS。尤其当多个图像稀疏分布时,它提供了更稳定的重建结果。最后,我们对星系团MACS J0416.1-2403应用了MrMARTIAN,以两个分析节点为中心,分别位于东北部和西南部的BCGs。我们的质量模型受412个多重图像的约束,在图像平面上的rms散射达到约0”.11,这是迄今为止该数据集的最小值。

论文及项目相关链接

PDF 16 pages, 10 figures, accepted in ApJ

Summary
中国研究者提出了一种新的混合强透镜模型算法${\tt MrMARTIAN}$,该算法通过引入基于物理的分析节点,增强了自由形态方法${\tt MARS}$的稳定性和灵活性,并减轻了内部质量分布的过度平滑问题。其多分辨率框架提高了在强透镜约束密集区域的自由度,从而提高了计算效率。评估表明,${\tt MrMARTIAN}$在恢复质量和放大倍数方面表现优于${\tt MARS}$,特别是在多图像稀疏分布的情况下。此外,该算法还应用于MACS J0416.1-2403星系团,取得了迄今为止该数据集最小的图像平面均方根散射值(~0”.11)。

Key Takeaways

  1. ${\tt MrMARTIAN}$是一种新的混合强透镜模型算法,基于物理分析节点和自由形态方法${\tt MARS}$。
  2. ${\tt MrMARTIAN}$通过引入多分辨率框架提高了计算效率,特别是在密集强透镜约束区域。
  3. ${\tt MrMARTIAN}$在恢复质量和放大倍数方面表现优异,尤其是在多图像稀疏分布的情况下。
  4. ${\tt MrMARTIAN}$算法稳定灵活,能够减轻内部质量分布的过度平滑问题。
  5. 在MACS J0416.1-2403星系团的应用中,${\tt MrMARTIAN}$取得了迄今为止该数据集最小的图像平面均方根散射值(~0”.11)。
  6. ${\tt MrMARTIAN}$通过引入分析节点来优化质量重建,这些节点可以根据需要进行定位和调整。

Cool Papers

点此查看论文截图

In-context Language Learning for Endangered Languages in Speech Recognition

Authors:Zhaolin Li, Jan Niehues

With approximately 7,000 languages spoken worldwide, current large language models (LLMs) support only a small subset. Prior research indicates LLMs can learn new languages for certain tasks without supervised data. We extend this investigation to speech recognition, investigating whether LLMs can learn unseen, low-resource languages through in-context learning (ICL). With experiments on four diverse endangered languages that LLMs have not been trained on, we find that providing more relevant text samples enhances performance in both language modelling and Automatic Speech Recognition (ASR) tasks. Furthermore, we show that the probability-based approach outperforms the traditional instruction-based approach in language learning. Lastly, we show ICL enables LLMs to achieve ASR performance that is comparable to or even surpasses dedicated language models trained specifically for these languages, while preserving the original capabilities of the LLMs. Our code is publicly available.

全世界约有7000种语言,而当前的大型语言模型(LLM)仅支持一小部分。之前的研究表明,LLM可以在没有监督数据的情况下学习某些任务的新语言。我们将这一研究扩展到语音识别领域,调查LLM是否可以通过上下文学习(ICL)学习未见过的低资源语言。我们在四种不同的濒危语言上对实验进行了扩展,这些语言从未用于训练LLM,我们发现提供更多相关的文本样本可以提高语言建模和自动语音识别(ASR)任务的表现。此外,我们还表明基于概率的方法在语言学习方面优于传统的基于指令的方法。最后,我们证明了ICL使LLM能够实现与专门针对这些语言训练的专用语言模型相当的甚至更好的ASR性能,同时保留LLM的原始能力。我们的代码已公开可用。

论文及项目相关链接

PDF Interspeech2025

Summary

大型语言模型(LLMs)虽支持世界上约7000种语言中的一小部分,但研究发现它们能学习新语言以完成某些任务,即使无需监督数据。本研究进一步探讨了在语音识别的领域中,LLMs是否能够通过上下文学习(ICL)来学习未见过的低资源语言。通过对四种多样且濒危的语言进行实验,这些语言并未用于训练LLMs,我们发现提供更为相关的文本样本有助于提升语言建模和自动语音识别(ASR)任务的表现。此外,概率方法优于传统的指令式方法用于语言学习。最后,我们发现上下文学习使LLMs的ASR性能可与或优于专为这些语言训练的专用语言模型相当,同时保持LLMs的原始能力。

Key Takeaways

  1. 大型语言模型(LLMs)能够学习新语言以完成特定任务,即使在没有监督数据的情况下。
  2. 通过上下文学习(ICL),LLMs可以学习未见过的低资源语言。
  3. 提供更多相关的文本样本可以提升语言建模和自动语音识别(ASR)任务的效果。
  4. 在语言学习中,概率方法比传统的指令式方法更有效。
  5. 上下文学习使LLMs的ASR性能与或优于针对特定语言训练的专用模型相当。
  6. LLMs可以在不损失原有能力的情况下学习新语言。

Cool Papers

点此查看论文截图

Streaming Generation of Co-Speech Gestures via Accelerated Rolling Diffusion

Authors:Evgeniia Vu, Andrei Boiarov, Dmitry Vetrov

Generating co-speech gestures in real time requires both temporal coherence and efficient sampling. We introduce a novel framework for streaming gesture generation that extends Rolling Diffusion models with structured progressive noise scheduling, enabling seamless long-sequence motion synthesis while preserving realism and diversity. Our framework is universally compatible with existing diffusion-based gesture generation model, transforming them into streaming methods capable of continuous generation without requiring post-processing. We evaluate our framework on ZEGGS and BEAT, strong benchmarks for real-world applicability. Applied to state-of-the-art baselines on both datasets, it consistently outperforms them, demonstrating its effectiveness as a generalizable and efficient solution for real-time co-speech gesture synthesis. We further propose Rolling Diffusion Ladder Acceleration (RDLA), a new approach that employs a ladder-based noise scheduling strategy to simultaneously denoise multiple frames. This significantly improves sampling efficiency while maintaining motion consistency, achieving up to a 4x speedup with high visual fidelity and temporal coherence in our experiments. Comprehensive user studies further validate our framework ability to generate realistic, diverse gestures closely synchronized with the audio input.

实时生成伴随语音的手势需要时间和效率的平衡。我们引入了一种新颖的流式手势生成框架,它通过结构化的渐进噪声调度扩展了滚动扩散模型,能够在保持现实感和多样性的同时,实现无缝的长序列动作合成。我们的框架与现有的基于扩散的手势生成模型兼容,将它们转变为流式方法,能够连续生成而无需后处理。我们在用于现实世界应用的强大基准测试ZEGGS和BEAT上评估了我们的框架。将其应用于这两个数据集上的最新技术基线时,它始终优于基线,证明了其作为实时伴随语音手势合成的通用和高效解决方案的有效性。我们进一步提出了滚动扩散梯速加速(RDLA),这是一种采用基于梯度的噪声调度策略同时去噪多帧的新方法。这显著提高了采样效率,同时保持了动作一致性,在我们的实验中实现了高达4倍的加速,同时保持了高视觉保真度和时间连贯性。全面的用户研究进一步验证了我们的框架生成与音频输入紧密同步的逼真、多样手势的能力。

论文及项目相关链接

PDF Accepted at the 40th AAAI Conference on Artificial Intelligence (AAAI-26) Main Track

摘要
本文介绍了一种用于实时手势生成的新型框架,该框架扩展了滚动扩散模型,具有结构化的渐进噪声调度功能,能够在保持现实感和多样性的同时,实现无缝的长序列动作合成。该框架与现有的基于扩散的手势生成模型兼容,可将其转变为连续生成方法,无需后处理。在ZEGGS和BEAT这两个现实应用基准测试上评估该框架,应用于这两个数据集上的最新基线技术时,表现均超出预期,证明了其作为实时语音伴随手势合成的通用和高效解决方案的有效性。此外,还提出了滚动扩散梯子加速(RDLA)方法,采用基于梯度的噪声调度策略同时对多个帧进行降噪,在提高采样效率的同时保持了动作一致性,实验中实现了高达4倍的加速,并且具有高度的视觉保真度和时间连贯性。综合用户研究进一步验证了该框架生成与音频输入紧密同步的逼真、多样手势的能力。

关键见解

  1. 新型框架扩展了滚动扩散模型,实现了无缝长序列动作合成。
  2. 框架具有结构化的渐进噪声调度,保持现实感和多样性。
  3. 该框架与现有扩散手势生成模型兼容,能连续生成手势,无需后处理。
  4. 在两个现实应用基准测试上表现超越现有技术。
  5. 提出的RDLA方法能提高采样效率,同时保持动作一致性和视觉保真度。
  6. 框架能生成与音频输入紧密同步的手势。
  7. 综合用户研究验证了框架的有效性和先进性。

Cool Papers

点此查看论文截图

Dialetto, ma Quanto Dialetto? Transcribing and Evaluating Dialects on a Continuum

Authors:Ryan Soh-Eun Shim, Barbara Plank

There is increasing interest in looking at dialects in NLP. However, most work to date still treats dialects as discrete categories. For instance, evaluative work in variation-oriented NLP for English often works with Indian English or African-American Venacular English as homogeneous categories (Faisal et al., 2024; Ziems et al., 2023), yet even within one variety there is substantial variation. We examine within-dialect variation and show that performance critically varies within categories. We measure speech-to-text performance on Italian dialects, and empirically observe a geographical performance disparity. This disparity correlates substantially (-0.5) with linguistic similarity to the highest performing dialect variety. We cross-examine our results against dialectometry methods, and interpret the performance disparity to be due to a bias towards dialects that are more similar to the standard variety in the speech-to-text model examined. We additionally leverage geostatistical methods to predict zero-shot performance at unseen sites, and find the incorporation of geographical information to substantially improve prediction performance, indicating there to be geographical structure in the performance distribution.

在NLP(自然语言处理)领域,对于方言的研究兴趣与日俱增。然而,迄今为止的大多数工作仍然将方言视为离散类别。例如,面向英语变体的评估工作经常将印度英语或美国黑人英语方言作为均质类别来处理(Faisal等人,2024年;Ziems等人,2023年),但即使在一种方言内部也存在大量变化。我们研究了方言内部的变异,并表明类别内的性能存在重大差异。我们衡量了意大利方言的语音转文本性能,并观察到实际地理性能差距。这一差距与最佳方言语言的相似性显著相关(-0.5)。我们与方言测量方法进行了交叉验证,并解释性能差异是由于语音转文本模型中对更接近标准方言的方言的偏见所致。此外,我们还利用地理统计方法预测了未见网站的零射击性能,发现使用地理信息能极大地提高预测性能,表明性能分布中存在地理结构。

论文及项目相关链接

PDF Published in NAACL 2025 findings

摘要
近年来,自然语言处理(NLP)中对方言的研究兴趣日益浓厚。然而,目前大多数工作仍然将方言视为独立的类别。例如,面向变体的自然语言处理评估工作通常将印度英语或美式黑人方言作为单一类别来处理(Faisal等人,2024年;Ziems等人,2023年),但在同一方言内部也存在大量变异。本文研究了方言内部的变异,并指出同一类别内的性能会有显著变化。我们测量了意大利方言的语音转文本性能,并观察到显著的地域性能差异。这种差异与语言与表现最佳的方言种类的相似性存在很大的相关性(-0.5)。我们通过对比我们的结果与方言测量方法进行了验证,并解释了语音转文本模型中性能差异的原因是因为偏向于更接近标准方言的方言。我们还利用地理统计方法来预测未见地点的零样本性能,发现使用地理数据来实质地改善预测性能,这表明性能分布中存在地理结构。

要点分析

  1. 越来越多的NLP研究关注方言领域。
  2. 目前大部分研究仍将方言视为独立的类别来处理。
  3. 研究中存在同一方言内部的显著变异,因此同类别内性能有所不同。
  4. 研究者在意大利语方言中测试了语音转文本性能。
  5. 研究发现显著的地域性能差异,这种差异与方言与表现最佳方言的相似性高度相关。
  6. 性能差异的原因可能是语音转文本模型对更接近标准方言的方言存在偏向性。
  7. 利用地理统计方法预测未见地点的零样本性能时,发现地理数据有助于改善预测性能,暗示性能分布中存在地理结构。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
Interactive Interactive
Interactive 方向最新论文已更新,请持续关注 Update in 2025-11-21 A Typology of Synthetic Datasets for Dialogue Processing in Clinical Contexts
2025-11-21
下一篇 
医学图像 医学图像
医学图像 方向最新论文已更新,请持续关注 Update in 2025-11-21 Joint Semantic-Channel Coding and Modulation for Token Communications
2025-11-21
  目录