嘘~ 正在从服务器偷取页面 . . .

Text-to-Motion


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-10-19 更新

LaMoGen: Laban Movement-Guided Diffusion for Text-to-Motion Generation

Authors:Heechang Kim, Gwanghyun Kim, Se Young Chun

Diverse human motion generation is an increasingly important task, having various applications in computer vision, human-computer interaction and animation. While text-to-motion synthesis using diffusion models has shown success in generating high-quality motions, achieving fine-grained expressive motion control remains a significant challenge. This is due to the lack of motion style diversity in datasets and the difficulty of expressing quantitative characteristics in natural language. Laban movement analysis has been widely used by dance experts to express the details of motion including motion quality as consistent as possible. Inspired by that, this work aims for interpretable and expressive control of human motion generation by seamlessly integrating the quantification methods of Laban Effort and Shape components into the text-guided motion generation models. Our proposed zero-shot, inference-time optimization method guides the motion generation model to have desired Laban Effort and Shape components without any additional motion data by updating the text embedding of pretrained diffusion models during the sampling step. We demonstrate that our approach yields diverse expressive motion qualities while preserving motion identity by successfully manipulating motion attributes according to target Laban tags.

多样化的人类运动生成是一个日益重要的任务,在计算机视觉、人机交互和动画等领域有着广泛的应用。虽然使用扩散模型的文本到运动合成已经成功生成了高质量的运动,但实现精细粒度的表达运动控制仍然是一个巨大的挑战。这是由于数据集中运动风格多样性的缺乏以及自然语言表达定量特征的困难。拉班运动分析已被舞蹈专家广泛应用于表达运动的细节,尽可能保持运动质量的一致性。受此启发,本工作的目标是通过无缝集成拉班努力与形状组件的量化方法,实现可解释和富有表现力的运动生成控制。我们提出的零样本、推理时间优化方法,通过采样步骤中更新预训练扩散模型的文本嵌入,指导运动生成模型具有所需的拉班努力和形状组件,而无需任何额外的运动数据。我们证明,我们的方法能够产生多样化的表达运动质量,同时根据目标拉班标签成功操作运动属性,从而保持运动身份的完整性。

论文及项目相关链接

PDF

Summary

本文探讨了文本到运动生成中精细运动控制的挑战,并介绍了如何将Laban动作分析集成到文本引导的运动生成模型中。通过零样本、推理时间优化方法,实现了解读和表达人类运动生成的掌控力。在采样步骤中更新预训练扩散模型的文本嵌入,能依据目标Laban标签操控运动属性,同时保留运动身份和产生多样的表现力运动质量。

Key Takeaways

  1. 文本到运动生成技术日益重要,在计算机视觉、人机交互和动画等领域有广泛应用。
  2. 目前面临的挑战是缺乏运动风格多样性和表达定量特性的难度。
  3. Laban动作分析被舞蹈专家广泛用于表达运动细节。
  4. 研究目的是通过无缝集成Laban Effort和Shape组件的量化方法,实现可解读和表达性的运动生成控制。
  5. 提出了一种零样本、推理时间优化方法,通过更新预训练扩散模型的文本嵌入,在采样步骤中指导运动生成模型。
  6. 该方法能够产生多样的表现力运动质量,同时保持运动身份。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
R1_Reasoning R1_Reasoning
R1_Reasoning 方向最新论文已更新,请持续关注 Update in 2025-10-20 Multimodal Retrieval-Augmented Generation with Large Language Models for Medical VQA
2025-10-20
下一篇 
医学图像 医学图像
医学图像 方向最新论文已更新,请持续关注 Update in 2025-10-19 JEDA Query-Free Clinical Order Search from Ambient Dialogues
2025-10-19
  目录