嘘~ 正在从服务器偷取页面 . . .

Text-to-Motion


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-07-12 更新

Dance Like a Chicken: Low-Rank Stylization for Human Motion Diffusion

Authors:Haim Sawdayee, Chuan Guo, Guy Tevet, Bing Zhou, Jian Wang, Amit H. Bermano

Text-to-motion generative models span a wide range of 3D human actions but struggle with nuanced stylistic attributes such as a “Chicken” style. Due to the scarcity of style-specific data, existing approaches pull the generative prior towards a reference style, which often results in out-of-distribution low quality generations. In this work, we introduce LoRA-MDM, a lightweight framework for motion stylization that generalizes to complex actions while maintaining editability. Our key insight is that adapting the generative prior to include the style, while preserving its overall distribution, is more effective than modifying each individual motion during generation. Building on this idea, LoRA-MDM learns to adapt the prior to include the reference style using only a few samples. The style can then be used in the context of different textual prompts for generation. The low-rank adaptation shifts the motion manifold in a semantically meaningful way, enabling realistic style infusion even for actions not present in the reference samples. Moreover, preserving the distribution structure enables advanced operations such as style blending and motion editing. We compare LoRA-MDM to state-of-the-art stylized motion generation methods and demonstrate a favorable balance between text fidelity and style consistency.

文本到动作生成模型能够涵盖多种3D人类动作,但在细微的风格属性(如“鸡”风格)方面存在困难。由于特定风格的数据稀缺,现有方法往往将生成先验拉向参考风格,这通常会导致生成的结果分布外且质量低下。在这项工作中,我们引入了LoRA-MDM,这是一个轻量级的动作风格化框架,能够概括复杂动作并保持可编辑性。我们的关键见解是,适应生成先验以包含风格,同时保持其整体分布,这比在生成过程中修改每个单独的动作更有效。基于此想法,LoRA-MDM学习适应先验以包含参考风格,仅使用少量样本。然后可以在不同的文本提示的上下文中使用该风格进行生成。低秩适应以语义上有意义的方式改变动作流形,即使在参考样本中不存在的动作中也能实现真实风格融合。此外,保持分布结构可以进行高级操作,如风格混合和运动编辑。我们将LoRA-MDM与最先进的风格化动作生成方法进行比较,并证明了在文本保真度和风格一致性之间的有利平衡。

论文及项目相关链接

PDF Project page at https://haimsaw.github.io/LoRA-MDM/

Summary
文本到动作生成模型涵盖多种3D人类动作,但在微妙的风格特征上表现挣扎,如“小鸡”风格。由于风格特定数据的稀缺性,现有方法通常将生成先验拉向参考风格,这会导致生成的结果偏离分布且质量低下。本研究介绍了一种轻量级的动作风格化框架LoRA-MDM,它能在保持编辑能力的同时推广到复杂动作。我们的关键见解是,适应生成先验以包含风格,同时保持其整体分布,比在生成过程中修改每个个体动作更有效。基于此想法,LoRA-MDM学习使用仅少数样本适应先验以包含参考风格。然后,该风格可用于不同的文本提示中进行生成。低秩适应以语义上有意义的方式移动运动流形,即使在参考样本中不存在的动作中也能实现逼真的风格融合。此外,保持分布结构可实现风格混合和运动编辑等高级操作。我们将LoRA-MDM与最先进的风格化运动生成方法进行比较,并证明了其在文本保真度和风格一致性之间的有利平衡。

Key Takeaways

  1. 文本到动作生成模型在处理微妙的风格特征时面临挑战。
  2. 缺乏特定风格的训练数据导致现有方法生成的动画结果偏离预期分布和质量低下。
  3. LoRA-MDM框架通过适应生成先验来包含参考风格,同时保持其整体分布,以提高生成质量。
  4. LoRA-MDM使用少数样本学习适应先验,使风格可用于不同的文本提示中进行生成。
  5. 低秩适应技术实现了语义上有意义的运动流形转移,实现了逼真的风格融合,即使对于未在参考样本中出现的动作也是如此。
  6. 保持分布结构使高级操作如风格混合和运动编辑成为可能。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 本篇
Text-to-Motion Text-to-Motion
Text-to-Motion 方向最新论文已更新,请持续关注 Update in 2025-07-12 Dance Like a Chicken Low-Rank Stylization for Human Motion Diffusion
2025-07-12
下一篇 
Talking Head Generation Talking Head Generation
Talking Head Generation 方向最新论文已更新,请持续关注 Update in 2025-07-12 GGTalker Talking Head Systhesis with Generalizable Gaussian Priors and Identity-Specific Adaptation
  目录