嘘~ 正在从服务器偷取页面 . . .

Text-to-Motion


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-06-04 更新

Absolute Coordinates Make Motion Generation Easy

Authors:Zichong Meng, Zeyu Han, Xiaogang Peng, Yiming Xie, Huaizu Jiang

State-of-the-art text-to-motion generation models rely on the kinematic-aware, local-relative motion representation popularized by HumanML3D, which encodes motion relative to the pelvis and to the previous frame with built-in redundancy. While this design simplifies training for earlier generation models, it introduces critical limitations for diffusion models and hinders applicability to downstream tasks. In this work, we revisit the motion representation and propose a radically simplified and long-abandoned alternative for text-to-motion generation: absolute joint coordinates in global space. Through systematic analysis of design choices, we show that this formulation achieves significantly higher motion fidelity, improved text alignment, and strong scalability, even with a simple Transformer backbone and no auxiliary kinematic-aware losses. Moreover, our formulation naturally supports downstream tasks such as text-driven motion control and temporal/spatial editing without additional task-specific reengineering and costly classifier guidance generation from control signals. Finally, we demonstrate promising generalization to directly generate SMPL-H mesh vertices in motion from text, laying a strong foundation for future research and motion-related applications.

当前最先进的文本到动作生成模型依赖于HumanML3D普及的具有运动感知能力的局部相对动作表示。这种表示方式以骨盆和前一帧为相对基准进行动作编码,并内置冗余性。虽然这种设计简化了早期模型的训练,但它为扩散模型引入了关键限制,并阻碍了其在下游任务中的应用。在这项工作中,我们重新研究了动作表示,并为文本到动作生成提出了一种彻底简化且长期被遗弃的替代方案:全局空间中的绝对关节坐标。通过对设计选择进行系统的分析,我们表明这种表述实现了显著更高的动作保真度、改进了的文本对齐和强大的可扩展性,即使使用简单的Transformer主干和没有辅助的运动感知损失也是如此。此外,我们的表述自然地支持下游任务,如文本驱动的运动控制以及时间/空间编辑,无需额外的任务特定重新工程和昂贵的分类器指导生成控制信号。最后,我们展示了从文本直接生成SMPL-H网格顶点运动的通用性前景,为未来的研究和运动相关应用奠定了坚实基础。

论文及项目相关链接

PDF Preprint

Summary
文本生成运动领域的最新模型依赖于HumanML3D普及的基于动力学的局部相对运动表示。这种方法简化了早期模型的训练,但对扩散模型引入关键限制,并阻碍下游任务的应用。本研究重新审视运动表示,提出一种简化且长期被忽视的文本生成运动替代方案:全局空间中的绝对关节坐标。通过设计选择的分析,我们证明这种表述实现了更高的运动保真度、更好的文本对齐和强大的可扩展性,即使使用简单的Transformer骨干和没有辅助的动力学感知损失也是如此。此外,我们的表述自然支持下游任务,如文本驱动的运动控制和时空编辑,无需额外的任务特定重新工程和昂贵的分类器指导生成控制信号。最后,我们证明了直接生成基于文本的SMPL-H网格顶点运动的潜力,为未来研究和运动相关应用奠定了坚实基础。

Key Takeaways

  1. 文本生成运动模型依赖基于HumanML3D的局部相对运动表示,但这种设计对扩散模型存在局限性。
  2. 提出了一种全新的运动表示方法:全局空间中的绝对关节坐标。
  3. 新的表述实现了更高的运动保真度和更好的文本对齐。
  4. 该表述具有强大的可扩展性,即使使用简单的Transformer结构也能表现优异。
  5. 新的运动表示方法自然支持文本驱动的运动控制及时空编辑等下游任务。
  6. 该方法无需额外的任务特定重新工程和分类器指导生成控制信号。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
  目录