⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-06-05 更新
ANT: Adaptive Neural Temporal-Aware Text-to-Motion Model
Authors:Wenshuo Chen, Kuimou Yu, Haozhe Jia, Kaishen Yuan, Bowen Tian, Songning Lai, Hongru Xiao, Erhang Zhang, Lei Wang, Yutao Yue
While diffusion models advance text-to-motion generation, their static semantic conditioning ignores temporal-frequency demands: early denoising requires structural semantics for motion foundations while later stages need localized details for text alignment. This mismatch mirrors biological morphogenesis where developmental phases demand distinct genetic programs. Inspired by epigenetic regulation governing morphological specialization, we propose (ANT), an Adaptive Neural Temporal-Aware architecture. ANT orchestrates semantic granularity through: (i) Semantic Temporally Adaptive (STA) Module: Automatically partitions denoising into low-frequency structural planning and high-frequency refinement via spectral analysis. (ii) Dynamic Classifier-Free Guidance scheduling (DCFG): Adaptively adjusts conditional to unconditional ratio enhancing efficiency while maintaining fidelity. (iii) Temporal-semantic reweighting: Quantitatively aligns text influence with phase requirements. Extensive experiments show that ANT can be applied to various baselines, significantly improving model performance, and achieving state-of-the-art semantic alignment on StableMoFusion.
随着扩散模型推动文本到运动的生成,其静态语义条件忽略了时间频率的需求:早期的降噪需要结构语义作为运动基础,而后期阶段则需要局部细节来实现文本对齐。这种不匹配反映了生物形态发生过程中,发育阶段需要不同的遗传程序。受表观遗传调控管理形态特化的启发,我们提出了自适应神经时间感知架构 **(ANT)**。ANT 通过以下方面协调语义粒度:(i)语义时间自适应(STA)模块:通过频谱分析自动将降噪划分为低频结构规划和高频细化。(ii)动态无分类引导调度(DCFG):自适应调整条件与无条件比率,提高效率并保持保真度。(iii)时间语义重新加权:定量调整文本影响与阶段要求的一致性。大量实验表明,ANT 可以应用于各种基线,显著提高模型性能,并在StableMoFusion上实现最先进的语义对齐。
论文及项目相关链接
Summary
文本扩散模型在文本到运动的生成中不断进步,但其静态语义条件忽略了时序频率的需求。早期去噪需要结构语义为运动基础,后期则需要局部细节来实现文本对齐。受生物形态发生过程中遗传程序调控的启发,本文提出了自适应神经时序感知架构(ANT)。ANT通过以下方式协调语义粒度:(i)语义时序自适应(STA)模块:通过频谱分析自动将去噪划分为低频结构规划和高频细化。(ii)动态无分类引导调度(DCFG):自适应调整条件与无条件比率,提高效率并保持保真度。(iii)时序语义重加权:定量调整文本影响与阶段需求的一致性。实验表明,ANT可应用于各种基线模型,显著提高模型性能,在StableMoFusion上实现最先进的语义对齐。
Key Takeaways
- 文本扩散模型在文本到运动生成中存在静态语义条件忽略时序频率需求的问题。
- 早期和后期去噪在文本到运动生成中分别需要结构语义和局部细节。
- 生物形态发生过程中的遗传程序调控对文本到运动生成有启示作用。
- ANT架构通过语义时序自适应模块(STA)自动划分去噪过程。
- 动态无分类引导调度(DCFG)自适应调整条件与无条件比率,提高效率和保真度。
- 时序语义重加权定量调整文本影响与阶段需求的一致性。
点此查看论文截图





EPFL-Smart-Kitchen-30: Densely annotated cooking dataset with 3D kinematics to challenge video and language models
Authors:Andy Bonnetto, Haozhe Qi, Franklin Leong, Matea Tashkovska, Mahdi Rad, Solaiman Shokur, Friedhelm Hummel, Silvestro Micera, Marc Pollefeys, Alexander Mathis
Understanding behavior requires datasets that capture humans while carrying out complex tasks. The kitchen is an excellent environment for assessing human motor and cognitive function, as many complex actions are naturally exhibited in kitchens from chopping to cleaning. Here, we introduce the EPFL-Smart-Kitchen-30 dataset, collected in a noninvasive motion capture platform inside a kitchen environment. Nine static RGB-D cameras, inertial measurement units (IMUs) and one head-mounted HoloLens~2 headset were used to capture 3D hand, body, and eye movements. The EPFL-Smart-Kitchen-30 dataset is a multi-view action dataset with synchronized exocentric, egocentric, depth, IMUs, eye gaze, body and hand kinematics spanning 29.7 hours of 16 subjects cooking four different recipes. Action sequences were densely annotated with 33.78 action segments per minute. Leveraging this multi-modal dataset, we propose four benchmarks to advance behavior understanding and modeling through 1) a vision-language benchmark, 2) a semantic text-to-motion generation benchmark, 3) a multi-modal action recognition benchmark, 4) a pose-based action segmentation benchmark. We expect the EPFL-Smart-Kitchen-30 dataset to pave the way for better methods as well as insights to understand the nature of ecologically-valid human behavior. Code and data are available at https://github.com/amathislab/EPFL-Smart-Kitchen
为了理解人类行为,我们需要收集人类在执行复杂任务时的数据集。厨房是一个评估人类运动和认知功能的绝佳环境,因为在厨房中,从切割到清洁,许多复杂动作都会自然展现。在这里,我们介绍了EPFL-Smart-Kitchen-30数据集,该数据集是在厨房环境中的非侵入性动作捕捉平台上收集的。使用了九个静态RGB-D相机、惯性测量单元(IMU)和一个头戴式HoloLens 2耳机来捕捉手、身体和眼睛的三维运动。EPFL-Smart-Kitchen-30数据集是一个多视角动作数据集,具有同步的外向中心、内向中心、深度、IMU、眼动追踪、身体和手的动力学特征,涵盖了16名受试者烹饪四种不同食谱的29.7小时数据。动作序列被密集标注,每分钟有33.78个动作片段。利用这个多模态数据集,我们提出了四个基准测试,以推动行为理解和建模的进步,包括1)视觉语言基准测试、2)语义文本对运动生成基准测试、3)多模态动作识别基准测试、以及4)基于姿势的动作分割基准测试。我们期望EPFL-Smart-Kitchen-30数据集能为更好地理解生态有效的人类行为的方法和见解铺平道路。代码和数据可在https://github.com/amathislab/EPFL-Smart-Kitchen上获取。
论文及项目相关链接
PDF Code and data at: https://github.com/amathislab/EPFL-Smart-Kitchen
Summary:
本文介绍了EPFL-Smart-Kitchen-30数据集,该数据集通过厨房环境中的无创动作捕捉平台采集而成。采用九台静态RGB-D相机、惯性测量单元(IMUs)和头戴式HoloLens 2头盔来捕捉厨房中的三维手部、身体和眼部动作。该数据集是一个多视角动作数据集,包含同步的外向中心、内向中心、深度、IMU、眼动追踪、身体和手部运动学,记录了16名受试者烹饪四个不同食谱的29.7小时动作。本文提出了四个基准测试,以推动行为理解和建模的进步,包括视觉语言基准测试、语义文本到动作生成基准测试、多模态动作识别基准测试以及基于姿势的动作分割基准测试。预期EPFL-Smart-Kitchen-30数据集将为更好地理解生态有效的人类行为提供新的方法和见解。
Key Takeaways:
- EPFL-Smart-Kitchen-30数据集通过厨房环境中的无创动作捕捉平台采集,用于理解人类行为。
- 数据集采用多种设备捕捉三维手部、身体和眼部动作,包括RGB-D相机、惯性测量单元(IMUs)和头戴式HoloLens 2头盔。
- 数据集包含多模态信息,记录了16名受试者烹饪四个不同食谱的29.7小时动作,并进行了密集的动作序列标注。
- 提出了四个基准测试,涉及视觉语言、语义文本到动作生成、多模态动作识别和基于姿势的动作分割,以推动行为理解和建模的进步。
- EPFL-Smart-Kitchen-30数据集有望为更好地理解生态有效的人类行为提供新的方法和见解。
- 数据集和代码可通过公开链接获取。
- 厨房环境对于评估人类运动和认知功能是一个优秀的环境,因为这里展示了许多复杂的动作,从切割到清洁。
点此查看论文截图




