发布日期: 2025-11-12

更新日期: 2025-11-27

文章字数: 1k

阅读时长: 4 分

阅读次数:

⚠️ 以下所有内容总结都来自于大语言模型的能力，如有错误，仅供参考，谨慎使用
🔴 请注意：千万不要用于严肃的学术场景，只能用于论文阅读前的初筛！
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ，还请您给我们一些鼓励！⭐️ HuggingFace免费体验

2025-11-12 更新

Authors:Jiaye Tan, Haonan Luo, Linfeng Song, Shuaiqi Chen, Yishan Lyu, Zian Zhong, Roujia Wang, Daniel Jiang, Haoran Zhang, Jiaming Bai, Haoran Cheng, Q. Vera Liao, Hao-Wen Dong

Low-latency symbolic music generation is essential for real-time improvisation and human-AI co-creation. Existing transformer-based models, however, face a trade-off between inference speed and musical quality. Traditional acceleration techniques such as embedding pooling significantly degrade quality, while recently proposed Byte Pair Encoding (BPE) methods - though effective on single-track piano data - suffer large performance drops in multi-track settings, as revealed by our analysis. We propose Attribute-Specialized Key-Value Head Sharing (AS-KVHS), adapted to music’s structured symbolic representation, achieving about 30% inference speedup with only a negligible (about 0.4%) quality drop in objective evaluations and slight improvements in subjective listening tests. Our main contributions are (1) the first systematic study of BPE’s generalizability in multi-track symbolic music, and (2) the introduction of AS-KVHS for low-latency symbolic music generation. Beyond these, we also release SAGE-Music, an open-source benchmark that matches or surpasses state-of-the-art models in generation quality.

低延迟的符号音乐生成对于实时即兴创作和人机共创至关重要。然而，现有的基于Transformer的模型在推理速度与音乐质量之间面临权衡。传统的加速技术，如嵌入池化，会显著降低质量，而最近提出的字节对编码（BPE）方法虽然在单轨道钢琴数据上有效，但在多轨道设置中性能下降较大，我们的分析证实了这一点。我们提出了针对音乐的结构化符号表示而适应的属性专业化键值头共享（AS-KVHS），在客观评估中实现了约30%的推理速度提升，质量下降微乎其微（约0.4%），并在主观听力测试中略有改进。我们的主要贡献是（1）BPE在多轨道符号音乐中的通用性的系统研究，（2）引入了用于低延迟符号音乐生成的AS-KVHS。除此之外，我们还推出了SAGE-Music，这是一个开源基准测试平台，其在生成质量方面与或超越现有最新模型。

论文及项目相关链接

PDF Withdrawn after identifying that results in Section 5 require additional re-analysis before public dissemination

Summary

本文探讨了低延迟符号音乐生成对于实时即兴演奏和人机共创的重要性。现有基于转换器的方法在推理速度和音乐质量之间存在权衡。传统加速技术如嵌入池化会降低质量，而最近提出的Byte Pair Encoding（BPE）方法在单轨道钢琴数据上有效，但在多轨道设置中性能下降。本文提出了针对音乐结构化符号表示的Attribute-Specialized Key-Value Head Sharing（AS-KVHS），实现了约30%的推理速度提升，客观评估中的质量下降微乎其微（约0.4%），主观听测也有所改善。主要贡献包括BPE在多轨道符号音乐中的通用性研究，以及AS-KVHS用于低延迟符号音乐生成的应用。同时，还发布了SAGE-Music这一开源基准测试平台，其生成质量达到了或超过了目前的最先进模型。

Key Takeaways

低延迟符号音乐生成对于实时即兴演奏和人机共创至关重要。
现有基于转换器的方法在推理速度和音乐质量之间存在权衡。
传统加速技术如嵌入池化会显著影响音乐质量。
Byte Pair Encoding（BPE）方法在单轨道钢琴数据上有效，但在多轨道设置中性能下降。
提出的Attribute-Specialized Key-Value Head Sharing（AS-KVHS）实现了推理速度的提升和音乐质量的保持。
AS-KVHS适应了音乐的结构化符号表示。

Cool Papers

点此查看论文截图

Kedreamix

https://kedreamix.github.io/Talk2Paper/Paper/2025-11-12/Interactive/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !

Interactive

Talking Head Generation

Talking Head Generation 方向最新论文已更新，请持续关注 Update in 2025-11-12 ConsistTalk Intensity Controllable Temporally Consistent Talking Head Generation with Diffusion Noise Search

2025-11-12 Talking Head Generation

Talking Head Generation

TTS

TTS 方向最新论文已更新，请持续关注 Update in 2025-11-12 End-to-end Automatic Speech Recognition and Speech Translation Integration of Speech Foundational Models and LLMs

2025-11-12 TTS

TTS

Interactive

2025-11-12 更新

SAGE-Music: Low-Latency Symbolic Music Generation via Attribute-Specialized Key-Value Head Sharing