⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-11-22 更新
SUNAC: Source-aware Unified Neural Audio Codec
Authors:Ryo Aihara, Yoshiki Masuyama, Francesco Paissan, François G. Germain, Gordon Wichern, Jonathan Le Roux
Neural audio codecs (NACs) provide compact representations that can be leveraged in many downstream applications, in particular large language models. Yet most NACs encode mixtures of multiple sources in an entangled manner, which may impede efficient downstream processing in applications that need access to only a subset of the sources (e.g., analysis of a particular type of sound, transcription of a given speaker, etc). To address this, we propose a source-aware codec that encodes individual sources directly from mixtures, conditioned on source type prompts. This enables user-driven selection of which source(s) to encode, including separately encoding multiple sources of the same type (e.g., multiple speech signals). Experiments show that our model achieves competitive resynthesis and separation quality relative to a cascade of source separation followed by a conventional NAC, with lower computational cost.
神经音频编码(NAC)提供了紧凑的表示形式,可以应用于许多下游应用,尤其是大型语言模型。然而,大多数NAC以纠缠的方式对多个源进行编码,这可能阻碍在仅需要访问部分源的下游应用中实现高效处理(例如分析特定类型的声音、给定说话人的转录等)。为了解决这一问题,我们提出了一种基于源感知的编码方式,该方式直接从混合物中对单个源进行编码,并以源类型提示为条件。这使用户可以驱动选择哪些源进行编码,包括单独编码相同类型的多个源(例如多个语音信号)。实验表明,与先进行源分离然后进行常规NAC的串联相比,我们的模型在合成和分离质量方面表现出竞争力,同时降低了计算成本。
论文及项目相关链接
PDF Submitted to ICASSP 2026
Summary
神经音频编码(NAC)提供了紧凑的表示形式,可在许多下游应用中使用,尤其是在大型语言模型中。然而,大多数NAC以纠缠的方式编码多个源的混合物,这可能阻碍下游处理中对仅一部分源的高效访问(例如,分析特定类型的声音、转录给定说话人等)。为了解决这一问题,我们提出了一种基于源意识的编码方式,该方式直接从混合物中编码单个源,并根据源类型提示进行条件处理。这使得用户可以自主选择哪些源进行编码,包括单独编码同一类型的多个源(例如,多个语音信号)。实验表明,我们的模型在重新合成和分离质量方面与先经过源分离再经过常规NAC的串联处理相比具有竞争力,且计算成本更低。
Key Takeaways
- 神经音频编码(NAC)允许下游应用中对音频进行高效处理。
- 当前NAC在处理混合源时存在纠缠编码的问题,影响特定下游应用中对单一源的访问。
- 提出了基于源意识的编码方法,能够直接从混合源中编码单个源,基于源类型进行条件处理。
- 用户可以自主选择需要编码的源,包括同一类型的多个源。
- 实验显示,该模型在重新合成和分离质量上表现优异,与串联处理的常规NAC相比具有竞争力。
- 该模型在计算成本上相对较低。
- 该技术对于需要处理复杂音频场景的应用(如语音识别、音乐分析等)具有潜在的应用价值。
点此查看论文截图
FxSearcher: gradient-free text-driven audio transformation
Authors:Hojoon Ki, Jongsuk Kim, Minchan Kwon, Junmo Kim
Achieving diverse and high-quality audio transformations from text prompts remains challenging, as existing methods are fundamentally constrained by their reliance on a limited set of differentiable audio effects. This paper proposes FxSearcher, a novel gradient-free framework that discovers the optimal configuration of audio effects (FX) to transform a source signal according to a text prompt. Our method employs Bayesian Optimization and CLAP-based score function to perform this search efficiently. Furthermore, a guiding prompt is introduced to prevent undesirable artifacts and enhance human preference. To objectively evaluate our method, we propose an AI-based evaluation framework. The results demonstrate that the highest scores achieved by our method on these metrics align closely with human preferences. Demos are available at https://hojoonki.github.io/FxSearcher/
实现基于文本提示的多样化和高质量音频转换仍然是一个挑战,因为现有方法从根本上受到可微音频效果集有限的制约。本文提出了FxSearcher,一个新型的无需梯度的框架,用于根据文本提示发现音频效果(FX)的最佳配置,以转换源信号。我们的方法采用贝叶斯优化和基于CLAP的评分函数来高效执行此搜索。此外,引入了一个指导提示,以防止出现不希望有的伪迹并增强人类偏好。为了客观地评估我们的方法,我们提出了一个基于AI的评估框架。结果表明,我们的方法在这些指标上获得的最高分数与人类偏好紧密吻合。演示视频可在https://hojoonki.github.io/FxSearcher/查看。
论文及项目相关链接
总结
本论文提出一种无需梯度的框架FxSearcher,通过该框架能够发现最优的音频效果配置,以根据文本提示实现音频信号的转换。该方法采用贝叶斯优化和基于CLAP的评分函数进行高效搜索,并引入指导提示来防止不良伪影并增强人类偏好。此外,为了客观地评估该方法,论文还提出了一种基于AI的评估框架。实验结果表明,该方法在这些指标上获得的最高分数与人类偏好紧密对齐。
关键见解
- FxSearcher是一种新型的无需梯度的框架,用于发现音频效果的最优配置,以响应文本提示实现音频转换。
- 该方法结合贝叶斯优化和基于CLAP的评分函数,提高搜索效率。
- 引入指导提示来避免产生不良音频伪影,并提高人类听众的偏好。
- 为了客观地评估该方法,论文提出了一种基于AI的评估框架。
- 实验结果显示FxSearcher在各项指标上获得高分,与人类偏好对齐。
- FxSearcher具有广泛的应用前景,可应用于音频编辑、语音转换等领域。