嘘~ 正在从服务器偷取页面 . . .

Speech


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-18 更新

Proactive Hearing Assistants that Isolate Egocentric Conversations

Authors:Guilin Hu, Malek Itani, Tuochao Chen, Shyamnath Gollakota

We introduce proactive hearing assistants that automatically identify and separate the wearer’s conversation partners, without requiring explicit prompts. Our system operates on egocentric binaural audio and uses the wearer’s self-speech as an anchor, leveraging turn-taking behavior and dialogue dynamics to infer conversational partners and suppress others. To enable real-time, on-device operation, we propose a dual-model architecture: a lightweight streaming model runs every 12.5 ms for low-latency extraction of the conversation partners, while a slower model runs less frequently to capture longer-range conversational dynamics. Results on real-world 2- and 3-speaker conversation test sets, collected with binaural egocentric hardware from 11 participants totaling 6.8 hours, show generalization in identifying and isolating conversational partners in multi-conversation settings. Our work marks a step toward hearing assistants that adapt proactively to conversational dynamics and engagement. More information can be found on our website: https://proactivehearing.cs.washington.edu/

我们引入了主动听力辅助系统,该系统无需明确提示即可自动识别和分离佩戴者的对话伙伴。我们的系统以自我为中心的双耳音频为操作基础,以佩戴者的自我语音作为锚点,利用对话中的轮流发言行为和对话动态来推断对话伙伴并抑制其他声音。为了实现实时设备操作,我们提出了一种双模型架构:一个轻量级的流式模型每12.5毫秒运行一次,以实现低延迟的对话伙伴提取,而一个较慢的模型则较少运行以捕捉更长期的对话动态。在现实世界中的双人及三人对话测试集上,使用来自11名参与者共6.8小时的双耳自我中心硬件收集的数据,结果显示在多对话环境中识别和隔离对话伙伴的泛化能力。我们的工作标志着听力辅助设备朝着主动适应对话动态和互动迈出了重要一步。更多信息请访问我们的网站:[https://proactivehearing.cs.washington.edu/]

论文及项目相关链接

PDF Accepted at EMNLP 2025 Main Conference

Summary

本文介绍了无需用户明确提示即可自动识别并分离对话者的主动听觉辅助系统。该系统以自我语音为锚点,运用耳蜗双耳音频和对话的轮换行为及动态变化来推断对话者并抑制其他声音。系统采用双模型架构实现实时设备端操作,一个轻量级流式模型每12.5毫秒运行一次以实现低延迟的对话伙伴提取,另一个较慢的模型则更少运行以捕捉更长期的对话动态。在真实世界的两人和三人对话测试集上,通过采集双耳听觉硬件设备的数据,验证了系统在多变对话环境中识别并隔离对话伙伴的泛化能力。本研究标志着主动适应对话动态和参与度变化的听觉辅助系统的发展。

Key Takeaways

  1. 无需用户明确提示,主动听觉辅助系统可自动识别和分离对话者。
  2. 系统利用自我语音为锚点进行工作,运用耳蜗双耳音频进行对话分析。
  3. 系统采用双模型架构,实现实时设备端操作和低延迟的对话伙伴提取。
  4. 通过真实世界的对话测试集验证系统的泛化能力。
  5. 系统能够从复杂的对话环境中识别并隔离出特定的对话伙伴。
  6. 研究的推进代表了听觉辅助系统朝更智能、更适应环境变化的方向发展的重要性。

Cool Papers

点此查看论文截图

Speech-Aware Long Context Pruning and Integration for Contextualized Automatic Speech Recognition

Authors:Yiming Rong, Yixin Zhang, Ziyi Wang, Deyang Jiang, Yunlong Zhao, Haoran Wu, Shiyu Zhou, Bo Xu

Automatic speech recognition (ASR) systems have achieved remarkable performance in common conditions but often struggle to leverage long-context information in contextualized scenarios that require domain-specific knowledge, such as conference presentations. This challenge arises primarily due to constrained model context windows and the sparsity of relevant information within extensive contextual noise. To solve this, we propose the SAP$^{2}$ method, a novel framework that dynamically prunes and integrates relevant contextual keywords in two stages. Specifically, each stage leverages our proposed Speech-Driven Attention-based Pooling mechanism, enabling efficient compression of context embeddings while preserving speech-salient information. Experimental results demonstrate state-of-the-art performance of SAP$^{2}$ on the SlideSpeech and LibriSpeech datasets, achieving word error rates (WER) of 7.71% and 1.12%, respectively. On SlideSpeech, our method notably reduces biased keyword error rates (B-WER) by 41.1% compared to non-contextual baselines. SAP$^{2}$ also exhibits robust scalability, consistently maintaining performance under extensive contextual input conditions on both datasets.

自动语音识别(ASR)系统在常规条件下取得了显著的性能,但在需要领域特定知识的上下文场景中,如会议演讲,利用长上下文信息时往往遇到困难。这一挑战主要源于模型上下文窗口的限制和大量上下文噪声中相关信息的稀疏性。为了解决这个问题,我们提出了SAP$^{2}$方法,这是一个新的框架,分为两个阶段,动态删除和整合相关的上下文关键词。具体来说,每个阶段都利用了我们提出的基于语音驱动的注意力池化机制,能够在压缩上下文嵌入的同时,保留语音显著信息。实验结果表明,SAP$^{2}$在SlideSpeech和LibriSpeech数据集上均达到了最新技术水平,分别实现了词错误率(WER)的7.71%和1.12%。在SlideSpeech数据集上,与无上下文基线相比,我们的方法显著降低了偏差关键词错误率(B-WER),降低了41.1%。SAP$^{2}$还表现出稳健的可扩展性,在两个数据集的广泛上下文输入条件下,性能始终如一。

论文及项目相关链接

PDF

Summary

ASR系统在常规条件下表现卓越,但在需要领域特定知识的语境化场景中,如会议演讲,利用长语境信息时常常遇到困难。主要由于模型上下文窗口受限和大量上下文噪声中的相关信息稀疏。为解决此问题,我们提出了SAP$^{2}$方法,这是一个新的框架,分为两个阶段动态删除和整合相关的上下文关键词。每个阶段都利用我们提出的基于语音驱动的注意力池化机制,能够在压缩上下文嵌入的同时保留语音显著信息。实验结果表明,SAP$^{2}$在SlideSpeech和LibriSpeech数据集上表现出卓越性能,字错误率分别为7.71%和1.12%。在SlideSpeech上,我们的方法将非上下文基准测试的偏置关键词错误率减少了41.1%。SAP$^{2}$还展现出稳健的可扩展性,在大量上下文输入条件下在两个数据集上始终保持良好的性能。

Key Takeaways

  1. ASR系统在常规条件下表现良好,但在需要领域特定知识的语境化场景中面临挑战。
  2. 主要挑战在于模型上下文窗口受限和相关信息在大量噪声中的稀疏性。
  3. SAP$^{2}$方法是一个新的框架,旨在解决上述问题,通过两个阶段动态删除和整合相关的上下文关键词。
  4. SAP$^{2}$利用基于语音驱动的注意力池化机制,能压缩上下文嵌入并保留语音显著信息。
  5. SAP$^{2}$在SlideSpeech和LibriSpeech数据集上表现出卓越性能。
  6. 在SlideSpeech数据集上,SAP$^{2}$方法显著减少了偏置关键词错误率。
  7. SAP$^{2}$展现出稳健的可扩展性,适应大量上下文输入条件。

Cool Papers

点此查看论文截图

TimeAudio: Bridging Temporal Gaps in Large Audio-Language Models

Authors:Hualei Wang, Yiming Li, Shuo Ma, Hong Liu, Xiangdong Wang

Recent Large Audio-Language Models (LALMs) exhibit impressive capabilities in understanding audio content for conversational QA tasks. However, these models struggle to accurately understand timestamps for temporal localization (e.g., Temporal Audio Grounding) and are restricted to short audio perception, leading to constrained capabilities on fine-grained tasks. We identify three key aspects that limit their temporal localization and long audio understanding: (i) timestamp representation, (ii) architecture, and (iii) data. To address this, we introduce TimeAudio, a novel method that empowers LALMs to connect their understanding of audio content with precise temporal perception. Specifically, we incorporate unique temporal markers to improve time-sensitive reasoning and apply an absolute time-aware encoding that explicitly grounds the acoustic features with absolute time information. Moreover, to achieve end-to-end long audio understanding, we introduce a segment-level token merging module to substantially reduce audio token redundancy and enhance the efficiency of information extraction. Due to the lack of suitable datasets and evaluation metrics, we consolidate existing audio datasets into a new dataset focused on temporal tasks and establish a series of metrics to evaluate the fine-grained performance. Evaluations show strong performance across a variety of fine-grained tasks, such as dense captioning, temporal grounding, and timeline speech summarization, demonstrating TimeAudio’s robust temporal localization and reasoning capabilities.

最近的大型音频语言模型(LALMs)在理解对话问答任务的音频内容方面表现出令人印象深刻的能力。然而,这些模型在准确理解时间戳进行时间定位(例如,时间音频定位)方面遇到困难,并且仅限于短音频感知,导致在精细任务上的能力受限。我们确定了三个限制其时间定位和对长音频理解的关键方面:(i)时间戳表示,(ii)架构,(iii)数据。为了解决这一问题,我们引入了TimeAudio,这是一种新方法,使LALMs能够将他们对音频内容的理解与精确的时间感知相结合。具体来说,我们采用独特的时空标记来改善时间敏感推理,并应用绝对时间感知编码,将声音特征与绝对时间信息明确关联。此外,为了实现端到端的长期音频理解,我们引入了分段级令牌合并模块,以大大减少音频令牌的冗余并提高信息提取的效率。由于缺乏合适的数据集和评估指标,我们将现有的音频数据集整合到一个专注于时间任务的新数据集上,并建立了一系列指标来评估精细性能。评估表明,在多种精细任务上表现出强劲性能,如密集字幕、时间定位和时序语音摘要等,证明了TimeAudio稳健的时间定位和推理能力。

论文及项目相关链接

PDF Accepted by The Fortieth AAAI Conference on Artificial Intelligence (AAAI 2026)

Summary

最近的大型音频语言模型(LALMs)在理解音频内容以完成对话问答任务方面表现出强大的能力,但在时间定位(如时间音频定位)方面存在准确理解时间戳的困难,且仅限于短音频感知,对精细任务的能力受限。针对这一问题,我们引入了TimeAudio方法,通过引入独特的时间标记来改善时间敏感推理,并采用绝对时间感知编码,将声学特征与绝对时间信息相结合。此外,为实现端到端的长期音频理解,我们引入了分段级令牌合并模块,以大幅降低音频令牌的冗余并增强信息提取的效率。我们整合现有音频数据集,专注于时间相关任务的新数据集,并建立一系列评估指标来评估精细性能。评估结果展示了在多种精细任务上的出色表现,证明了TimeAudio强大的时间定位和推理能力。

Key Takeaways

  1. LALMs在对话问答任务中表现出强大的音频理解能力,但在时间定位任务中准确理解时间戳存在困难。
  2. LALMs对长音频的理解能力有限,需要改进以应对精细任务。
  3. TimeAudio方法通过引入独特的时间标记和绝对时间感知编码来改善模型的时空感知能力。
  4. TimeAudio引入分段级令牌合并模块,降低音频令牌的冗余并提高信息提取效率。
  5. 缺乏针对时间定位任务的适当数据集和评估指标是当前的挑战。
  6. 整合现有音频数据集以创建专注于时间相关任务的新数据集是必要的。

Cool Papers

点此查看论文截图

CAT-Net: A Cross-Attention Tone Network for Cross-Subject EEG-EMG Fusion Tone Decoding

Authors:Yifan Zhuang, Calvin Huang, Zepeng Yu, Yongjie Zou, Jiawei Ju

Brain-computer interface (BCI) speech decoding has emerged as a promising tool for assisting individuals with speech impairments. In this context, the integration of electroencephalography (EEG) and electromyography (EMG) signals offers strong potential for enhancing decoding performance. Mandarin tone classification presents particular challenges, as tonal variations convey distinct meanings even when phonemes remain identical. In this study, we propose a novel cross-subject multimodal BCI decoding framework that fuses EEG and EMG signals to classify four Mandarin tones under both audible and silent speech conditions. Inspired by the cooperative mechanisms of neural and muscular systems in speech production, our neural decoding architecture combines spatial-temporal feature extraction branches with a cross-attention fusion mechanism, enabling informative interaction between modalities. We further incorporate domain-adversarial training to improve cross-subject generalization. We collected 4,800 EEG trials and 4,800 EMG trials from 10 participants using only twenty EEG and five EMG channels, demonstrating the feasibility of minimal-channel decoding. Despite employing lightweight modules, our model outperforms state-of-the-art baselines across all conditions, achieving average classification accuracies of 87.83% for audible speech and 88.08% for silent speech. In cross-subject evaluations, it still maintains strong performance with accuracies of 83.27% and 85.10% for audible and silent speech, respectively. We further conduct ablation studies to validate the effectiveness of each component. Our findings suggest that tone-level decoding with minimal EEG-EMG channels is feasible and potentially generalizable across subjects, contributing to the development of practical BCI applications.

脑机接口(BCI)语音解码已作为一种有前途的工具出现在公众视野,为具有言语障碍的人提供辅助。在此情况下,脑电图(EEG)和肌电图(EMG)信号的融合在增强解码性能方面具有巨大潜力。由于声调变化即使在音素相同的情况下也能传达不同的含义,因此汉语声调分类呈现出特殊挑战。本研究提出了一种新颖的跨主体多模式BCI解码框架,该框架融合了EEG和EMG信号,可在有声和无声语音条件下对四种汉语声调进行分类。我们的神经解码架构受到语音产生过程中神经和肌肉系统协同机制的启发,结合了时空特征提取分支和跨注意融合机制,实现了模态之间的信息交互。我们还引入了域对抗训练来改善跨主体泛化能力。我们从10名参与者中收集了4800次EEG试验和4800次EMG试验数据,仅使用20个EEG通道和5个EMG通道,证明了少通道解码的可行性。尽管采用了轻量级模块,我们的模型在所有条件下都优于最先进的基线模型,在有声语音和无声语音的情况下平均分类准确率分别为87.83%和88.08%。在跨主体评估中,对于有声和无声语音,其准确率仍然保持强劲,分别为83.27%和85.10%。我们还进行了剔除研究以验证每个组件的有效性。我们的研究结果表明,使用最少的EEG-EMG通道进行音调级别的解码是可行的,并且在不同受试者之间具有潜在的可泛化性,有助于实用BCI应用程序的开发。

论文及项目相关链接

PDF This is the extended version with technical appendices. The version of record appears in AAAI-26. Please cite the AAAI version

摘要

大脑-计算机接口(BCI)语音解码为存在语音障碍的个体提供了一种前景广阔的工具。在此情况下,脑电图(EEG)和肌电图(EMG)信号的融合在增强解码性能方面具有巨大潜力。在普通话声调分类中,声调的变化即使在音素相同的情况下也能传达不同的含义。本研究提出了一种跨主体多模态BCI解码框架,融合了EEG和EMG信号,以在有声和无声语音条件下对四种普通话声调进行分类。本研究受到语音产生过程中神经和肌肉系统合作机制的启发,神经解码架构结合了时空特征提取分支与跨注意融合机制,使各模态之间能够进行信息交互。此外,还引入了域对抗训练来提高跨主体泛化能力。研究采集了来自10名参与者的4800个EEG试验样本和4800个EMG试验样本,证明了少量通道的解码可行性。尽管采用了轻量级模块,我们的模型在所有条件下的性能均优于最新基线,在有声语音和无声语音的情况下,平均分类准确率分别达到了87.83%和88.08%。在跨主体评估中,其在有声和无声语音的情况下仍保持了强大的性能,准确率分别为83.27%和85.10%。我们还进行了消除研究以验证每个组件的有效性。研究结果表明,使用最少的EEG-EMG通道进行声调级别的解码是可行的,并且在跨主体之间具有良好的泛化性,为实用BCI应用程序的发展做出了贡献。

关键见解

  1. BCI语音解码对于存在语音障碍的个体具有巨大潜力。
  2. EEG和EMG信号的融合增强了BCI解码的性能。
  3. 普通话声调分类具有挑战性,因为声调变化可以在音素相同的情况下传达不同含义。
  4. 提出了一种跨主体多模态BCI解码框架,融合了EEG和EMG信号进行普通话声调分类。
  5. 框架结合了时空特征提取与跨注意融合机制,促进不同模态间的信息交互。
  6. 研究实现了跨主体泛化,并在有限通道下取得了良好的解码性能。
  7. 模型在有声和无声语音条件下的分类准确率均超过87%,并且在跨主体评估中仍表现出强大的性能。

Cool Papers

点此查看论文截图

StyleBreak: Revealing Alignment Vulnerabilities in Large Audio-Language Models via Style-Aware Audio Jailbreak

Authors:Hongyi Li, Chengxuan Zhou, Chu Wang, Sicheng Liang, Yanting Chen, Qinlin Xie, Jiawei Ye, Jie Wu

Large Audio-language Models (LAMs) have recently enabled powerful speech-based interactions by coupling audio encoders with Large Language Models (LLMs). However, the security of LAMs under adversarial attacks remains underexplored, especially through audio jailbreaks that craft malicious audio prompts to bypass alignment. Existing efforts primarily rely on converting text-based attacks into speech or applying shallow signal-level perturbations, overlooking the impact of human speech’s expressive variations on LAM alignment robustness. To address this gap, we propose StyleBreak, a novel style-aware audio jailbreak framework that systematically investigates how diverse human speech attributes affect LAM alignment robustness. Specifically, StyleBreak employs a two-stage style-aware transformation pipeline that perturbs both textual content and audio to control linguistic, paralinguistic, and extralinguistic attributes. Furthermore, we develop a query-adaptive policy network that automatically searches for adversarial styles to enhance the efficiency of LAM jailbreak exploration. Extensive evaluations demonstrate that LAMs exhibit critical vulnerabilities when exposed to diverse human speech attributes. Moreover, StyleBreak achieves substantial improvements in attack effectiveness and efficiency across multiple attack paradigms, highlighting the urgent need for more robust alignment in LAMs.

大型音频语言模型(LAMs)最近通过音频编码器与大型语言模型(LLMs)的结合,实现了强大的基于语音的交互。然而,LAMs在遭受对抗性攻击时的安全性尚未得到充分探索,特别是通过音频越狱,即制作恶意音频提示来绕过对齐。现有的努力主要依赖于将基于文本的攻击转换为语音或应用浅层的信号级扰动,忽视了人类语音表达变化对LAM对齐稳健性的影响。为了弥补这一空白,我们提出了StyleBreak,这是一种新型的风格感知音频越狱框架,系统地研究不同的人类语音属性如何影响LAM对齐的稳健性。具体来说,StyleBreak采用了一个两阶段的风格感知转换管道,同时扰动文本内容和音频,以控制语言、副语言和超语言属性。此外,我们开发了一个查询自适应策略网络,自动搜索对抗性风格,以提高LAM越狱探索的效率。广泛评估表明,当暴露于多样的人类语音属性时,LAMs存在关键漏洞。而且,StyleBreak在多种攻击模式下实现了攻击效果和效率的大幅提升,突显了LAMs中更稳健对齐的迫切需求。

论文及项目相关链接

PDF Accepted by AAAI 2026

Summary

大型音频语言模型(LAMs)通过结合音频编码器与大型语言模型(LLMs)实现了强大的基于语音的交互功能。然而,LAMs在面临恶意音频提示的音频越狱攻击时的安全性尚未得到充分探索。针对这一缺陷,提出了StyleBreak,一个新型的风格感知音频越狱框架,它系统地研究了不同的人类语音特征如何影响LAM对齐的稳健性。StyleBreak采用两阶段风格感知转换管道,同时扰动文本内容和音频,以控制语言、副语言和超语言特征。此外,还开发了一个查询自适应策略网络,可自动搜索对抗性风格,以提高LAM越狱探索的效率。评估表明,LAM在面对多样的人类语音特征时存在关键漏洞。StyleBreak在多种攻击模式下实现了攻击效果和效率的大幅提升,突显了LAM中更稳健对齐的迫切需求。

Key Takeaways

  1. LAMs结合音频编码器与LLMs,使语音交互功能强大。
  2. LAMs在面临音频越狱攻击时的安全性尚未得到充分探索。
  3. StyleBreak是一个新的风格感知音频越狱框架,研究人类语音特征对LAM稳健性的影响。
  4. StyleBreak采用两阶段风格感知转换管道,控制语言、副语言和超语言特征。
  5. 查询自适应策略网络可自动搜索对抗性风格,提高LAM越狱探索效率。
  6. LAM在面对多样的人类语音特征时存在关键漏洞。

Cool Papers

点此查看论文截图

Q2E: Query-to-Event Decomposition for Zero-Shot Multilingual Text-to-Video Retrieval

Authors:Shubhashis Roy Dipta, Francis Ferraro

Recent approaches have shown impressive proficiency in extracting and leveraging parametric knowledge from Large-Language Models (LLMs) and Vision-Language Models (VLMs). In this work, we consider how we can improve the identification and retrieval of videos related to complex real-world events by automatically extracting latent parametric knowledge about those events. We present Q2E: a Query-to-Event decomposition method for zero-shot multilingual text-to-video retrieval, adaptable across datasets, domains, LLMs, or VLMs. Our approach demonstrates that we can enhance the understanding of otherwise overly simplified human queries by decomposing the query using the knowledge embedded in LLMs and VLMs. We additionally show how to apply our approach to both visual and speech-based inputs. To combine this varied multimodal knowledge, we adopt entropy-based fusion scoring for zero-shot fusion. Through evaluations on two diverse datasets and multiple retrieval metrics, we demonstrate that Q2E outperforms several state-of-the-art baselines. Our evaluation also shows that integrating audio information can significantly improve text-to-video retrieval. We have released code and data for future research.

最近的方法展示在从大型语言模型(LLM)和视觉语言模型(VLM)中提取和利用参数知识的卓越能力。在这项工作中,我们考虑如何通过自动提取关于这些事件的潜在参数知识,来改善与复杂现实世界事件相关的视频识别与检索。我们提出了Q2E:一种用于零样本多语言文本到视频检索的查询到事件分解方法,可适应不同的数据集、领域、LLM或VLM。我们的方法证明了我们可以利用嵌入在LLM和VLM中的知识来分解查询,从而增强对过于简化的人类查询的理解。我们还展示了如何将我们的方法应用于视觉和基于语音的输入。为了结合这种多样化的多模态知识,我们采用基于熵的融合评分进行零样本融合。在两个不同的数据集和多个检索指标上的评估表明,Q2E优于几种最先进的基线方法。我们的评估还表明,整合音频信息可以显著改善文本到视频的检索。我们已经发布了代码和数据以供未来研究使用。

论文及项目相关链接

PDF Accepted in IJCNLP-AACL 2025 (also presented in MAGMAR 2025 at ACL 2025)

Summary

本工作旨在通过自动提取关于复杂现实事件的潜在参数知识,提高与这些事件相关的视频识别与检索能力。为此,提出了一种查询到事件分解方法Q2E,用于零样本多语言文本到视频的检索,可适应不同的数据集、领域、大型语言模型或视觉语言模型。通过分解查询并利用嵌入在大型语言模型和视觉语言模型中的知识,提高了对过于简化的查询的理解。此外,该方法还可应用于视觉和基于语音的输入。通过熵基融合评分实现了多种模态知识的结合,在两个不同数据集和多个检索指标上的评估结果表明Q2E优于若干最先进的基线模型。评估还显示,集成音频信息可以显著改善文本到视频的检索效果。

Key Takeaways

  1. 本研究关注于利用大型语言模型和视觉语言模型中的参数知识,提高复杂现实事件相关视频的检索能力。
  2. 提出了一种查询到事件分解方法Q2E,用于零样本多语言文本到视频的检索。
  3. Q2E方法可以适应不同的数据集、领域、大型语言模型或视觉语言模型。
  4. 通过分解查询和利用嵌入在模型中的知识,提高了对简化查询的理解。
  5. Q2E支持视觉和基于语音的输入,并采用熵基融合评分结合多种模态知识。
  6. 在两个不同数据集上的评估表明Q2E优于其他先进方法。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
元宇宙/虚拟人 元宇宙/虚拟人
元宇宙/虚拟人 方向最新论文已更新,请持续关注 Update in 2025-11-18 BecomingLit Relightable Gaussian Avatars with Hybrid Neural Shading
下一篇 
无监督/半监督/对比学习 无监督/半监督/对比学习
无监督/半监督/对比学习 方向最新论文已更新,请持续关注 Update in 2025-11-18 OpenUS A Fully Open-Source Foundation Model for Ultrasound Image Analysis via Self-Adaptive Masked Contrastive Learning
  目录