嘘~ 正在从服务器偷取页面 . . .

Talking Head Generation


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-09-28 更新

Unlocking Financial Insights: An advanced Multimodal Summarization with Multimodal Output Framework for Financial Advisory Videos

Authors:Sarmistha Das, R E Zera Marveen Lyngkhoi, Sriparna Saha, Alka Maurya

The dynamic propagation of social media has broadened the reach of financial advisory content through podcast videos, yet extracting insights from lengthy, multimodal segments (30-40 minutes) remains challenging. We introduce FASTER (Financial Advisory Summariser with Textual Embedded Relevant images), a modular framework that tackles three key challenges: (1) extracting modality-specific features, (2) producing optimized, concise summaries, and (3) aligning visual keyframes with associated textual points. FASTER employs BLIP for semantic visual descriptions, OCR for textual patterns, and Whisper-based transcription with Speaker diarization as BOS features. A modified Direct Preference Optimization (DPO)-based loss function, equipped with BOS-specific fact-checking, ensures precision, relevance, and factual consistency against the human-aligned summary. A ranker-based retrieval mechanism further aligns keyframes with summarized content, enhancing interpretability and cross-modal coherence. To acknowledge data resource scarcity, we introduce Fin-APT, a dataset comprising 470 publicly accessible financial advisory pep-talk videos for robust multimodal research. Comprehensive cross-domain experiments confirm FASTER’s strong performance, robustness, and generalizability when compared to Large Language Models (LLMs) and Vision-Language Models (VLMs). By establishing a new standard for multimodal summarization, FASTER makes financial advisory content more accessible and actionable, thereby opening new avenues for research. The dataset and code are available at: https://github.com/sarmistha-D/FASTER

社交媒体动态的传播方式通过播客视频扩大了金融咨询内容的覆盖范围,但从长达30-40分钟的多媒体片段中提取见解仍然具有挑战性。我们推出了FASTER(带文本嵌入相关图像的金融咨询摘要器),这是一个模块化框架,解决了三个关键挑战:(1)提取特定模态的特征,(2)生成优化、简洁的摘要,(3)将视觉关键帧与相关的文本点对齐。FASTER采用BLIP进行语义视觉描述、OCR进行文本模式识别,以及基于Whisper的转录和说话者分档作为BOS特征。一个经过修改的基于直接偏好优化(DPO)的损失函数,配备了BOS特定的事实核查,确保了与人类对齐摘要的精确性、相关性和事实一致性。基于排名的检索机制进一步将关键帧与摘要内容对齐,提高了可解释性和跨模态一致性。为了应对数据资源稀缺的问题,我们推出了Fin-APT数据集,该数据集包含470个可公开访问的金融咨询演讲视频,用于稳健的多模态研究。与大型语言模型(LLM)和视觉语言模型(VLM)相比,全面的跨域实验证实了FASTER在性能、稳健性和通用性方面的优势。通过建立多模态摘要的新标准,FASTER使金融咨询内容更容易获取和操作,从而为研究开辟了新途径。数据集和代码可在以下网址找到:https://github.com/sarmistha-D/FASTER

论文及项目相关链接

PDF

Summary

金融咨询内容通过社交媒体动态传播,以播客视频的形式扩大影响力范围。然而,从冗长、多模式(长达30至40分钟)的片段中提取见解仍具挑战性。本文介绍了FASTER(配备文本嵌入相关图像的金融咨询摘要器),该模块化框架解决了三个关键问题:提取模式特定特征、生成优化简洁摘要以及将视觉关键帧与关联文本点对齐。通过BLIP进行语义视觉描述、OCR识别文本模式,并结合基于Whisper的转录与演讲者分度作为语音特征。通过修改后的基于直接偏好优化(DPO)的损失函数与特定于语音的事实核查,确保摘要的精确度、相关性和事实一致性。基于排名器的检索机制进一步将关键帧与摘要内容对齐,提高了可解释性和跨模态一致性。为解决数据资源稀缺问题,本文引入了包含470个公开可访问金融咨询演讲视频的Fin-APT数据集,用于稳健的多模态研究。实验表明,相较于大型语言模型和视觉语言模型,FASTER表现出强大的性能、稳健性和泛化能力。它建立了新的多模态摘要标准,使金融咨询内容更加易于获取和操作,为相关研究开辟了新途径。数据集和代码可通过链接访问:[链接地址]。

Key Takeaways

  1. 金融咨询内容通过社交媒体传播,特别是通过播客视频形式扩大影响力范围。
  2. 从冗长的金融咨询视频中提取见解存在挑战,需要模块化框架来解决关键问题。
  3. FASTER框架解决了提取模式特定特征、生成简洁摘要和对齐视觉关键帧与文本点的问题。
  4. FASTER使用多种技术如BLIP、OCR和Whisper进行语义描述、文本识别及语音转录。
  5. 通过修改后的DPO损失函数和语音事实核查确保摘要的精确度、相关性和事实一致性。
  6. 基于排名器的检索机制提高了关键帧与摘要内容的对齐,增强了可解释性和跨模态一致性。

Cool Papers

点此查看论文截图

DRES: Benchmarking LLMs for Disfluency Removal

Authors:Maria Teleki, Sai Janjur, Haoran Liu, Oliver Grabner, Ketan Verma, Thomas Docog, Xiangjue Dong, Lingfeng Shi, Cong Wang, Stephanie Birkelbach, Jason Kim, Yin Zhang, James Caverlee

Disfluencies – such as “um,” “uh,” interjections, parentheticals, and edited statements – remain a persistent challenge for speech-driven systems, degrading accuracy in command interpretation, summarization, and conversational agents. We introduce DRES (Disfluency Removal Evaluation Suite), a controlled text-level benchmark that establishes a reproducible semantic upper bound for this task. DRES builds on human-annotated Switchboard transcripts, isolating disfluency removal from ASR errors and acoustic variability. We systematically evaluate proprietary and open-source LLMs across scales, prompting strategies, and architectures. Our results reveal that (i) simple segmentation consistently improves performance, even for long-context models; (ii) reasoning-oriented models tend to over-delete fluent tokens; and (iii) fine-tuning achieves near state-of-the-art precision and recall but harms generalization abilities. We further present a set of LLM-specific error modes and offer nine practical recommendations (R1-R9) for deploying disfluency removal in speech-driven pipelines. DRES provides a reproducible, model-agnostic foundation for advancing robust spoken-language systems.

口语中的不流畅表达,如“嗯”、“呃”、感叹词、括号词和编辑过的语句,对于语音驱动系统来说仍然是一个持续存在的挑战,它们会降低命令解读、摘要和对话代理的准确性。我们引入了DRES(不流畅性移除评估套件),这是一个受控的文本级别基准测试,为这项任务建立了可复制的语义上限。DRES基于人工标注的Switchboard转录本,将不流畅性的移除与ASR错误和声音变化隔离开来。我们系统地评估了专有和开源的LLM,涵盖了规模、提示策略和架构。我们的结果揭示:(i)即使在长语境模型中,简单的分段也能始终提高性能;(ii)以推理为导向的模型往往会过度删除流畅的语言符号;(iii)微调可以实现接近最新技术的精确度和召回率,但会损害泛化能力。我们还针对部署不流畅性移除的语音驱动管道提出了LLM特定的错误模式和九条实用建议(R1-R9)。DRES为开发健壮的口语系统提供了一个可复制、模型无关的基础。

论文及项目相关链接

PDF

Summary

本文介绍了说话人常见的言语不流畅现象(如“嗯”、“呃”、插入语等),对语音驱动系统的挑战在于降低了命令解读、摘要和对话代理的准确性。为此,文章提出了DRES(言语不流畅性去除评估套件),一个可控文本基准测试,旨在解决这一问题并建立语义上限标准。DRES基于人类注释的Switchboard转录本,在语音识别错误和声学差异上分离了言语不流畅性的去除工作。研究评价了不同规模、提示策略和架构的专有和开源大型语言模型(LLM)。研究发现,简单的分割技术对于长期上下文模型也有良好的改善效果;推理导向模型可能会过度删除流畅的语言片段;微调可实现接近当前状态的精确度和召回率,但可能损害泛化能力。文章还提供了针对大型语言模型的特定错误模式及九条实际应用建议(R1-R9),为推进稳健的语音驱动系统提供模型无关的可复制基础。

Key Takeaways

  • 言语不流畅性是语音驱动系统的一大挑战,影响命令解读、摘要和对话代理的准确性。
  • DRES是一个可控文本基准测试,用于解决言语不流畅性问题并建立语义上限标准。
  • 基于人类注释的Switchboard转录本建立,分离了言语不流畅性的去除与语音识别错误和声学差异。
  • 简单分割技术能有效改善长期上下文模型的性能。
  • 推理导向模型可能过度删除流畅的语言片段。
  • 精细调整能提高模型的精确度和召回率,但可能影响其泛化能力。
  • 文章提供了针对大型语言模型的特定错误模式及实用建议。

Cool Papers

点此查看论文截图

KSDiff: Keyframe-Augmented Speech-Aware Dual-Path Diffusion for Facial Animation

Authors:Tianle Lyu, Junchuan Zhao, Ye Wang

Audio-driven facial animation has made significant progress in multimedia applications, with diffusion models showing strong potential for talking-face synthesis. However, most existing works treat speech features as a monolithic representation and fail to capture their fine-grained roles in driving different facial motions, while also overlooking the importance of modeling keyframes with intense dynamics. To address these limitations, we propose KSDiff, a Keyframe-Augmented Speech-Aware Dual-Path Diffusion framework. Specifically, the raw audio and transcript are processed by a Dual-Path Speech Encoder (DPSE) to disentangle expression-related and head-pose-related features, while an autoregressive Keyframe Establishment Learning (KEL) module predicts the most salient motion frames. These components are integrated into a Dual-path Motion generator to synthesize coherent and realistic facial motions. Extensive experiments on HDTF and VoxCeleb demonstrate that KSDiff achieves state-of-the-art performance, with improvements in both lip synchronization accuracy and head-pose naturalness. Our results highlight the effectiveness of combining speech disentanglement with keyframe-aware diffusion for talking-head generation.

音频驱动的面部动画在多媒体应用中已经取得了显著的进展,扩散模型在说话面部合成中显示出强大的潜力。然而,大多数现有工作将语音特征视为单一表示,未能捕获其在驱动不同面部运动中的精细作用,同时忽视了用强烈动力学对关键帧建模的重要性。为了解决这些局限性,我们提出了KSDiff,一种带关键帧增强的语音感知双路径扩散框架。具体而言,原始音频和文本通过双路径语音编码器(DPSE)进行处理,以解开表情相关和头部姿态相关的特征,同时自回归的关键帧建立学习(KEL)模块预测最显著的动态帧。这些组件被集成到双路径运动生成器中,以合成连贯且逼真的面部运动。在HDTF和VoxCeleb上的大量实验表明,KSDiff达到了最先进的性能,唇同步准确性和头部姿态自然性都有所提高。我们的结果突出了结合语音解纠缠和关键帧感知扩散进行说话头部生成的有效性。

论文及项目相关链接

PDF 5 pages, 3 figures, 3 tables

Summary

音频驱动的面部动画在多媒体应用中已取得显著进展,扩散模型在说话人脸合成方面展现出强大潜力。然而,现有方法往往将语音特征视为单一表示,未能精细捕捉其在驱动不同面部运动中的作用,同时忽略了建模具有强烈动态的关键帧的重要性。为解决这些局限,我们提出KSDiff,一种结合关键帧增强的语音感知双路径扩散框架。具体而言,原始音频和文本通过双路径语音编码器处理,以解开表情和头部姿态相关特征;同时,通过自回归的关键帧建立学习模块预测最显著的动态帧。这些组件被整合到双路径运动生成器中,以合成连贯且逼真的面部运动。在HDTF和VoxCeleb上的实验表明,KSDiff达到了业界最佳性能,提高了唇同步准确性和头部姿态的自然性。我们的结果突显了结合语音解耦和关键帧感知扩散在说话人头部生成中的有效性。

Key Takeaways

  1. 音频驱动的面部动画在多媒体应用中有显著进展,扩散模型在谈话面部合成中展现出强潜力。
  2. 现有方法未能精细捕捉语音特征在驱动不同面部运动中的作用,且忽略了关键帧建模的重要性。
  3. 提出KSDiff框架,结合关键帧增强的语音感知双路径扩散。
  4. 双路径语音编码器能解开表情和头部姿态相关特征。
  5. 自回归关键帧建立学习模块可预测最显著的动态帧。
  6. KSDiff在HDTF和VoxCeleb上的实验达到业界最佳性能。

Cool Papers

点此查看论文截图

SynchroRaMa : Lip-Synchronized and Emotion-Aware Talking Face Generation via Multi-Modal Emotion Embedding

Authors:Phyo Thet Yee, Dimitrios Kollias, Sudeepta Mishra, Abhinav Dhall

Audio-driven talking face generation has received growing interest, particularly for applications requiring expressive and natural human-avatar interaction. However, most existing emotion-aware methods rely on a single modality (either audio or image) for emotion embedding, limiting their ability to capture nuanced affective cues. Additionally, most methods condition on a single reference image, restricting the model’s ability to represent dynamic changes in actions or attributes across time. To address these issues, we introduce SynchroRaMa, a novel framework that integrates a multi-modal emotion embedding by combining emotional signals from text (via sentiment analysis) and audio (via speech-based emotion recognition and audio-derived valence-arousal features), enabling the generation of talking face videos with richer and more authentic emotional expressiveness and fidelity. To ensure natural head motion and accurate lip synchronization, SynchroRaMa includes an audio-to-motion (A2M) module that generates motion frames aligned with the input audio. Finally, SynchroRaMa incorporates scene descriptions generated by Large Language Model (LLM) as additional textual input, enabling it to capture dynamic actions and high-level semantic attributes. Conditioning the model on both visual and textual cues enhances temporal consistency and visual realism. Quantitative and qualitative experiments on benchmark datasets demonstrate that SynchroRaMa outperforms the state-of-the-art, achieving improvements in image quality, expression preservation, and motion realism. A user study further confirms that SynchroRaMa achieves higher subjective ratings than competing methods in overall naturalness, motion diversity, and video smoothness. Our project page is available at https://novicemm.github.io/synchrorama.

音频驱动的对话面部生成技术日益受到关注,特别是在需要表达自然的人形互动应用中。然而,大多数现有的情感感知方法依赖于单一模态(音频或图像)进行情感嵌入,这限制了它们捕捉微妙情感线索的能力。此外,大多数方法以一个单一的参考图像为条件,限制了模型在时间上表现动态动作或属性变化的能力。为了解决这些问题,我们引入了SynchroRaMa,这是一个结合多模态情感嵌入的新框架,它通过结合文本中的情感信号(通过情感分析)和音频中的情感信号(通过语音情感识别和音频衍生的效价激活特征),使生成的对话面部视频具有更丰富、更真实的情感表达和情感忠实度。为确保自然的头部运动和准确的唇部同步,SynchroRaMa包括一个音频到运动(A2M)模块,该模块生成与输入音频对齐的运动帧。最后,SynchroRaMa还结合了大型语言模型(LLM)生成的场景描述作为额外的文本输入,使其能够捕捉动态动作和高级语义属性。以视觉和文本线索为条件的模型增强了时间一致性和视觉真实性。在基准数据集上的定量和定性实验表明,SynchroRaMa优于最新技术,在图像质量、表情保留和运动现实性方面取得了改进。用户研究进一步证实,在整体自然性、运动多样性和视频平滑度方面,SynchroRaMa的主观评分高于其他方法。我们的项目页面可访问于https://novicemm.github.io/synchrorama

论文及项目相关链接

PDF Accepted at WACV 2026, project page : https://novicemm.github.io/synchrorama

Summary

本文介绍了音频驱动的人脸动画生成技术的新进展。针对现有技术存在的问题,如单一模态的情感嵌入和缺乏动态动作表示,提出了名为SynchroRaMa的新框架。该框架结合了文本和音频的多模态情感嵌入,通过情感分析和语音情感识别等技术提取情感信号,并引入了音频到运动的模块确保自然的头部运动和准确的唇部同步。此外,SynchroRaMa还利用大型语言模型生成场景描述作为额外的文本输入,提高了模型的动态动作捕捉能力。实验结果证明,SynchroRaMa在图像质量、表情保持和运动真实感方面优于现有技术,用户研究也证实了其在整体自然性、运动多样性和视频平滑度方面的优势。

Key Takeaways

  1. 音频驱动的人脸动画生成技术日益受到关注,特别是在需要表达和情感交互的应用中。
  2. 现有方法主要依赖单一模态(音频或图像)进行情感嵌入,限制了其对细微情感线索的捕捉能力。
  3. SynchroRaMa框架结合了文本和音频的多模态情感嵌入,通过情感分析和语音情感识别等技术提取情感信号。
  4. SynchroRaMa引入了音频到运动的模块,确保自然的头部运动和准确的唇部同步。
  5. 大型语言模型生成的场景描述作为额外的文本输入,增强了模型捕捉动态动作的能力。
  6. 实验结果表明,SynchroRaMa在图像质量、表情保持和运动真实感方面超越了现有技术。
  7. 用户研究证实了SynchroRaMa在整体自然性、运动多样性和视频平滑度方面的优势。

Cool Papers

点此查看论文截图

Talking Head Generation via AU-Guided Landmark Prediction

Authors:Shao-Yu Chang, Jingyi Xu, Hieu Le, Dimitris Samaras

We propose a two-stage framework for audio-driven talking head generation with fine-grained expression control via facial Action Units (AUs). Unlike prior methods relying on emotion labels or implicit AU conditioning, our model explicitly maps AUs to 2D facial landmarks, enabling physically grounded, per-frame expression control. In the first stage, a variational motion generator predicts temporally coherent landmark sequences from audio and AU intensities. In the second stage, a diffusion-based synthesizer generates realistic, lip-synced videos conditioned on these landmarks and a reference image. This separation of motion and appearance improves expression accuracy, temporal stability, and visual realism. Experiments on the MEAD dataset show that our method outperforms state-of-the-art baselines across multiple metrics, demonstrating the effectiveness of explicit AU-to-landmark modeling for expressive talking head generation.

我们提出了一种两阶段的音频驱动说话人头部生成框架,通过面部动作单元(AUs)进行精细的表情控制。不同于以往依赖情感标签或隐式AU条件的方法,我们的模型将AUs明确映射到2D面部特征点,实现了基于物理的逐帧表情控制。在第一阶段,变异运动生成器根据音频和AU强度预测时间连贯的特征点序列。在第二阶段,基于扩散的合成器根据这些特征点和参考图像生成现实、同步的唇视频。运动和外观的分离提高了表情的准确性、时间稳定性和视觉真实性。在MEAD数据集上的实验表明,我们的方法在多个指标上优于最先进的基础模型,证明了显式AU到特征点建模在表情丰富的说话人头部生成中的有效性。

论文及项目相关链接

PDF

Summary
该研究提出一个两阶段的音频驱动说话人头部生成框架,通过面部动作单元(AUs)进行精细表情控制。该研究不同于依赖情感标签或隐性AU条件的方法,显式地将AUs映射到2D面部特征点,实现物理基础、逐帧的表情控制。第一阶段,变异运动生成器从音频和AU强度预测时间连贯的特征点序列。第二阶段,基于扩散的合成器根据这些特征点和参考图像生成真实、唇同步的视频。这种运动和外观的分离提高了表情的准确性、时间稳定性和视觉真实性。在MEAD数据集上的实验表明,该方法在多个指标上优于最新基线,证明了显式AU-to-landmark建模在表情说话人头部生成中的有效性。

Key Takeaways

  1. 该研究采用两阶段框架进行音频驱动的说话头部生成。
  2. 通过面部动作单元(AUs)实现精细表情控制。
  3. 显式地将AUs映射到2D面部特征点,实现物理基础、逐帧的表情控制。
  4. 变异运动生成器从音频和AU强度预测时间连贯的特征点序列。
  5. 基于扩散的合成器根据特征点和参考图像生成真实、唇同步的视频。
  6. 分离运动和外观,提高表情准确性、时间稳定性和视觉真实性。

Cool Papers

点此查看论文截图

Audio-Driven Universal Gaussian Head Avatars

Authors:Kartik Teotia, Helge Rhodin, Mohit Mendiratta, Hyeongwoo Kim, Marc Habermann, Christian Theobalt

We introduce the first method for audio-driven universal photorealistic avatar synthesis, combining a person-agnostic speech model with our novel Universal Head Avatar Prior (UHAP). UHAP is trained on cross-identity multi-view videos. In particular, our UHAP is supervised with neutral scan data, enabling it to capture the identity-specific details at high fidelity. In contrast to previous approaches, which predominantly map audio features to geometric deformations only while ignoring audio-dependent appearance variations, our universal speech model directly maps raw audio inputs into the UHAP latent expression space. This expression space inherently encodes, both, geometric and appearance variations. For efficient personalization to new subjects, we employ a monocular encoder, which enables lightweight regression of dynamic expression variations across video frames. By accounting for these expression-dependent changes, it enables the subsequent model fine-tuning stage to focus exclusively on capturing the subject’s global appearance and geometry. Decoding these audio-driven expression codes via UHAP generates highly realistic avatars with precise lip synchronization and nuanced expressive details, such as eyebrow movement, gaze shifts, and realistic mouth interior appearance as well as motion. Extensive evaluations demonstrate that our method is not only the first generalizable audio-driven avatar model that can account for detailed appearance modeling and rendering, but it also outperforms competing (geometry-only) methods across metrics measuring lip-sync accuracy, quantitative image quality, and perceptual realism.

我们介绍了第一种音频驱动通用写实头像合成的方法,该方法将人物无关的语音模型与我们的新型通用头像先验值(UHAP)相结合。UHAP经过跨身份多视角视频的训练。特别的是,我们的UHAP受到中性扫描数据的监督,从而能够以高保真度捕获身份特定的细节。与之前的方法相比,我们主要将音频特征映射到几何变形上,而忽视音频相关的外观变化,而我们的通用语音模型直接将原始音频输入映射到UHAP潜在表达空间中。该表达空间本质上编码了几何和外观变化。为了实现高效的新主题个性化,我们采用单目编码器,它可以在视频帧之间进行动态表情变化的轻量级回归。考虑到这些表情相关的变化,它使随后的模型微调阶段能够专注于捕捉主题的总体外观和几何结构。通过UHAP解码这些音频驱动的表情代码,生成高度逼真的头像,具有精确的唇部同步和微妙的表情细节,如眉毛动作、眼神变化和真实的嘴唇内部外观以及运动。大量评估表明,我们的方法不仅是首个可以兼顾详细外观建模和渲染的通用音频驱动头像模型,而且在衡量唇部同步准确性、图像质量和感知真实性的指标上,也优于仅基于几何的竞争对手方法。

论文及项目相关链接

PDF (SIGGRAPH Asia 2025) Project page: https://kartik-teotia.github.io/UniGAHA/

Summary

本文介绍了一种结合通用头部化身先验(UHAP)和人物无关的语音模型的音频驱动通用逼真化身合成方法。UHAP通过跨身份多视角视频进行训练,并能从中性扫描数据中提取身份特定细节,实现高保真捕捉。该方法直接将原始音频输入映射到UHAP潜在表达空间,同时编码几何和外观变化。为了实现对新主体的有效个性化,采用单目编码器,可在视频帧之间实现动态表达变化的轻量级回归。通过考虑这些表达相关的变化,使后续模型微调阶段能够专注于捕捉主体的全局外观和几何特征。通过UHAP解码这些音频驱动的表达式代码,生成高度逼真的化身,具有精确的唇部同步和微妙的表情细节,如眉毛动作、目光转移以及逼真的口腔内部外观和运动。

Key Takeaways

  1. 介绍了结合通用头部化身先验(UHAP)和人物无关语音模型的音频驱动通用逼真化身合成方法。
  2. UHAP通过跨身份多视角视频训练,并能从中性扫描数据中提取高保真身份特定细节。
  3. 方法直接将原始音频输入映射到UHAP潜在表达空间,同时编码几何和外观变化。
  4. 采用单目编码器实现动态表达变化的轻量级回归,为后续模型微调阶段提供基础。
  5. 解码音频驱动的表达式代码生成高度逼真的化身,具有精确的唇部同步和微妙的表情细节。
  6. 该方法是首个可泛化的音频驱动化身模型,能够建模和渲染详细的外观。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
R1_Reasoning R1_Reasoning
R1_Reasoning 方向最新论文已更新,请持续关注 Update in 2025-09-28 SciReasoner Laying the Scientific Reasoning Ground Across Disciplines
2025-09-28
下一篇 
Interactive Interactive
Interactive 方向最新论文已更新,请持续关注 Update in 2025-09-24 DA-Mamba Dialogue-aware selective state-space model for multimodal engagement estimation
2025-09-24
  目录