⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-02-28 更新
Talking to the brain: Using Large Language Models as Proxies to Model Brain Semantic Representation
Authors:Xin Liu, Ziyue Zhang, Jingxin Nie
Traditional psychological experiments utilizing naturalistic stimuli face challenges in manual annotation and ecological validity. To address this, we introduce a novel paradigm leveraging multimodal large language models (LLMs) as proxies to extract rich semantic information from naturalistic images through a Visual Question Answering (VQA) strategy for analyzing human visual semantic representation. LLM-derived representations successfully predict established neural activity patterns measured by fMRI (e.g., faces, buildings), validating its feasibility and revealing hierarchical semantic organization across cortical regions. A brain semantic network constructed from LLM-derived representations identifies meaningful clusters reflecting functional and contextual associations. This innovative methodology offers a powerful solution for investigating brain semantic organization with naturalistic stimuli, overcoming limitations of traditional annotation methods and paving the way for more ecologically valid explorations of human cognition.
采用自然刺激的传统心理实验面临着手动标注和生态效度方面的挑战。为解决这一问题,我们引入了一种新的方法,利用多模态大型语言模型(LLM)作为代理,通过视觉问答(VQA)策略从自然图像中提取丰富的语义信息,以分析人类视觉语义表征。LLM衍生的表示成功预测了通过fMRI测量的既定神经活动模式(例如面孔、建筑物),验证了其可行性,并揭示了皮层区域之间的分层语义组织。由LLM衍生表示构建的大脑语义网络能够识别出反映功能和上下文关联的有意义的集群。这一创新方法为解决使用自然刺激研究大脑语义组织提供了强大的解决方案,克服了传统标注方法的局限性,为更生态有效的探索人类认知铺平了道路。
论文及项目相关链接
PDF 20 pages, 6 figures
Summary
基于传统心理实验面临的挑战,如手动标注和生态效度问题,本研究提出了一种新的方法。该方法利用多模态大型语言模型(LLMs)作为代理,通过视觉问答(VQA)策略从自然图像中提取丰富的语义信息,用于分析人类视觉语义表征。基于LLM的表征成功预测了功能性磁共振成像(fMRI)测量的神经活动模式,验证了其可行性并揭示了皮层区域的层次语义结构。由LLM衍生表征构建的脑语义网络能够识别出反映功能和上下文关联的有意义集群。这一创新方法为解决使用自然刺激研究脑语义组织提供了有力解决方案,克服了传统标注方法的局限性,为更生态有效的探索人类认知铺平了道路。
Key Takeaways
- 利用多模态大型语言模型(LLMs)作为代理提取自然图像中的丰富语义信息。
- 通过视觉问答(VQA)策略分析人类视觉语义表征。
- LLM-derived representations成功预测了功能性磁共振成像(fMRI)测量的神经活动模式。
- 验证了该方法的可行性并揭示了皮层区域的层次语义结构。
- 利用LLM衍生表征构建了脑语义网络,能够识别出反映功能和上下文关联的有意义集群。
- 该方法克服了传统心理实验中的手动标注和生态效度问题。
点此查看论文截图


What Is That Talk About? A Video-to-Text Summarization Dataset for Scientific Presentations
Authors:Dongqi Liu, Chenxi Whitehouse, Xi Yu, Louis Mahon, Rohit Saxena, Zheng Zhao, Yifu Qiu, Mirella Lapata, Vera Demberg
Transforming recorded videos into concise and accurate textual summaries is a growing challenge in multimodal learning. This paper introduces VISTA, a dataset specifically designed for video-to-text summarization in scientific domains. VISTA contains 18,599 recorded AI conference presentations paired with their corresponding paper abstracts. We benchmark the performance of state-of-the-art large models and apply a plan-based framework to better capture the structured nature of abstracts. Both human and automated evaluations confirm that explicit planning enhances summary quality and factual consistency. However, a considerable gap remains between models and human performance, highlighting the challenges of scientific video summarization.
将录制视频转化为简洁准确的文本摘要,是多模态学习中的一项日益增长的挑战。本文介绍了专门用于科学领域视频到文本摘要的数据集VISTA。VISTA包含18599个AI会议录制的演讲与其对应的论文摘要配对。我们对最新最先进的模型性能进行了评估,并采用基于计划的框架来更好地捕捉摘要的结构化特点。人类和自动化评估都证实,明确的计划可以提高摘要的质量和事实一致性。然而,模型与人类性能之间仍存在较大差距,突出了科学视频摘要所面临的挑战。
论文及项目相关链接
Summary:
本文介绍了一个用于视频到文本摘要的特定数据集VISTA,其包含18,599个AI会议演讲的视频和对应的论文摘要。文章还探讨了使用先进的模型和计划框架进行视频摘要的挑战和解决方案,指出计划可以增强摘要的质量和事实一致性。然而,模型与人类性能之间仍存在差距,凸显了科学视频摘要化的挑战。
Key Takeaways:
- VISTA数据集是专为视频到文本摘要挑战而设计的,包含AI会议演讲的视频和对应的论文摘要。
- 现有模型在视频摘要性能上存在局限性。
- 采用计划框架能更好地捕捉摘要的结构性质。
- 明确计划可以增强摘要的质量和事实一致性。
- 模型与人类在视频摘要方面的性能仍存在显著差距。
- 科学视频摘要化具有挑战性。
点此查看论文截图





