⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2024-12-21 更新
EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues
Authors:Sagar Soni, Akshay Dudhane, Hiyam Debary, Mustansar Fiaz, Muhammad Akhtar Munir, Muhammad Sohail Danish, Paolo Fraccaro, Campbell D Watson, Levente J Klein, Fahad Shahbaz Khan, Salman Khan
Automated analysis of vast Earth observation data via interactive Vision-Language Models (VLMs) can unlock new opportunities for environmental monitoring, disaster response, and resource management. Existing generic VLMs do not perform well on Remote Sensing data, while the recent Geo-spatial VLMs remain restricted to a fixed resolution and few sensor modalities. In this paper, we introduce EarthDial, a conversational assistant specifically designed for Earth Observation (EO) data, transforming complex, multi-sensory Earth observations into interactive, natural language dialogues. EarthDial supports multi-spectral, multi-temporal, and multi-resolution imagery, enabling a wide range of remote sensing tasks, including classification, detection, captioning, question answering, visual reasoning, and visual grounding. To achieve this, we introduce an extensive instruction tuning dataset comprising over 11.11M instruction pairs covering RGB, Synthetic Aperture Radar (SAR), and multispectral modalities such as Near-Infrared (NIR) and infrared. Furthermore, EarthDial handles bi-temporal and multi-temporal sequence analysis for applications like change detection. Our extensive experimental results on 37 downstream applications demonstrate that EarthDial outperforms existing generic and domain-specific models, achieving better generalization across various EO tasks.
通过交互式的视觉语言模型(VLMs)对大量的地球观测数据进行自动化分析,可以为环境监测、灾害响应和资源管理解锁新的机会。现有的通用VLMs在遥感数据上的表现并不理想,而最近的地理空间VLMs仍然局限于固定的分辨率和少量的传感器模式。在本文中,我们介绍了EarthDial,这是一款专门为地球观测(EO)数据设计的对话助手,将复杂的、多感官的地球观测转化为交互式的自然语言对话。EarthDial支持多光谱、多时相和多分辨率的图像,能够完成广泛的遥感任务,包括分类、检测、描述、问答、视觉推理和视觉定位。为了实现这一点,我们引入了一个包含超过1111万个指令对的庞大指令调整数据集,涵盖RGB、合成孔径雷达(SAR)和多光谱模式,如近红外(NIR)和红外。此外,EarthDial还处理双时相和多时相序列分析,用于变化检测等应用。我们在37个下游应用上的广泛实验结果表明,EarthDial优于现有的通用和专用模型,在各种EO任务中实现了更好的泛化能力。
论文及项目相关链接
Summary
本文介绍了通过交互式视觉语言模型(VLMs)对海量的地球观测数据进行自动化分析,为环境监测、灾害响应和资源管理带来新的机遇。针对现有通用VLMs在遥感数据上的表现不佳以及地理空间VLMs分辨率固定、传感器模式有限的问题,文章提出了EarthDial这一专为地球观测(EO)数据设计的对话助理。EarthDial可将复杂的、多感官的地球观测数据转化为互动式自然语言对话,支持多光谱、多时相、多分辨率的影像,实现包括分类、检测、描述、问答、视觉推理和视觉定位等一系列遥感任务。为实现这一目标,研究团队构建了一个包含超过111万条指令对的大型指令调整数据集,涵盖RGB、合成孔径雷达(SAR)、近红外(NIR)和红外等多光谱模式。此外,EarthDial还进行了双时序和多时序序列分析,用于变化检测等应用。在37个下游应用上的广泛实验结果表明,EarthDial在多种地球观测任务上优于现有通用和特定领域模型,具有良好的泛化能力。
Key Takeaways
- 地球观测数据的自动化分析通过交互式视觉语言模型(VLMs)具有巨大的潜力,有助于环境监测、灾害响应和资源管理。
- 现有的通用VLMs在遥感数据上的表现不佳,需要专为地球观测数据设计的模型。
- EarthDial是一个专为地球观测(EO)数据设计的对话助理,能将复杂的地球观测数据转化为自然语言对话。
- EarthDial支持多光谱、多时相、多分辨率的影像处理,适用于多种遥感任务。
- EarthDial的构建依赖于包含多种模式和任务的大型指令调整数据集。
- EarthDial能进行双时序和多时序序列分析,适用于变化检测等应用。
点此查看论文截图
Simulation-Free Hierarchical Latent Policy Planning for Proactive Dialogues
Authors:Tao He, Lizi Liao, Yixin Cao, Yuanxing Liu, Yiheng Sun, Zerui Chen, Ming Liu, Bing Qin
Recent advancements in proactive dialogues have garnered significant attention, particularly for more complex objectives (e.g. emotion support and persuasion). Unlike traditional task-oriented dialogues, proactive dialogues demand advanced policy planning and adaptability, requiring rich scenarios and comprehensive policy repositories to develop such systems. However, existing approaches tend to rely on Large Language Models (LLMs) for user simulation and online learning, leading to biases that diverge from realistic scenarios and result in suboptimal efficiency. Moreover, these methods depend on manually defined, context-independent, coarse-grained policies, which not only incur high expert costs but also raise concerns regarding their completeness. In our work, we highlight the potential for automatically discovering policies directly from raw, real-world dialogue records. To this end, we introduce a novel dialogue policy planning framework, LDPP. It fully automates the process from mining policies in dialogue records to learning policy planning. Specifically, we employ a variant of the Variational Autoencoder to discover fine-grained policies represented as latent vectors. After automatically annotating the data with these latent policy labels, we propose an Offline Hierarchical Reinforcement Learning (RL) algorithm in the latent space to develop effective policy planning capabilities. Our experiments demonstrate that LDPP outperforms existing methods on two proactive scenarios, even surpassing ChatGPT with only a 1.8-billion-parameter LLM.
近期主动对话技术的进展已引起广泛关注,尤其是在面对更复杂目标(如情感支持和劝说)时。与传统的任务导向型对话不同,主动对话需要高级的策略规划和适应能力,需要丰富的场景和全面的策略存储库来开发此类系统。然而,现有方法往往依赖大型语言模型(LLM)进行用户模拟和在线学习,导致与现实场景相偏离的偏见,以及效率不佳的问题。此外,这些方法依赖于手动定义、独立于上下文、粗略的策略,这不仅增加了专家成本,还引发了对其完整性的担忧。在我们的工作中,我们强调了直接从原始、真实世界的对话记录中自动发现策略的潜力。为此,我们引入了一种新型对话策略规划框架LDPP。它全自动完成从对话记录中挖掘策略到学习策略规划的过程。具体来说,我们采用变分自编码器的一种变体来发现表现为潜在向量的精细策略。在自动用这些潜在策略标签注释数据后,我们在潜在空间中提出了一种离线分层强化学习算法,以开发有效的策略规划能力。我们的实验表明,LDPP在两种主动场景中的表现优于现有方法,甚至超越了只有18亿参数的大型语言模型ChatGPT。
论文及项目相关链接
PDF 24 pages, 5 fgiures, AAAI 2025
Summary
主动对话技术的最新进展已引起广泛关注,特别是在实现更复杂的任务目标(如情感支持和劝说)方面。与传统任务导向的对话不同,主动对话需要高级策略规划和适应性,需要丰富的场景和全面的策略库来开发此类系统。然而,现有方法往往依赖大型语言模型(LLM)进行用户模拟和在线学习,导致偏离现实场景的偏见和效率不佳。本文提出了一种新型对话策略规划框架LDPP,可自动从原始真实对话记录中发现策略并学习规划策略。通过采用变分自编码器的一种变体来发现以潜在向量形式呈现的策略细节,并利用这些潜在策略标签自动标注数据,我们提出了一种离线分层强化学习算法来开发有效的策略规划能力。实验证明,LDPP在两种主动场景中的表现优于现有方法,甚至超越了只有1.8亿参数的语言模型ChatGPT。
Key Takeaways
- 主动对话技术正在引起关注,尤其在处理复杂任务目标时,如情感支持和劝说。
- 与传统任务导向的对话不同,主动对话需要高级策略规划和适应性。
- 现有方法存在偏见和对现实场景的偏离问题,效率不高。
- 依赖大型语言模型(LLM)和在线学习方法存在问题。
- LDPP框架可以自动从真实对话记录中发现策略并学习规划策略。
- LDPP采用变分自编码器来发现潜在向量形式的策略细节。
点此查看论文截图
DialSim: A Real-Time Simulator for Evaluating Long-Term Multi-Party Dialogue Understanding of Conversational Agents
Authors:Jiho Kim, Woosog Chay, Hyeonji Hwang, Daeun Kyung, Hyunseung Chung, Eunbyeol Cho, Yohan Jo, Edward Choi
Recent advancements in Large Language Models (LLMs) have significantly enhanced the capabilities of conversational agents, making them applicable to various fields (e.g., education). Despite their progress, the evaluation of the agents often overlooks the complexities of real-world conversations, such as real-time interactions, multi-party dialogues, and extended contextual dependencies. To bridge this gap, we introduce DialSim, a real-time dialogue simulator. In this simulator, an agent is assigned the role of a character from popular TV shows, requiring it to respond to spontaneous questions using past dialogue information and to distinguish between known and unknown information. Key features of DialSim include assessing the agent’s ability to respond within a reasonable time limit, handling long-term multi-party dialogues, and evaluating performance under randomized questioning with LongDialQA, a novel, high-quality question-answering dataset. Our experiments using DialSim reveal the strengths and weaknesses of the latest conversational agents, offering valuable insights for future advancements in conversational AI. DialSim is available at https://dialsim.github.io/.
最近大型语言模型(LLM)的进步显著增强了对话代理的能力,使其适用于各个领域(例如教育)。尽管取得了进展,但对代理的评估往往忽略了现实世界中对话的复杂性,如实时互动、多方对话和扩展的上下文依赖关系。为了弥补这一差距,我们引入了DialSim,一个实时对话模拟器。在这个模拟器中,代理被分配流行电视剧中的角色,要求它使用过去的对话信息回答随机出现的问题,并区分已知和未知信息。DialSim的关键功能包括评估代理在合理时间限制内做出响应的能力,处理长期多方对话,以及使用LongDialQA这一新型高质量问答数据集在随机提问下评估性能。我们使用DialSim进行的实验揭示了最新对话代理的优势和劣势,为对话AI的未来进步提供了宝贵的见解。DialSim可在https://dialsim.github.io/访问。
论文及项目相关链接
Summary
大型语言模型(LLM)的最新进展极大地增强了对话式代理的能力,使其适用于多个领域(如教育)。然而,在评估这些对话式代理时,常常忽略了现实世界中对话的复杂性,如实时互动、多方对话和扩展的上下文依赖关系。为了弥补这一差距,我们推出了DialSim实时对话模拟器。在此模拟器中,代理被设定为流行电视剧中的角色,要求它能够根据过去的对话信息对突发问题作出回应,并区分已知和未知信息。DialSim的关键功能包括评估代理在合理时间限制内作出回应的能力、处理长期多方对话的能力,以及利用LongDialQA这一新型高质量问答数据集在随机提问下评估表现的能力。使用DialSim进行的实验揭示了最新对话式代理的优缺点,为今后的对话式人工智能发展提供了宝贵的见解。DialSim可在[https://dialsim.github.io/]上获取。
Key Takeaways
- 大型语言模型的进步增强了对话式代理的能力,推动了其在各领域的应用。
- 现有对话式代理评估忽略了现实世界对话的复杂性,如实时互动和上下文依赖关系。
- DialSim模拟器的推出旨在填补这一差距,要求代理在模拟的情境中表现更为真实。
- DialSim的关键功能包括评估代理的实时反应能力、处理多方对话的能力以及应对随机问题的能力。
- 使用DialSim进行的实验揭示了对话式代理的优缺点,为改进提供了方向。
- LongDialQA数据集是评估对话式代理表现的重要工具。