嘘~ 正在从服务器偷取页面 . . .

Interactive


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-10-21 更新

Self-evolving expertise in complex non-verifiable subject domains: dialogue as implicit meta-RL

Authors:Richard M. Bailey

So-called wicked problems', those involving complex multi-dimensional settings, non-verifiable outcomes, heterogeneous impacts and a lack of single objectively correct answers, have plagued humans throughout history. Modern examples include decisions over justice frameworks, solving environmental pollution, planning for pandemic resilience and food security. The use of state-of-the-art artificial intelligence systems (notably Large Language Model-based agents) collaborating with humans on solving such problems is being actively explored. While the abilities of LLMs can be improved by, for example, fine-tuning, hand-crafted system prompts and scaffolding with external tools, LLMs lack endogenous mechanisms to develop expertise through experience in such settings. This work address this gap with Dialectica, a framework where agents engage in structured dialogue on defined topics, augmented by memory, self-reflection, and policy-constrained context editing. Formally, discussion is viewed as an implicit meta-reinforcement learning process. The dialogue-trained’ agents are evaluated post-hoc using judged pairwise comparisons of elicited responses. Across two model architectures (locally run Qwen3:30b and OpenAI’s o4-mini) results show that enabling reflection-based context editing during discussion produces agents which dominate their baseline counterparts on Elo scores, normalized Bradley-Terry-Davidson ability, and AlphaRank mass. The predicted signatures of learning are observed qualitatively in statement and reflection logs, where reflections identify weaknesses and reliably shape subsequent statements. Agreement between quantitative and qualitative evidence supports dialogue-driven context evolution as a practical path to targeted expertise amplification in open non-verifiable domains.

所谓“棘手问题”,是指涉及复杂多维环境、不可验证的结果、多样化的影响以及没有单一客观正确答案的问题,这些问题在历史上一直困扰着人类。现代例子包括正义框架的决策、解决环境污染、规划疫情应对和粮食安全等。目前正积极探索使用最新的人工智能系统(尤其是基于大型语言模型的智能体)与人类合作解决这些问题。虽然可以通过微调、手工定制的系统提示和外部工具支持的脚手架来提高大型语言模型的能力,但大型语言模型在这种环境中缺乏通过经验发展专业技能的内生机制。这项研究通过Dialectica框架来解决这一问题,该框架让智能体参与定义主题的结构化对话,辅以记忆、自我反思和政策约束的上下文编辑。正式来说,讨论被视为一种隐式的元强化学习过程。通过事后对激发的响应进行评判的成对比较来评估“对话训练”智能体的表现。在两个模型架构(本地运行的Qwen3:30b和OpenAI的o4-mini)的结果显示,在讨论过程中启用基于反思的上下文编辑产生的智能体在Elo得分、标准化的Bradley-Terry-Davidson能力和AlphaRank质量方面优于基线智能体。学习和预测的签名在陈述和反思日志中进行了定性观察,反思能够识别出弱点并可靠地影响随后的陈述。定量和定性证据之间的协议支持对话驱动上下文演变是在开放的非可验证领域中实现目标专业知识放大的实用途径。

论文及项目相关链接

PDF 50 pages, 4 figures

Summary
针对所谓的“棘手的难题”,例如涉及复杂多维环境、无法验证的结果、异质影响和没有单一客观正确答案的问题,现代如正义框架决策、解决环境污染、规划疫情复原力和食品安全等问题,正积极探索使用最新的人工智能系统(特别是基于大型语言模型的代理人)与人类合作解决这些问题。尽管可以通过微调、手工制作的系统提示和外部工具辅助等手段提高大型语言模型的能力,但这些模型缺乏在特定环境中通过经验发展专业知识的内生机制。这项工作通过Dialectica框架弥补了这一空白,代理人可以在该框架下进行结构化对话,涉及记忆、自我反思和政策约束的上下文编辑。正式地,讨论被视为一种隐式的元强化学习过程。经过评判的响应对比显示,“对话训练”的代理人在埃洛得分、标准化的Bradley-Terry-Davidson能力和AlphaRank质量方面表现出优势。预测的学习签名可以在陈述和反思日志中观察到,反思能够识别弱点并可靠地影响随后的陈述。定量和定性证据之间的共识支持对话驱动上下文进化作为在开放的非验证领域中实现有针对性的专业知识放大的实用途径。

Key Takeaways

  1. “Wicked problems”涉及复杂多维环境等特性,现代例子包括决策正义框架、环境污染等。
  2. 人工智能系统(特别是大型语言模型)在解决这些问题方面展现出潜力。
  3. 大型语言模型虽可通过微调等方法提升能力,但缺乏在特定环境下发展专业知识的内生机制。
  4. Dialectica框架通过结构化对话、记忆、自我反思和政策约束的上下文编辑来弥补这一空白。
  5. 讨论被视为一种隐式的元强化学习过程。
  6. “对话训练”的代理人在多种评价指标上表现出优势。

Cool Papers

点此查看论文截图

JEDA: Query-Free Clinical Order Search from Ambient Dialogues

Authors:Praphul Singh, Corey Barrett, Sumana Srivasta, Amitabh Saikia, Irfan Bulu, Sri Gadde, Krishnaram Kenthapadi

Clinical conversations mix explicit directives (order a chest X-ray) with implicit reasoning (the cough worsened overnight, we should check for pneumonia). Many systems rely on LLM rewriting, adding latency, instability, and opacity that hinder real-time ordering. We present JEDA (Joint Embedding for Direct and Ambient clinical orders), a domain-initialized bi-encoder that retrieves canonical orders directly and, in a query-free mode, encodes a short rolling window of ambient dialogue to trigger retrieval. Initialized from PubMedBERT and fine-tuned with a duplicate-safe contrastive objective, JEDA aligns heterogeneous expressions of intent to shared order concepts. Training uses constrained LLM guidance to tie each signed order to complementary formulations (command only, context only, command+context, context+reasoning), producing clearer inter-order separation, tighter query extendash order coupling, and stronger generalization. The query-free mode is noise-resilient, reducing sensitivity to disfluencies and ASR errors by conditioning on a short window rather than a single utterance. Deployed in practice, JEDA yields large gains and substantially outperforms its base encoder and recent open embedders (Linq Embed Mistral, SFR Embedding, GTE Qwen, BGE large, Embedding Gemma). The result is a fast, interpretable, LLM-free retrieval layer that links ambient context to actionable clinical orders in real time.

临床对话融合了明确的指令(如进行胸部X光片检查)与隐性的推理(如咳嗽情况一夜恶化,我们应检查是否有肺炎)。许多系统依赖于大型语言模型(LLM)进行重写,增加了延迟、不稳定性和不透明度,阻碍了实时订购功能。我们介绍了JEDA(用于直接和周围环境临床订单的联合嵌入),这是一种以领域初始化的双向编码器,可以直接检索规范订单,并在无查询模式下,对周围的短期对话窗口进行编码以触发检索功能。通过PubMedBERT进行初始化,并使用安全且无重复对比目标进行微调,JEDA将不同的意图表达与共享订单概念对齐。训练过程中使用受约束的大型语言模型指导,将每个已签署的订单与补充配方(仅命令、仅上下文、命令+上下文、上下文+推理)联系起来,产生更清晰的订单间分离、更紧密的查询扩展订单耦合以及更强的泛化能力。无查询模式是噪声抗干扰的,通过基于短期窗口而不是单个话语来适应条件,减少了对抗语病识别和语音识别错误的敏感性。在实际部署中,JEDA取得了巨大的进步,明显优于其基本编码器以及最近的公开嵌入器(如Linq Embed Mistral、SFR嵌入、GTE Qwen、BGE大型、Embedding Gemma)。结果是快速、可解释、无需大型语言模型的检索层,能够将周围环境上下文与实时可行的临床订单联系起来。

论文及项目相关链接

PDF

Summary
临床对话融合了明确的指令(如进行胸部X光检查)和隐性的推理(如咳嗽加重,应检查肺炎)。现有的系统依赖LLM改写,增加了延迟、不稳定性和模糊性,阻碍了实时订购。我们提出了JEDA(用于直接和周围临床订单的联合嵌入),这是一种域初始化双编码器,可直接检索规范订单,并在无查询模式下编码周围的短期对话窗口以触发检索。通过PubMedBERT进行初始化并使用具有重复安全对比目标的微调,JEDA将不同的意图表达与共享订单概念对齐。通过约束LLM指导进行培训,将每个已签署的订单与补充配方(仅命令、仅上下文、命令+上下文、上下文+推理)联系起来,产生更清晰的订单间分离、更紧密的查询扩展订单耦合和更强的泛化能力。无查询模式是噪声弹性的,通过以短期窗口为条件而不是单个陈述来减少对话失误和语音识别错误的敏感性。在实际部署中,JEDA产生了大量收益,并显著优于其基础编码器和最新的开放嵌入器。结果是快速、可解释的、无需LLM的检索层,实时将周围上下文与可操作的临床订单联系起来。

Key Takeaways

  1. JEDA是一个双编码器系统,用于处理临床对话中的直接和周围订单。
  2. JEDA通过融合明确的指令和隐性的推理,提高了临床对话的处理能力。
  3. 与依赖LLM改写的系统相比,JEDA具有更快的响应速度、更高的稳定性和更低的模糊性。
  4. JEDA通过无查询模式处理周围的短期对话窗口,增强了对噪音和失误的抵抗力。
  5. JEDA通过特定的训练方式,如约束LLM指导,提高了订单间分离、查询与订单的耦合以及系统的泛化能力。
  6. JEDA在实际部署中表现出显著的性能提升,优于其他基础编码器和开放嵌入器。

Cool Papers

点此查看论文截图

Do Audio LLMs Really LISTEN, or Just Transcribe? Measuring Lexical vs. Acoustic Emotion Cues Reliance

Authors:Jingyi Chen, Zhimeng Guo, Jiyun Chun, Pichao Wang, Andrew Perrault, Micha Elsner

Understanding emotion from speech requires sensitivity to both lexical and acoustic cues. However, it remains unclear whether large audio language models (LALMs) genuinely process acoustic information or rely primarily on lexical content. We present LISTEN (Lexical vs. Acoustic Speech Test for Emotion in Narratives), a controlled benchmark designed to disentangle lexical reliance from acoustic sensitivity in emotion understanding. Across evaluations of six state-of-the-art LALMs, we observe a consistent lexical dominance. Models predict “neutral” when lexical cues are neutral or absent, show limited gains under cue alignment, and fail to classify distinct emotions under cue conflict. In paralinguistic settings, performance approaches chance. These results indicate that current LALMs largely “transcribe” rather than “listen,” relying heavily on lexical semantics while underutilizing acoustic cues. LISTEN offers a principled framework for assessing emotion understanding in multimodal models.

从语音中理解情绪需要对词汇和声音线索都保持敏感。然而,尚不清楚大型音频语言模型(LALM)是否真的处理声音信息,还是主要依赖词汇内容。我们推出了LISTEN(用于叙事中情绪理解的词汇与声音演讲测试),这是一个受控基准测试,旨在从情感理解中解开词汇依赖和声音敏感性的纠缠。在对六种最先进LALM的评估中,我们观察到词汇占主导的现象普遍存在。当词汇线索是中立或缺失时,模型预测“中立”,在提示对齐的情况下收益有限,并在提示冲突的情况下无法区分不同的情绪。在副语言环境中,性能接近偶然水平。这些结果表明,当前的LALM大多“转录”而非“聆听”,它们严重依赖词汇语义,而未能充分利用声音线索。LISTEN为评估多模式模型中的情感理解提供了一个原则性的框架。

论文及项目相关链接

PDF

Summary

理解语音中的情感需要对词汇和声音线索都敏感。然而,尚不清楚大型音频语言模型(LALM)是否真的处理声音信息,还是主要依赖词汇内容。我们推出了LISTEN(针对叙事中情感的词汇与声音测试),这是一个受控基准测试,旨在解开情感理解中对词汇依赖与声音敏感性的纠缠。在对六种最先进的LALM的评估中,我们观察到词汇的一致性主导。当词汇线索为中性或缺失时,模型预测“中性”,在线索对齐的情况下收益有限,并在线索冲突的情况下无法区分不同的情感。在副语言环境中,性能接近机会水平。这些结果表明,当前的LALM大多是在“转录”而非“聆听”,它们高度依赖词汇语义,而未能充分利用声音线索。LISTEN提供了一个评估多模式模型中情感理解的框架。

Key Takeaways

  1. LISTEN是一个专为评估大型音频语言模型在情感理解方面而设计的受控基准测试。
  2. 当前的大型音频语言模型在情感识别上主要依赖词汇内容而非声音信息。
  3. 在词汇线索为中性或缺失的情况下,模型倾向于预测“中性”情感。
  4. 在存在词汇和声音线索冲突时,模型的性能受到影响,无法准确区分不同的情感状态。
  5. 在副语言环境中,模型性能明显下降,表明它们并不擅长在没有直接词汇线索的情况下识别情感。
  6. LISTEN的测试结果揭示了当前模型在处理声音信息时的局限性,它们更多地是“转录”而非真正地“聆听”。

Cool Papers

点此查看论文截图

When AI Gets Persuaded, Humans Follow: Inducing the Conformity Effect in Persuasive Dialogue

Authors:Rikuo Sasaki, Michimasa Inaba

Recent advancements in AI have highlighted its application in captology, the field of using computers as persuasive technologies. We hypothesized that the “conformity effect,” where individuals align with others’ actions, also occurs with AI agents. This study verifies this hypothesis by introducing a “Persuadee Agent” that is persuaded alongside a human participant in a three-party persuasive dialogue with a Persuader Agent. We conducted a text-based dialogue experiment with human participants. We compared four conditions manipulating the Persuadee Agent’s behavior (persuasion acceptance vs. non-acceptance) and the presence of an icebreaker session. Results showed that when the Persuadee Agent accepted persuasion, both perceived persuasiveness and actual attitude change significantly improved. Attitude change was greatest when an icebreaker was also used, whereas an unpersuaded AI agent suppressed attitude change. Additionally, it was confirmed that the persuasion acceptance of participants increased at the moment the Persuadee Agent was persuaded. These results suggest that appropriately designing a Persuadee Agent can improve persuasion through the conformity effect.

近年来,人工智能的进步突显了其在计算机作为说服技术领域的广泛应用,即“捕诉学”(captology)。我们假设“遵从效应”,即个人与他人行为保持一致的现象,也在人工智能代理中发生。本研究通过引入一个“被说服者代理”(Persuadee Agent),该代理在与人类参与者进行三方说服对话时接受说服,从而验证了这一假设。对话中还包括一个说服者代理。我们进行了基于文本对话的实验,参与者是人类。我们比较了四种条件下操纵被说服者代理的行为(接受说服与非接受说服)以及破冰对话的存在与否。结果表明,当被说服者代理接受说服时,感知的说服力和实际态度变化均显著改善。当同时使用破冰对话时,态度变化最大,而未受到说服的人工智能代理则抑制了态度变化。此外,还证实了在被说服者代理被说服的那一刻,参与者的说服力得到了提升。这些结果表明,适当设计被说服者代理可以通过遵从效应提高说服力。

论文及项目相关链接

PDF 23 pages, 19 figures. International Conference on Human-Agent Interaction (HAI 2025), November 10-13, 2025, Yokohama, Japan

总结

AI在说服学领域的应用逐渐成为研究热点,近期研究显示,人类行为中的“顺从效应”(即个体模仿他人行为)同样存在于AI代理中。本研究通过引入一个名为“Persuadee Agent”的AI代理进行验证,该代理在与人类参与者及另一个说服者代理的三方对话中被说服。实验结果显示,当Persuadee Agent接受说服时,感知到的说服力和实际态度变化显著提高。冰裂会话(icebreaker)的使用进一步增强了态度变化。相反,未接受说服的AI代理会抑制态度变化。因此,恰当设计AI代理可提高说服效率,并体现顺从效应。

关键见解

  1. AI在说服学领域的应用已成为研究焦点。
  2. “顺从效应”不仅存在于人类行为中,也存在于AI代理中。
  3. 本研究通过引入名为“Persuadee Agent”的AI代理进行说服效果验证。
  4. 当AI代理接受说服时,感知到的说服力和实际态度变化显著提高。
  5. 冰裂会话(icebreaker)的使用能进一步促进态度变化。
  6. 未接受说服的AI代理会抑制人类参与者的态度变化。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
Text-to-Motion Text-to-Motion
Text-to-Motion 方向最新论文已更新,请持续关注 Update in 2025-10-21 MotionScript Natural Language Descriptions for Expressive 3D Human Motions
2025-10-21
下一篇 
TTS TTS
TTS 方向最新论文已更新,请持续关注 Update in 2025-10-21 MRSAudio A Large-Scale Multimodal Recorded Spatial Audio Dataset with Refined Annotations
2025-10-21
  目录