嘘~ 正在从服务器偷取页面 . . .

Interactive


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-06-28 更新

Aligning Spoken Dialogue Models from User Interactions

Authors:Anne Wu, Laurent Mazaré, Neil Zeghidour, Alexandre Défossez

We propose a novel preference alignment framework for improving spoken dialogue models on real-time conversations from user interactions. Current preference learning methods primarily focus on text-based language models, and are not directly suited to the complexities of real-time speech interactions, with richer dynamics (e.g. interruption, interjection) and no explicit segmentation between speaker turns.We create a large-scale dataset of more than 150,000 preference pairs from raw multi-turn speech conversations, annotated with AI feedback, to cover preferences over both linguistic content and temporal context variations. We leverage offline alignment methods to finetune a full-duplex autoregressive speech-to-speech model. Extensive experiments demonstrate that feedback on generic conversations can be consistently effective in improving spoken dialogue models to produce more factual, safer and more contextually aligned interactions. We deploy the finetuned model and conduct holistic human evaluations to assess the impact beyond single-turn conversations. Our findings shed light on the importance of a well-calibrated balance among various dynamics, crucial for natural real-time speech dialogue systems.

我们提出了一种新型偏好对齐框架,旨在改善用户交互中的实时对话语音模型。当前偏好学习方法主要关注基于文本的语言模型,并不直接适用于实时语音交互的复杂性,后者具有更丰富的动态性(如中断、插话),说话者之间也没有明确的分割。我们创建了大规模的偏好对数据集,包含超过15万对话回合的原始语音对话,并用AI反馈进行标注,以覆盖语言内容和时间上下文变化的偏好。我们利用离线对齐方法对双向自动回归语音转语音模型进行微调。大量实验表明,在通用对话中的反馈可以持续有效地改善语音对话模型,以产生更多事实性、更安全、更贴合上下文交互。我们部署了微调后的模型,并进行了整体的人类评估,以评估其在单回合对话之外的影响。我们的研究结果表明,在各种动态因素之间实现良好校准的平衡对于自然实时语音对话系统至关重要。

论文及项目相关链接

PDF Accepted at ICML 2025

Summary

本文提出一种新型偏好对齐框架,用于改善实时对话中用户交互的口语对话模型。该框架针对文本基础语言模型的偏好学习方法并不适合处理具有丰富动态变化和说话者无明确转换的实时语音交互问题。通过构建包含超过15万偏好对的大规模数据集,涵盖语言内容和时间上下文变化方面的偏好,并利用离线对齐方法对双向自动语音对话模型进行微调。实验证明,在通用对话中的反馈能持续有效地改善口语对话模型,使其产生更具事实性、安全性和上下文相关性的互动。

Key Takeaways

  1. 提出一种针对实时语音交互的偏好对齐框架,旨在改进口语对话模型。
  2. 现有偏好学习方法主要关注文本基础语言模型,不适用于实时语音交互的复杂性。
  3. 构建包含超过15万偏好对的大规模数据集,涵盖语言内容和时间上下文变化的偏好。
  4. 利用离线对齐方法对双向自动语音对话模型进行微调。
  5. 反馈在通用对话中能有效改善口语对话模型,提高互动的事实性、安全性和上下文相关性。
  6. 部署调整后的模型并进行整体人类评估,以评估其在单轮对话之外的影响。

Cool Papers

点此查看论文截图

Deception Detection in Dyadic Exchanges Using Multimodal Machine Learning: A Study on a Swedish Cohort

Authors:Franco Rugolon, Thomas Jack Samuels, Stephan Hau, Lennart Högman

This study investigates the efficacy of using multimodal machine learning techniques to detect deception in dyadic interactions, focusing on the integration of data from both the deceiver and the deceived. We compare early and late fusion approaches, utilizing audio and video data - specifically, Action Units and gaze information - across all possible combinations of modalities and participants. Our dataset, newly collected from Swedish native speakers engaged in truth or lie scenarios on emotionally relevant topics, serves as the basis for our analysis. The results demonstrate that incorporating both speech and facial information yields superior performance compared to single-modality approaches. Moreover, including data from both participants significantly enhances deception detection accuracy, with the best performance (71%) achieved using a late fusion strategy applied to both modalities and participants. These findings align with psychological theories suggesting differential control of facial and vocal expressions during initial interactions. As the first study of its kind on a Scandinavian cohort, this research lays the groundwork for future investigations into dyadic interactions, particularly within psychotherapy settings.

本研究旨在探讨在多模态机器学习中使用技术检测二元互动中的欺骗行为的效力,重点关注欺骗者和受骗者数据的整合。我们比较了早期和后期的融合方法,使用音频和视频数据 - 特别是面部动作编码系统和目光信息 - 涵盖所有可能的模态和参与者组合。我们的数据集是从瑞典本土参与者收集而来,他们参与关于情感相关话题的真实或谎言情景,为我们分析的基础。结果表明,与单模态方法相比,结合语音和面部信息表现更优。此外,同时包含双方参与者的数据可以显著提高欺骗检测的准确性,使用后期融合策略并应用于两种模式和所有参与者时,达到最佳性能(71%)。这些发现符合心理学理论,即面部表情和声音控制的初始互动存在差异性。作为斯堪的纳维亚人群的首项研究,该研究为二元互动的未来研究奠定了基础,特别是在心理治疗环境中。

论文及项目相关链接

PDF 40 pages, 2 figures, 2 tables. To be submitted in Behavior Research Methods

Summary
该研究采用多模态机器学习技术检测双人互动中的欺骗行为,重点研究欺骗者和受骗者的数据融合。研究对比了早期和晚期融合方法,使用了音频和视频数据——尤其是动作单元和目光信息,并全面考虑各种可能的模态和参与者组合。分析基于瑞典本土说话者在情感相关话题中进行真实或谎言场景的新数据集。结果表明,与单模态方法相比,结合语音和面部信息表现更优。同时,包含双方数据能显著提高欺骗检测的准确性,采用晚期融合策略且涵盖双模态和双方数据的情况下准确性最高(达71%)。此研究符合心理学理论中关于初次互动中面部表情和语音控制的差异性观点。作为首项针对斯堪的纳维亚人群的研究,该研究为今后的双人互动研究奠定了基础,特别是在心理治疗设置中。

Key Takeaways

  1. 该研究使用多模态机器学习技术检测双人互动中的欺骗行为。
  2. 研究对比了早期和晚期融合方法,并使用了音频、视频数据(动作单元和目光信息)。
  3. 分析基于瑞典本土说话者在情感相关话题的新数据集。
  4. 结合语音和面部信息比单模态方法表现更优。
  5. 包含双方数据能显著提高欺骗检测准确性。
  6. 采用晚期融合策略且涵盖双模态和双方数据时,欺骗检测准确性最高(达71%)。

Cool Papers

点此查看论文截图

“TikTok, Do Your Thing”: User Reactions to Social Surveillance in the Public Sphere

Authors:Meira Gilbert, Miranda Wei, Lindah Kotut

‘’TikTok, Do Your Thing’’ is a viral trend where users attempt to identify strangers they see in public via information crowd-sourcing. The trend started as early as 2021 and users typically engage with it for romantic purposes (similar to a ‘’Missed Connections’’ personal advertisement). This practice includes acts of surveillance and identification in the public sphere, although by peers rather than governments or corporations. To understand users’ reactions to this trend we conducted a qualitative analysis of 60 TikTok videos and 1,901 user comments. Of the 60 videos reviewed, we find 19 individuals were successfully identified. We also find that while there were comments expressing disapproval (n=310), more than double the number expressed support (n=883). Supportive comments demonstrated genuine interest and empathy, reflecting evolving conceptions of community and algorithmic engagement. On the other hand, disapproving comments highlighted concerns about inappropriate relationships, stalking, consent, and gendered double standards. We discuss these insights in relation to the normalization of interpersonal surveillance, online stalking, and as an evolution of social surveillance to offer a new perspective on user perceptions surrounding interpersonal surveillance and identification in the public sphere.

“TikTok,展现你的风采”是一种病毒式趋势,用户尝试通过众包信息识别他们在公共场合看到的陌生人。这一趋势早在2021年就开始流行,用户通常出于浪漫目的参与其中(类似于“错过连接”的个人广告)。这种行为包括在公共场所进行监视和身份识别,尽管这是由同龄人而非政府或公司所为。为了了解用户对此趋势的反应,我们对60个TikTok视频和1901条用户评论进行了定性分析。在审查的60个视频中,我们发现19个个体被成功识别。我们还发现,虽然有表达反对意见的评论(n=310),但支持的声音(n=883)是反对声音的两倍多。支持性的评论表现出真正的兴趣和同理心,反映了社区和算法参与的不断发展概念。另一方面,反对的评论突出了对不当关系、跟踪、同意和性别双重标准的担忧。我们结合人际监控的正常化、网络跟踪以及社会监控的演变,讨论这些见解,以提供关于公共场所人际监控和身份识别的用户感知的新视角。

论文及项目相关链接

PDF

Summary

“TikTok,做你的事”是一种病毒式趋势,用户尝试通过众包信息识别公共场所遇到的陌生人。此趋势始于2021年,用户通常出于浪漫目的参与(类似于“错过的连接”个人广告)。这种趋势涉及公共场所的个人监控和识别行为,但与政府机构或企业不同,是同龄人之间的行为。通过对60个TikTok视频和1901条用户评论进行定性分析来了解用户的反应。研究发现,在审查的60个视频中,有19人被成功识别。虽然有不赞成的评论(n=310),但支持者的数量(n=883)几乎是反对者的两倍。支持评论表现出真正的兴趣和同理心,反映了人们对社区和算法参与不断变化的看法。反对评论则提出对不正当关系、跟踪、同意和性别双重标准的担忧。本文讨论了这些见解与人际监控、在线跟踪以及社会监控的演变之间的关系,为公共场所人际监控和识别的用户感知提供了新的视角。

Key Takeaways

  1. “TikTok,做你的事”趋势让用户通过众包信息在公共场所识别陌生人。
  2. 此趋势始于浪漫目的,类似于“错过的连接”个人广告。
  3. 用户参与公共场所的个人监控和识别行为,但这种行为是同龄人之间的,不同于政府机构或企业的监控。
  4. 通过对TikTok视频和用户评论的分析,发现有一部分人支持这种趋势,认为它反映了社区变化和算法参与的演变。
  5. 同时存在反对的声音,主要关于不正当关系、跟踪行为和性别双重标准的担忧。
  6. 这种趋势引发了对人际监控和公共场所识别的新视角。

Cool Papers

点此查看论文截图

Exploring Big Five Personality and AI Capability Effects in LLM-Simulated Negotiation Dialogues

Authors:Myke C. Cohen, Zhe Su, Hsien-Te Kao, Daniel Nguyen, Spencer Lynch, Maarten Sap, Svitlana Volkova

This paper presents an evaluation framework for agentic AI systems in mission-critical negotiation contexts, addressing the need for AI agents that can adapt to diverse human operators and stakeholders. Using Sotopia as a simulation testbed, we present two experiments that systematically evaluated how personality traits and AI agent characteristics influence LLM-simulated social negotiation outcomes–a capability essential for a variety of applications involving cross-team coordination and civil-military interactions. Experiment 1 employs causal discovery methods to measure how personality traits impact price bargaining negotiations, through which we found that Agreeableness and Extraversion significantly affect believability, goal achievement, and knowledge acquisition outcomes. Sociocognitive lexical measures extracted from team communications detected fine-grained differences in agents’ empathic communication, moral foundations, and opinion patterns, providing actionable insights for agentic AI systems that must operate reliably in high-stakes operational scenarios. Experiment 2 evaluates human-AI job negotiations by manipulating both simulated human personality and AI system characteristics, specifically transparency, competence, adaptability, demonstrating how AI agent trustworthiness impact mission effectiveness. These findings establish a repeatable evaluation methodology for experimenting with AI agent reliability across diverse operator personalities and human-agent team dynamics, directly supporting operational requirements for reliable AI systems. Our work advances the evaluation of agentic AI workflows by moving beyond standard performance metrics to incorporate social dynamics essential for mission success in complex operations.

本文提出了一套针对关键任务谈判环境下智能体AI系统的评估框架,满足了智能体能够适应不同人类操作员和利益相关者的需求。以Sotopia作为仿真测试平台,我们进行了两项实验,系统地评估了人格特质和AI智能体特征如何影响由大型语言模型模拟的社会谈判结果——这对于涉及跨部门协调和军民互动的各种应用至关重要。实验一采用因果发现方法来衡量人格特质对价格谈判的影响,我们发现宜人性和外向性显著影响可信度、目标实现和知识获取的结果。从团队沟通中提取的社会认知词汇衡量了智能体在移情沟通、道德基础和意见模式方面的细微差异,为必须在高风险操作场景中可靠运行的人工智能系统提供了可操作性的见解。实验二通过操纵模拟人类个性和AI系统特性(特别是透明度、能力和适应性)来评估人类与AI的工作谈判,展示了AI智能体的可信度如何影响任务的有效性。这些发现建立了一种可重复的实验评估方法,用于在不同操作者个性和人机团队动态中测试AI智能体的可靠性,直接支持对可靠AI系统的作战要求。我们的工作通过超越标准性能指标来评估智能体AI的工作流程,纳入了对复杂操作任务成功至关重要的社会动态因素。

论文及项目相关链接

PDF Under review for KDD 2025 Workshop on Evaluation and Trustworthiness of Agentic and Generative AI Models

Summary

本文评估了关键任务谈判环境中代理智能系统的评估框架,解决了需要适应不同人类操作者和利益相关者的AI代理的需求。研究使用Sotopia作为模拟测试平台,进行了两项实验,系统评估了人格特质和AI代理特征如何影响基于大型语言模型的模拟社会谈判结果。实验一发现,宜人性和外向性对可信度、目标实现和知识获取结果有显著影响。实验二评估了人机工作谈判中模拟人类个性和AI系统特性的操纵,展示了AI代理的可信性如何影响任务的有效性。本研究为AI代理的可靠性在跨各种操作者个性和人机团队动态中的实验建立了可重复的评价方法。本文的研究进展在于通过超越标准性能指标的评估,将社交动力学纳入考虑范畴,这是实现复杂操作任务成功的关键所在。

Key Takeaways

  1. 该研究针对AI代理在关键任务谈判环境的表现提出一个评价框架。
  2. 实验一发现人格特质(宜人性、外向性)对模拟社会谈判结果有显著影响。这些特质影响了谈判中的可信度、目标实现和知识获取。
  3. 利用团队沟通中的社会认知词汇度量,研究发现了代理在沟通中的细微差异,如共情沟通、道德基础和意见模式等。
  4. 实验二考察了人机工作谈判中人类与AI代理的特性如何相互作用,并强调了AI代理的可信性对任务有效性的影响。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
Talking Head Generation Talking Head Generation
Talking Head Generation 方向最新论文已更新,请持续关注 Update in 2025-06-28 GGTalker Talking Head Systhesis with Generalizable Gaussian Priors and Identity-Specific Adaptation
下一篇 
TTS TTS
TTS 方向最新论文已更新,请持续关注 Update in 2025-06-28 A Multi-Stage Framework for Multimodal Controllable Speech Synthesis
2025-06-28
  目录