嘘~ 正在从服务器偷取页面 . . .

I2I Translation


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-02-27 更新

CheXalign: Preference fine-tuning in chest X-ray interpretation models without human feedback

Authors:Dennis Hein, Zhihong Chen, Sophie Ostmeier, Justin Xu, Maya Varma, Eduardo Pontes Reis, Arne Edward Michalson, Christian Bluethgen, Hyun Joo Shin, Curtis Langlotz, Akshay S Chaudhari

Radiologists play a crucial role in translating medical images into actionable reports. However, the field faces staffing shortages and increasing workloads. While automated approaches using vision-language models (VLMs) show promise as assistants, they require exceptionally high accuracy. Most current VLMs in radiology rely solely on supervised fine-tuning. Meanwhile, additional preference fine-tuning in the post-training pipeline has become standard practice in the general domain. The challenge in radiology lies in the prohibitive cost of obtaining radiologist feedback at scale. To address this challenge, we propose an automated pipeline for preference feedback, focusing on chest X-ray radiology report generation (RRG). Specifically, our method leverages publicly available datasets containing pairs of images and radiologist-written reference reports with reference-based metrics, or Judges, eliminating the need for additional radiologist feedback. We investigate reward overoptimization via length exploitation in this setting and introduce a length-controlled version of the GREEN score. Our best-performing setup achieves state-of-the-art CheXbert scores on the MIMIC-CXR dataset for the RRG task while on average maintaining robust performance across six additional image perception and reasoning tasks.

放射科医生在将医学图像转化为可操作的报告方面发挥着至关重要的作用。然而,该领域面临着人员短缺和工作量增加的问题。虽然使用视觉语言模型(VLM)的自动化方法作为助理显示出潜力,但它们需要极高的准确性。当前大多数放射学领域的VLM仅依赖于监督微调。同时,在训练后的管道中进行额外的偏好微调已成为通用领域的标准做法。放射学领域的挑战在于大规模获取放射科医生反馈的代价高昂。为了应对这一挑战,我们提出了一种自动化偏好反馈管道,专注于胸部X射线放射学报告生成(RRG)。具体来说,我们的方法利用公开可用的数据集,其中包含图像对和放射科医生撰写的参考报告以及与参考报告相关的指标或判定标准,从而无需额外的放射科医生反馈。我们研究了这个环境下的奖励过度优化并通过对长度的利用进行了调查,并引入了受控长度的GREEN评分版本。我们在MIMIC-CXR数据集上表现最佳的设定在RRG任务上达到了最先进的CheXbert分数,同时在六个额外的图像感知和推理任务上平均保持了稳健的性能。

论文及项目相关链接

PDF

Summary

本文探讨了放射科医生在将医学图像转化为可操作的报告方面的重要作用,同时指出该领域面临人员短缺和工作量增加的问题。虽然使用视觉语言模型(VLMs)的自动化方法显示出潜力,但它们需要极高的准确性。大多数当前的放射学VLMs仅依赖于监督微调。为了在放射学领域应用个性化微调,本文提出了一种自动化管道进行偏好反馈,专注于胸部X射线放射报告生成(RRG)。该方法利用公开可用的数据集和基于参考指标的法官,消除了对额外放射科医生反馈的需求。同时调查了长度利用方面的奖励优化问题,并引入了长度控制的GREEN评分版本。最佳设置方案在MIMIC-CXR数据集上实现最高表现的RRG任务,并在其他六个图像感知和推理任务中维持稳健表现。

Key Takeaways

  1. 放射科医生在将医学图像转化为可操作的报告方面扮演重要角色,但面临人员短缺和工作量增加的挑战。
  2. 视觉语言模型(VLMs)在放射学领域显示出辅助潜力,但需极高准确性。
  3. 当前大多数放射学VLMs仅依赖监督微调。
  4. 在放射学领域引入自动化管道进行偏好反馈,专注于胸部X射线放射报告生成(RRG)。
  5. 利用公开数据集和基于参考指标的法官消除对额外放射科医生反馈的需求。
  6. 研究了长度利用在奖励优化中的问题,并引入长度控制的GREEN评分版本。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
视频理解 视频理解
视频理解 方向最新论文已更新,请持续关注 Update in 2025-02-27 Task Graph Maximum Likelihood Estimation for Procedural Activity Understanding in Egocentric Videos
2025-02-27
下一篇 
Few-Shot Few-Shot
Few-Shot 方向最新论文已更新,请持续关注 Update in 2025-02-27 Multi-Perspective Data Augmentation for Few-shot Object Detection
2025-02-27
  目录