嘘~ 正在从服务器偷取页面 . . .

I2I Translation


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-02-12 更新

A Data-Efficient Pan-Tumor Foundation Model for Oncology CT Interpretation

Authors:Wenhui Lei, Hanyu Chen, Zitian Zhang, Luyang Luo, Qiong Xiao, Yannian Gu, Peng Gao, Yankai Jiang, Ci Wang, Guangtao Wu, Tongjia Xu, Yingjie Zhang, Xiaofan Zhang, Pranav Rajpurkar, Shaoting Zhang, Zhenning Wang

Artificial intelligence-assisted imaging analysis has made substantial strides in tumor diagnosis and management. Here we present PASTA, a pan-tumor CT foundation model that achieves state-of-the-art performance on 45 of 46 representative oncology tasks – including lesion segmentation, tumor detection in plain CT, tumor staging, survival prediction, structured report generation, and cross-modality transfer learning, significantly outperforming the second-best models on 35 tasks. This remarkable advancement is driven by our development of PASTA-Gen, an innovative synthetic tumor generation framework that produces a comprehensive dataset of 30,000 CT scans with pixel-level annotated lesions and paired structured reports, encompassing malignancies across ten organs and five benign lesion types. By leveraging this rich, high-quality synthetic data, we overcome a longstanding bottleneck in the development of CT foundation models – specifically, the scarcity of publicly available, high-quality annotated datasets due to privacy constraints and the substantial labor required for scaling precise data annotation. Encouragingly, PASTA demonstrates exceptional data efficiency with promising practical value, markedly improving performance on various tasks with only a small amount of real-world data. The open release of both the synthetic dataset and PASTA foundation model effectively addresses the challenge of data scarcity, thereby advancing oncological research and clinical translation.

人工智能辅助成像分析在肿瘤诊断和治疗方面取得了重大进展。在此,我们提出PASTA,这是一种泛肿瘤CT基础模型,在46个代表性肿瘤学任务中的45个上实现了最先进的性能,包括病灶分割、普通CT中的肿瘤检测、肿瘤分期、生存预测、结构化报告生成和跨模态迁移学习,在35个任务上显著优于第二名模型。这一显著的进步得益于我们开发的PASTA-Gen,这是一个创新的合成肿瘤生成框架,生成了一个包含3万份CT扫描的综合数据集,具有像素级注释的病灶和配对的结构化报告,涵盖了十个器官的恶性肿瘤和五种良性病灶类型。通过利用丰富的高质量合成数据,我们克服了长期以来阻碍CT基础模型发展的一个瓶颈——由于隐私约束和大规模精确数据标注所需的大量劳动,公开的高质量标注数据集的稀缺。令人鼓舞的是,PASTA在仅有少量现实世界数据的情况下,在各种任务上表现出了出色的数据效率和有前途的实际应用价值。合成数据集和PASTA基础模型的开放发布有效地解决了数据稀缺的挑战,从而推动了肿瘤学研究和临床转化。

论文及项目相关链接

PDF 57 pages, 7 figures

Summary

人工智能辅助成像分析在肿瘤诊断和治疗中取得了重大进展。本文介绍了全景肿瘤CT模型PASTA,它在46个代表性肿瘤学任务中的45个任务上取得了最先进的性能,包括病灶分割、普通CT中的肿瘤检测、肿瘤分期、生存预测、结构化报告生成和跨模态迁移学习等。这一显著进步得益于我们开发的PASTA-Gen合成肿瘤生成框架,该框架生成了包含十种器官和五种良性病变类型的综合性数据集,包含3万份CT扫描结果和像素级注释的病灶及配对结构化报告。通过利用丰富的高质量合成数据,我们克服了开发CT基础模型的一个长期瓶颈,即因隐私约束和大规模精确数据标注所需的大量劳动而导致的公开可用高质量标注数据集的稀缺。令人鼓舞的是,PASTA在仅使用少量现实世界数据的情况下,在各种任务上表现出卓越的性能和实际应用价值。合成数据集和PASTA基础模型的开放发布有效地解决了数据稀缺的挑战,从而推动了肿瘤学研究和临床应用的进展。

Key Takeaways

  1. 人工智能在肿瘤诊断和管理中发挥了重要作用。
  2. PASTA是一种全景肿瘤CT模型,可在多种肿瘤学任务上实现最先进的性能。
  3. PASTA-Gen是一个合成肿瘤生成框架,产生了丰富的、高质量的标注数据集。
  4. 利用合成数据克服了开发CT基础模型的长久瓶颈。
  5. PASTA在各种任务上表现出卓越的性能,只需少量的现实世界数据。
  6. 合成数据集和PASTA基础模型的公开发布解决了数据稀缺的问题。

Cool Papers

点此查看论文截图

UniDB: A Unified Diffusion Bridge Framework via Stochastic Optimal Control

Authors:Kaizhen Zhu, Mokai Pan, Yuexin Ma, Yanwei Fu, Jingyi Yu, Jingya Wang, Ye Shi

Recent advances in diffusion bridge models leverage Doob’s $h$-transform to establish fixed endpoints between distributions, demonstrating promising results in image translation and restoration tasks. However, these approaches frequently produce blurred or excessively smoothed image details and lack a comprehensive theoretical foundation to explain these shortcomings. To address these limitations, we propose UniDB, a unified framework for diffusion bridges based on Stochastic Optimal Control (SOC). UniDB formulates the problem through an SOC-based optimization and derives a closed-form solution for the optimal controller, thereby unifying and generalizing existing diffusion bridge models. We demonstrate that existing diffusion bridges employing Doob’s $h$-transform constitute a special case of our framework, emerging when the terminal penalty coefficient in the SOC cost function tends to infinity. By incorporating a tunable terminal penalty coefficient, UniDB achieves an optimal balance between control costs and terminal penalties, substantially improving detail preservation and output quality. Notably, UniDB seamlessly integrates with existing diffusion bridge models, requiring only minimal code modifications. Extensive experiments across diverse image restoration tasks validate the superiority and adaptability of the proposed framework. Our code is available at https://github.com/UniDB-SOC/UniDB/.

近期扩散桥模型的新进展利用Doob的$h$-变换在分布之间建立固定端点,在图像翻译和恢复任务中显示出有前景的结果。然而,这些方法经常产生模糊或过度平滑的图像细节,并且缺乏全面的理论基础来解释这些缺点。为了解决这些局限性,我们提出了基于随机最优控制(SOC)的扩散桥统一框架UniDB。UniDB通过基于SOC的优化来制定问题,并导出最优控制器的封闭形式解决方案,从而统一并推广现有的扩散桥模型。我们证明,采用Doob的$h$-变换的现有扩散桥构成了我们框架的一种特殊情况,出现在SOC成本函数的终端惩罚系数趋于无穷大时。通过引入可调终端惩罚系数,UniDB在控制成本和终端惩罚之间实现了最佳平衡,大大提高了细节保留和输出质量。值得注意的是,UniDB可以无缝集成到现有的扩散桥模型中,只需要最少的代码修改。在不同图像恢复任务上的广泛实验验证了所提出框架的优越性和适应性。我们的代码位于https://github.com/UniDB-SOC/UniDB/。

论文及项目相关链接

PDF

Summary

基于扩散桥模型,通过引入随机最优控制(SOC)提出统一框架UniDB,解决图像翻译和恢复任务中的问题。UniDB解决了现有模型模糊或过度平滑图像细节的问题,通过调整终端惩罚系数实现控制成本与终端惩罚之间的平衡,提高了细节保留和输出质量。UniDB易于与现有扩散桥模型集成,只需少量代码修改即可。

Key Takeaways

  1. 扩散桥模型利用Doob的$h$-变换在分布之间建立固定端点,已在图像翻译和恢复任务中展现有前景的结果。
  2. 现有方法经常产生模糊或过度平滑的图像细节,缺乏全面理论来解释这些不足。
  3. UniDB是一个基于随机最优控制的统一框架,用于解决扩散桥的问题。
  4. UniDB通过SOC成本函数中的终端惩罚系数实现优化平衡,提高细节保留和输出质量。
  5. UniDB可以无缝集成现有扩散桥模型,只需最小代码修改。
  6. 大量实验验证了UniDB框架的优越性和适应性。

Cool Papers

点此查看论文截图

Transformer Neural Processes - Kernel Regression

Authors:Daniel Jenson, Jhonathan Navott, Mengyan Zhang, Makkunda Sharma, Elizaveta Semenova, Seth Flaxman

Neural Processes (NPs) are a rapidly evolving class of models designed to directly model the posterior predictive distribution of stochastic processes. Originally developed as a scalable alternative to Gaussian Processes (GPs), which are limited by $\mathcal{O}(n^3)$ runtime complexity, the most accurate modern NPs can often rival GPs but still suffer from an $\mathcal{O}(n^2)$ bottleneck due to their attention mechanism. We introduce the Transformer Neural Process - Kernel Regression (TNP-KR), a scalable NP featuring: (1) a Kernel Regression Block (KRBlock), a simple, extensible, and parameter efficient transformer block with complexity $\mathcal{O}(n_c^2 + n_c n_t)$, where $n_c$ and $n_t$ are the number of context and test points, respectively; (2) a kernel-based attention bias; and (3) two novel attention mechanisms: scan attention (SA), a memory-efficient scan-based attention that when paired with a kernel-based bias can make TNP-KR translation invariant, and deep kernel attention (DKA), a Performer-style attention that implicitly incoporates a distance bias and further reduces complexity to $\mathcal{O}(n_c)$. These enhancements enable both TNP-KR variants to perform inference with 100K context points on over 1M test points in under a minute on a single 24GB GPU. On benchmarks spanning meta regression, Bayesian optimization, image completion, and epidemiology, TNP-KR with DKA outperforms its Performer counterpart on nearly every benchmark, while TNP-KR with SA achieves state-of-the-art results.

神经过程(NPs)是一类快速演变的模型,旨在直接对随机过程的后验预测分布进行建模。最初作为高斯过程(GPs)的可扩展替代方案而开发,高斯过程受限于$\mathcal{O}(n^3)$的运行时复杂度,而现代最精确的神将过程通常可以与高斯过程相匹敌,但仍然受到$\mathcal{O}(n^2)$瓶颈的制约,因为它们使用了注意力机制。我们引入了Transformer神经过程-核回归(TNP-KR),这是一种可扩展的NP,具有以下特点:(1)核回归块(KRBlock),这是一种简单、可扩展、参数高效的变压器块,复杂度为$\mathcal{O}(n_c^2 + n_c n_t)$,其中$n_c$和$n_t$分别是上下文点和测试点的数量;(2)基于核的注意力偏差;(3)两种新型注意力机制:扫描注意力(SA),这是一种基于扫描的内存高效注意力,与基于核的偏差相结合,可以使TNP-KR具有平移不变性,以及深度核注意力(DKA),一种表演者风格的注意力,它隐含地包含了距离偏差,进一步将复杂度降低到$\mathcal{O}(n_c)$。这些增强功能使得TNP-KR的两个变体能够在单个24GB GPU上在一分钟内对超过一百万测试点进行具有一万个上下文点的推理。在涵盖元回归、贝叶斯优化、图像补全和流行病学等领域的基准测试中,使用DKA的TNP-KR在几乎所有基准测试中都超过了其表演者对应物,而使用SA的TNP-KR则取得了最新结果。

论文及项目相关链接

PDF

Summary

神经网络过程(NPs)是一种直接模拟随机过程的后验预测分布的模型。作为一种可替代高斯过程(GPs)的模型,虽然也存在计算复杂度的瓶颈,但最新最先进的NP经常能够达到与GP相当甚至更好的准确度。本文介绍的Transformer Neural Process - Kernel Regression(TNP-KR)具有可扩展性,包括Kernel Regression Block(KRBlock)、基于内核的注意力偏差以及两种新型注意力机制——扫描注意力和深度内核注意力。这些改进使得TNP-KR能够在单个24GB GPU上在一分钟内完成超过一百万测试点的推理过程。在涵盖回归、贝叶斯优化、图像补全和流行病学等领域的基准测试中,表现卓越。尤其具有深度内核注意力的TNP-KR性能更胜一筹。

Key Takeaways

  1. 神经网络过程(NPs)是为了直接模拟随机过程的预测分布而设计的模型,可以作为高斯过程(GPs)的可扩展替代方案。
  2. TNP-KR模型引入了Kernel Regression Block(KRBlock),这是一种简单、可扩展且参数高效的Transformer块。
  3. TNP-KR具有基于内核的注意力偏差和两种新型注意力机制:扫描注意力和深度内核注意力。
  4. TNP-KR具有可扩展性,能够在单个GPU上处理大量数据点,进行快速推理。
  5. 在多个基准测试中,尤其是具有深度内核注意力的TNP-KR表现突出,超越了其他模型。

Cool Papers

点此查看论文截图

Weakly-Supervised PET Anomaly Detection using Implicitly-Guided Attention-Conditional Counterfactual Diffusion Modeling: a Multi-Center, Multi-Cancer, and Multi-Tracer Study

Authors:Shadab Ahamed, Arman Rahmim

Minimizing the need for pixel-level annotated data to train PET lesion detection and segmentation networks is highly desired and can be transformative, given time and cost constraints associated with expert annotations. Current un-/weakly-supervised anomaly detection methods rely on autoencoder or generative adversarial networks trained only on healthy data; however GAN-based networks are more challenging to train due to issues with simultaneous optimization of two competing networks, mode collapse, etc. In this paper, we present the weakly-supervised Implicitly guided COuNterfactual diffusion model for Detecting Anomalies in PET images (IgCONDA-PET). The solution is developed and validated using PET scans from six retrospective cohorts consisting of a total of 2652 cases containing both local and public datasets. The training is conditioned on image class labels (healthy vs. unhealthy) via attention modules, and we employ implicit diffusion guidance. We perform counterfactual generation which facilitates “unhealthy-to-healthy” domain translation by generating a synthetic, healthy version of an unhealthy input image, enabling the detection of anomalies through the calculated differences. The performance of our method was compared against several other deep learning based weakly-supervised or unsupervised methods as well as traditional methods like 41% SUVmax thresholding. We also highlight the importance of incorporating attention modules in our network for the detection of small anomalies. The code is publicly available at: https://github.com/ahxmeds/IgCONDA-PET.git.

最小化对像素级标注数据进行PET病灶检测与分割网络训练的需求是非常理想且能在时间成本和人力标注相关的限制条件下产生重大改变的。当前的未监督/弱监督异常检测方法依赖于仅对健康数据训练的自动编码器或生成对抗网络;然而基于GAN的网络由于两个竞争网络的同步优化问题、模式崩溃等问题而更具挑战性。在本文中,我们提出了弱监督隐式引导PET图像异常检测计数扩散模型(IgCONDA-PET)。该解决方案使用来自六个回顾性队列的PET扫描进行开发和验证,其中包括本地和公开数据集总共2652个病例。训练是通过图像类别标签(健康与非健康)进行的,通过注意力模块进行条件化,并采用了隐式扩散引导。我们执行反事实生成,通过生成不健康输入图像的合成健康版本,促进“不健康到健康”的领域翻译,通过计算差异实现异常检测。我们的方法与基于深度学习的其他弱监督或无监督方法以及传统的如SUVmax阈值法等方法进行了比较。我们还强调了在网络中融入注意力模块对于检测微小异常的重要性。代码可在https://github.com/ahxmeds/IgCONDA-PET.git公开访问。

论文及项目相关链接

PDF 32 pages, 6 figures, 4 tables

Summary

本文提出了一种基于弱监督的隐式引导计数器扩散模型(IgCONDA-PET),用于PET图像中的异常检测。该方法通过注意力模块进行训练,无需大量像素级标注数据,通过生成合成健康图像与不健康输入图像之间的差异来检测异常。实验结果表明,该方法在多个数据集上的性能优于其他弱监督或无监督的深度学习方法以及传统方法。同时强调了注意力模块对检测小异常的重要性。

Key Takeaways

  1. IgCONDA-PET模型利用弱监督学习,减少了对像素级标注数据的需求。
  2. 模型基于注意力模块进行训练,可应用于PET图像的异常检测。
  3. 采用隐式扩散引导技术生成合成健康图像,通过计算与健康图像的差异来检测异常。
  4. 在多个数据集上的实验结果表明,该方法的性能优于其他弱监督或无监督的深度学习方法以及传统方法。
  5. 公开可用代码便于其他研究者使用和改进模型。
  6. 强调了注意力模块在检测小异常中的重要性。

Cool Papers

点此查看论文截图

What Is Missing in Multilingual Visual Reasoning and How to Fix It

Authors:Yueqi Song, Simran Khanuja, Graham Neubig

NLP models today strive for supporting multiple languages and modalities, improving accessibility for diverse users. In this paper, we evaluate their multilingual, multimodal capabilities by testing on a visual reasoning task. We observe that proprietary systems like GPT-4V obtain the best performance on this task now, but open models lag in comparison. Surprisingly, GPT-4V exhibits similar performance between English and other languages, indicating the potential for equitable system development across languages. Our analysis on model failures reveals three key aspects that make this task challenging: multilinguality, complex reasoning, and multimodality. To address these challenges, we propose three targeted interventions including a translate-test approach to tackle multilinguality, a visual programming approach to break down complex reasoning, and a method that leverages image captioning to address multimodality. Our interventions achieve the best open performance on this task in a zero-shot setting, boosting open models LLaVA-v1.5-13B by 13.4%, LLaVA-v1.6-34B by 20.3%, and Qwen-VL by 16.7%, while also minorly improving GPT-4V’s performance.

当前,自然语言处理模型正努力支持多种语言和模式,以提高对不同用户的可访问性。在本文中,我们通过视觉推理任务测试了它们的多语种、多模式能力,并评估了它们的多语种、多模式性能。我们发现,目前像GPT-4V这样的专有系统在此任务上表现最佳,但开源模型相比之下稍显逊色。令人惊讶的是,GPT-4V在英语和其他语言之间的表现相似,这表明跨语言公平系统开发的潜力。我们对模型失败的分析揭示了三个使此任务具有挑战性的关键方面:多语种、复杂推理和多模式。为了应对这些挑战,我们提出了三种有针对性的干预措施,包括采用翻译测试方法解决多语种问题,使用可视化编程方法破解复杂推理,以及利用图像字幕技术解决多模式问题。我们的干预措施在零样本设置下实现了该任务的最佳开源性能,提升了LLaVA-v1.5-13B模型性能13.4%,LLaVA-v1.6-34B模型性能提升了20.3%,Qwen-VL模型性能提升了16.7%,同时略微提高了GPT-4V的性能。

论文及项目相关链接

PDF

Summary

本文评估了自然语言处理模型在多语言、多模态任务上的性能,发现专有系统如GPT-4V在此任务上表现最佳,而开源模型则相对落后。GPT-4V在不同语言间的性能相似,显示出跨语言均衡系统开发的潜力。分析模型失败的原因,发现多语言性、复杂推理和多模态性是该任务的主要挑战。为应对这些挑战,提出了包括翻译测试方法、可视化编程方法和利用图像字幕的多模态方法在内的三种干预措施。这些干预措施在零样本设置下提高了开源模型的表现。

Key Takeaways

  1. NLP模型正在支持多种语言和模式,以提高对不同用户的可访问性。
  2. 在视觉推理任务上评估了模型的多语言和多模态能力,发现GPT-4V等专有系统表现最佳。
  3. GPT-4V在不同语言间的性能相似,表明跨语言均衡系统开发的潜力。
  4. 模型失败分析揭示了多语言性、复杂推理和多模态性是主要挑战。
  5. 为应对这些挑战,提出了翻译测试方法、可视化编程方法和利用图像字幕的多模态方法。
  6. 这些干预措施在零样本设置下提高了开源模型的表现。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
视频理解 视频理解
视频理解 方向最新论文已更新,请持续关注 Update in 2025-02-12 CoS Chain-of-Shot Prompting for Long Video Understanding
2025-02-12
下一篇 
Few-Shot Few-Shot
Few-Shot 方向最新论文已更新,请持续关注 Update in 2025-02-12 IceBerg Debiased Self-Training for Class-Imbalanced Node Classification
2025-02-12
  目录