⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2025-11-19 更新
Free-Form Scene Editor: Enabling Multi-Round Object Manipulation like in a 3D Engine
Authors:Xincheng Shuai, Zhenyuan Qin, Henghui Ding, Dacheng Tao
Recent advances in text-to-image (T2I) diffusion models have significantly improved semantic image editing, yet most methods fall short in performing 3D-aware object manipulation. In this work, we present FFSE, a 3D-aware autoregressive framework designed to enable intuitive, physically-consistent object editing directly on real-world images. Unlike previous approaches that either operate in image space or require slow and error-prone 3D reconstruction, FFSE models editing as a sequence of learned 3D transformations, allowing users to perform arbitrary manipulations, such as translation, scaling, and rotation, while preserving realistic background effects (e.g., shadows, reflections) and maintaining global scene consistency across multiple editing rounds. To support learning of multi-round 3D-aware object manipulation, we introduce 3DObjectEditor, a hybrid dataset constructed from simulated editing sequences across diverse objects and scenes, enabling effective training under multi-round and dynamic conditions. Extensive experiments show that the proposed FFSE significantly outperforms existing methods in both single-round and multi-round 3D-aware editing scenarios.
近期文本到图像(T2I)扩散模型的进展在语义图像编辑方面取得了显著改进,但大多数方法在3D感知对象操作方面仍存在不足。在这项工作中,我们提出了FFSE,这是一个3D感知的自回归框架,旨在实现在真实世界图像上直接进行直观、物理一致的对象编辑。不同于之前在图像空间操作或需要缓慢且易出错的3D重建的方法,FFSE将编辑建模为一系列学习的3D转换,允许用户执行任意操作,如平移、缩放和旋转,同时保持背景效果(如阴影、反射)的真实性,并在多次编辑过程中保持全局场景的一致性。为了支持多轮3D感知对象操作的学习,我们引入了3DObjectEditor,这是一个混合数据集,由各种对象和场景模拟编辑序列构建而成,能够在多轮和动态条件下进行有效训练。大量实验表明,所提出的FFSE在单轮和多轮3D感知编辑场景中均显著优于现有方法。
论文及项目相关链接
PDF AAAI 2026, Project Page: https://henghuiding.com/FFSE/
Summary
近期文本到图像(T2I)扩散模型的进步极大地推动了语义图像编辑的发展,但大多数方法在实现3D感知物体操作方面仍存在不足。本文介绍了一种名为FFSE的3D感知自回归框架,旨在实现直观、物理一致的物体编辑,可直接应用于真实世界图像。不同于在图像空间操作或需要缓慢、容易出现错误的3D重建方法,FFSE将编辑建模为一系列学习的3D转换,允许用户进行任意操作,如平移、缩放和旋转,同时保持背景效果(如阴影、反射)的真实性,并在多次编辑中保持全局场景一致性。为了支持多轮感知物体的学习编辑,本文还引入了数据集——结合模拟的编辑序列用于训练复杂的感知模型和情境创建等目的构建起来的,展示了该方法在多轮和多动态条件下的有效性。实验表明,FFSE在单轮和多轮感知物体编辑场景中均显著优于现有方法。
Key Takeaways
- 文本到图像扩散模型在语义图像编辑方面取得进展。
- 当前方法难以进行多轮感知物体编辑,尤其是涉及真实世界图像的场景。
- FFSE框架实现了直观、物理一致的物体编辑,直接在真实世界图像上应用。
- FFSE将编辑建模为一系列学习的3D转换,允许任意操作如平移、缩放和旋转。
点此查看论文截图
Crossing Borders: A Multimodal Challenge for Indian Poetry Translation and Image Generation
Authors:Sofia Jamil, Kotla Sai Charan, Sriparna Saha, Koustava Goswami, Joseph K J
Indian poetry, known for its linguistic complexity and deep cultural resonance, has a rich and varied heritage spanning thousands of years. However, its layered meanings, cultural allusions, and sophisticated grammatical constructions often pose challenges for comprehension, especially for non-native speakers or readers unfamiliar with its context and language. Despite its cultural significance, existing works on poetry have largely overlooked Indian language poems. In this paper, we propose the Translation and Image Generation (TAI) framework, leveraging Large Language Models (LLMs) and Latent Diffusion Models through appropriate prompt tuning. Our framework supports the United Nations Sustainable Development Goals of Quality Education (SDG 4) and Reduced Inequalities (SDG 10) by enhancing the accessibility of culturally rich Indian-language poetry to a global audience. It includes (1) a translation module that uses an Odds Ratio Preference Alignment Algorithm to accurately translate morphologically rich poetry into English, and (2) an image generation module that employs a semantic graph to capture tokens, dependencies, and semantic relationships between metaphors and their meanings, to create visually meaningful representations of Indian poems. Our comprehensive experimental evaluation, including both human and quantitative assessments, demonstrates the superiority of TAI Diffusion in poem image generation tasks, outperforming strong baselines. To further address the scarcity of resources for Indian-language poetry, we introduce the Morphologically Rich Indian Language Poems MorphoVerse Dataset, comprising 1,570 poems across 21 low-resource Indian languages. By addressing the gap in poetry translation and visual comprehension, this work aims to broaden accessibility and enrich the reader’s experience.
印度诗歌以其语言复杂性和深厚的文化共鸣而闻名,拥有跨越数千年的丰富而多样的遗产。然而,其层次丰富的含义、文化典故和复杂的语法结构常常构成理解上的挑战,尤其是对于非母语者或对其语境和语言不熟悉的读者。尽管其在文化上具有重要性,但现有关于诗歌的作品大多忽视了印度语言诗歌。在本文中,我们提出了翻译和图像生成(TAI)框架,该框架通过适当的提示调整,利用大型语言模型(LLM)和潜在扩散模型。我们的框架支持联合国可持续发展目标中的优质教育(SDG 4)和减少不平等(SDG 10),通过提高文化丰富的印度语言诗歌的普及性,面向全球受众。它包括(1)一个翻译模块,该模块使用Odds Ratio Preference Alignment Algorithm算法,将形态丰富的诗歌准确地翻译成英语;(2)一个图像生成模块,该模块采用语义图来捕获标记、依赖关系和隐喻及其意义之间的语义关系,以创建印度诗歌的视觉意义表示。我们的全面实验评估,包括人类和定量评估,证明了TAI Diffusion在诗歌图像生成任务中的优越性,超越了强大的基线。为了进一步解决印度语言诗歌资源稀缺的问题,我们推出了形态丰富印度语言诗歌MorphoVerse数据集,包含1570首跨越21种低资源印度语言的诗歌。通过解决诗歌翻译和视觉理解之间的差距,这项工作旨在提高普及性并丰富读者的体验。
论文及项目相关链接
Summary
本文提出翻译与图像生成(TAI)框架,结合大型语言模型(LLMs)和潜在扩散模型,通过适当的提示调整,支持印度诗歌的翻译和图像生成。该框架旨在提高丰富文化内蕴的印度语言诗歌对全球受众的普及性,包括翻译模块和图像生成模块。前者使用Odds Ratio Preference Alignment Algorithm准确翻译形态丰富的诗歌,后者采用语义图捕捉诗歌中的标记、依赖关系和隐喻之间的语义关系,为印度诗歌创建视觉上有意义的表示。实验评估表明,TAI框架在诗歌图像生成任务中表现出卓越性能。此外,为解决印度语言诗歌资源稀缺的问题,还推出了形态丰富印度语言诗歌MorphoVerse数据集。
Key Takeaways
- 印度诗歌具有复杂语言和深厚文化背景,对于非母语者或不了解其语境和语言的读者来说,理解其含义常具有挑战性。
- 现有对诗歌的研究大多忽略了印度语言诗歌。
- 提出了翻译与图像生成(TAI)框架,包括翻译模块和图像生成模块,旨在提高印度语言诗歌的全球普及性。
- 翻译模块采用Odds Ratio Preference Alignment Algorithm准确翻译形态丰富的诗歌。
- 图像生成模块采用语义图技术,为印度诗歌创建视觉上有意义的表示。
- 综合实验评估证明TAI框架在诗歌图像生成任务中的优越性。
点此查看论文截图
Training-Free Multi-View Extension of IC-Light for Textual Position-Aware Scene Relighting
Authors:Jiangnan Ye, Jiedong Zhuang, Lianrui Mu, Wenjie Zheng, Jiaqi Hu, Xingze Zou, Jing Wang, Haoji Hu
We introduce GS-Light, an efficient, textual position-aware pipeline for text-guided relighting of 3D scenes represented via Gaussian Splatting (3DGS). GS-Light implements a training-free extension of a single-input diffusion model to handle multi-view inputs. Given a user prompt that may specify lighting direction, color, intensity, or reference objects, we employ a large vision-language model (LVLM) to parse the prompt into lighting priors. Using off-the-shelf estimators for geometry and semantics (depth, surface normals, and semantic segmentation), we fuse these lighting priors with view-geometry constraints to compute illumination maps and generate initial latent codes for each view. These meticulously derived init latents guide the diffusion model to generate relighting outputs that more accurately reflect user expectations, especially in terms of lighting direction. By feeding multi-view rendered images, along with the init latents, into our multi-view relighting model, we produce high-fidelity, artistically relit images. Finally, we fine-tune the 3DGS scene with the relit appearance to obtain a fully relit 3D scene. We evaluate GS-Light on both indoor and outdoor scenes, comparing it to state-of-the-art baselines including per-view relighting, video relighting, and scene editing methods. Using quantitative metrics (multi-view consistency, imaging quality, aesthetic score, semantic similarity, etc.) and qualitative assessment (user studies), GS-Light demonstrates consistent improvements over baselines. Code and assets will be made available upon publication.
我们介绍了GS-Light,这是一个高效、对文本位置敏感的管道,用于对通过高斯拼贴(3DGS)表示的3D场景进行文本引导的重照明。GS-Light实现了一个无需训练的单输入扩散模型的扩展,以处理多视图输入。给定用户提示,可能指定照明方向、颜色、强度或参考对象,我们采用大型视觉语言模型(LVLM)将提示解析为照明先验。我们使用现成的估计器进行几何和语义(深度、表面法线和语义分割),将这些照明先验与视图几何约束融合,以计算照明地图并为每个视图生成初始潜在代码。这些精心推导的初始潜码引导扩散模型生成更准确反映用户期望的重照明输出,尤其是在照明方向方面。通过将多视图渲染图像和初始潜码输入到我们的多视图重照明模型中,我们生成了高保真、艺术化的重照明图像。最后,我们用重照明的外观对3DGS场景进行微调,以获得完全重照明的3D场景。我们在室内和室外场景上评估了GS-Light,将其与最新技术基准线(包括视图重照明、视频重照明和场景编辑方法)进行比较。使用定量指标(多视图一致性、成像质量、美学分数、语义相似性等)和定性评估(用户研究),GS-Light在基准线之上表现出持续改进。代码和资源将在发布时提供。
论文及项目相关链接
PDF Submitting for Neurocomputing
摘要
GS-Light是一种高效、文本引导的三维场景重新照明方法。它通过多视图输入,无需训练扩展了单输入扩散模型。给定用户提示关于照明方向、颜色、强度或参考对象的信息,我们采用大型视觉语言模型(LVLM)将提示解析为照明先验。结合现成的几何和语义估计器(深度、表面法线和语义分割),我们将这些照明先验与视图几何约束融合,计算照明地图并为每个视图生成初始潜在代码。这些精心得出的初始潜在代码指导扩散模型生成更准确地反映用户期望的重新照明输出,尤其是在照明方向方面。通过多视图渲染图像和初始潜在代码,我们生成了高质量的艺术重新照明图像。最后,我们对使用重新照明外观的3DGS场景进行微调,以获得完全重新照明的三维场景。GS-Light在室内外场景上的表现均优于当前最先进的基准线方法,包括视图重新照明、视频重新照明和场景编辑方法。通过定量指标(多视图一致性、成像质量、美学评分、语义相似性)和定性评估(用户研究),GS-Light展现出对基准线的一致改进。将在发表时公开代码和资源。
关键见解
- GS-Light是一种用于文本引导的三维场景重新照明的有效方法。
- 通过使用多视图输入,GS-Light扩展了单输入扩散模型,无需进行训练。
- 通过使用大型视觉语言模型(LVLM),能够解析用户关于照明方向的提示。
- 结合几何和语义估计器计算照明地图,生成每个视图的初始潜在代码。
- 重新照明输出反映用户期望,特别是在照明方向方面。
- 通过多视图渲染图像和初始潜在代码,生成高质量的艺术重新照明图像。
点此查看论文截图
Generalized Denoising Diffusion Codebook Models (gDDCM): Tokenizing images using a pre-trained diffusion model
Authors:Fei Kong
Recently, the Denoising Diffusion Codebook Models (DDCM) was proposed. DDCM leverages the Denoising Diffusion Probabilistic Model (DDPM) and replaces the random noise in the backward process with noise sampled from specific sets according to a predefined rule, thereby enabling image compression. However, DDCM cannot be applied to methods other than DDPM. In this paper, we propose the generalized Denoising Diffusion Compression Model (gDDCM), which extends DDCM to mainstream diffusion models and their variants, including DDPM, Score-Based Models, Consistency Models, and Rectified Flow. We evaluate our method on CIFAR-10 and LSUN Bedroom datasets. Experimental results demonstrate that our approach successfully generalizes DDCM to the aforementioned models and achieves improved performance.
最近,提出了去噪扩散编码本模型(DDCM)。DDCM利用去噪扩散概率模型(DDPM),根据预设规则,将反向过程中的随机噪声替换为从特定集合中采样的噪声,从而实现图像压缩。但是,DDCM不能应用于除DDPM之外的方法。在本文中,我们提出了广义去噪扩散压缩模型(gDDCM),它将DDCM扩展到主流扩散模型及其变体,包括DDPM、基于分数的模型、一致性模型和校正流。我们在CIFAR-10和LSUN卧室数据集上评估了我们的方法。实验结果表明,我们的方法成功地将DDCM推广到了上述模型,并实现了性能提升。
论文及项目相关链接
PDF in Chinese language
Summary
近期提出了去噪扩散编码本模型(DDCM),它利用去噪扩散概率模型(DDPM)并替换反向过程中的随机噪声,采用特定集合采样噪声的方式实现图像压缩。本研究进一步推广了DDCM至主流扩散模型及其变体,包括DDPM、基于分数的模型、一致性模型和校正流,并在CIFAR-10和LSUN卧室数据集上验证了方法的成功性,实现了性能的提升。
Key Takeaways
- DDCM利用DDPM模型,通过替换反向过程中的随机噪声实现图像压缩。
- gDDCM是DDCM的广义版本,适用于主流扩散模型及其变体,包括DDPM、基于分数的模型、一致性模型和校正流。
- gDDCM在CIFAR-10和LSUN卧室数据集上进行了实验验证。
- 实验结果表明,gDDCM成功推广了DDCM至其他模型,并实现了性能的提升。
- gDDCM的提出扩大了图像压缩的应用范围,为不同类型的扩散模型提供了统一的压缩框架。
- 去噪扩散模型在图像压缩领域具有潜在的应用价值和发展前景。
点此查看论文截图
MRIQT: Physics-Aware Diffusion Model for Image Quality Transfer in Neonatal Ultra-Low-Field MRI
Authors:Malek Al Abed, Sebiha Demir, Anne Groteklaes, Elodie Germani, Shahrooz Faghihroohi, Hemmen Sabir, Shadi Albarqouni
Portable ultra-low-field MRI (uLF-MRI, 0.064 T) offers accessible neuroimaging for neonatal care but suffers from low signal-to-noise ratio and poor diagnostic quality compared to high-field (HF) MRI. We propose MRIQT, a 3D conditional diffusion framework for image quality transfer (IQT) from uLF to HF MRI. MRIQT combines realistic K-space degradation for physics-consistent uLF simulation, v-prediction with classifier-free guidance for stable image-to-image generation, and an SNR-weighted 3D perceptual loss for anatomical fidelity. The model denoises from a noised uLF input conditioned on the same scan, leveraging volumetric attention-UNet architecture for structure-preserving translation. Trained on a neonatal cohort with diverse pathologies, MRIQT surpasses recent GAN and CNN baselines in PSNR 15.3% with 1.78% over the state of the art, while physicians rated 85% of its outputs as good quality with clear pathology present. MRIQT enables high-fidelity, diffusion-based enhancement of portable ultra-low-field (uLF) MRI for deliable neonatal brain assessment.
便携式超低场磁共振成像(uLF-MRI,0.064T)为新生儿护理提供了可及的神经成像,但与其高场(HF)MRI相比,存在信噪比低和诊断质量差的问题。我们提出了MRIQT,这是一个用于从uLF到HF MRI的图像质量转移(IQT)的3D条件扩散框架。MRIQT结合了逼真的K空间退化进行物理一致的uLF模拟、v预测与无分类器引导的稳定图像到图像生成,以及用于解剖学保真度的SNR加权3D感知损失。该模型从受噪声影响的uLF输入中进行去噪,以相同的扫描为条件,利用体积注意力UNet架构进行结构保留翻译。在具有多种病理的新生儿队列上进行训练,MRIQT在PSNR上超越了最近的GAN和CNN基线,提高了15.3%,超出最新技术1.78%,同时医生评价其输出中有85%质量良好,病理清晰可见。MRIQT实现了基于扩散的高保真增强便携式超低场(uLF)MRI,可用于可靠的新生儿脑评估。
论文及项目相关链接
PDF 5 pages, 4 figures
Summary
便携式超低场磁共振成像(uLF-MRI,0.064T)在新生儿护理中提供可访问的神经成像,但与高场(HF)MRI相比,存在信号噪声比低和诊断质量差的问题。本研究提出MRIQT,一种用于从uLF到HF MRI的图像质量转移(IQT)的3D条件扩散框架。MRIQT结合逼真的K空间退化进行物理一致的uLF模拟、v预测与无分类器引导的稳定图像到图像生成,以及基于SNR的3D感知损失来保证解剖真实性。该模型从噪声uLF输入中学习并转换为同一扫描条件下的高频图像,利用体积注意力UNet架构进行结构保留翻译。在具有不同病理的新生儿队列上进行训练后,MRIQT在PSNR上超过了最新的GAN和CNN基准测试,提升了15.3%,较当前最高水平高出1.78%,而医生对其输出的评价中,有85%认为质量良好且病理清晰。MRIQT实现了基于扩散的便携式超低场(uLF)MRI高质量增强,为新生儿大脑评估提供了可靠保障。
Key Takeaways
- uLF-MRI虽然便携并适用于新生儿护理,但在信号噪声比和诊断质量方面表现不佳。
- MRIQT是首个利用条件扩散模型uLF到HF MRI的图像质量转移方法。
- MRIQT通过逼真模拟uLF到HF的过程以及基于结构保持翻译的能力提高图像质量。
- 结合多种技术(包括物理模拟、稳定图像生成、感知损失等)实现了出色的图像转换性能。
- 模型经过多样病理新生儿队列训练,具有较高的准确度和诊断能力。
- 与现有技术相比,MRIQT显著提高图像质量并获得医生的高度评价。
点此查看论文截图
GenTract: Generative Global Tractography
Authors:Alec Sargood, Lemuel Puglisi, Elinor Thompson, Mirco Musolesi, Daniel C. Alexander
Tractography is the process of inferring the trajectories of white-matter pathways in the brain from diffusion magnetic resonance imaging (dMRI). Local tractography methods, which construct streamlines by following local fiber orientation estimates stepwise through an image, are prone to error accumulation and high false positive rates, particularly on noisy or low-resolution data. In contrast, global methods, which attempt to optimize a collection of streamlines to maximize compatibility with underlying fiber orientation estimates, are computationally expensive. To address these challenges, we introduce GenTract, the first generative model for global tractography. We frame tractography as a generative task, learning a direct mapping from dMRI to complete, anatomically plausible streamlines. We compare both diffusion-based and flow matching paradigms and evaluate GenTract’s performance against state-of-the-art baselines. Notably, GenTract achieves precision 2.1x higher than the next-best method, TractOracle. This advantage becomes even more pronounced in challenging low-resolution and noisy settings, where it outperforms the closest competitor by an order of magnitude. By producing tractograms with high precision on research-grade data while also maintaining reliability on imperfect, lower-resolution data, GenTract represents a promising solution for global tractography.
神经纤维追踪(Tractography)是从扩散磁共振成像(dMRI)推断大脑白质路径轨迹的过程。局部追踪方法通过逐步跟踪图像中的局部纤维方向估计来构建流线,容易累积误差并出现较高的假阳性率,特别是在噪声较大或分辨率较低的数据上。相比之下,全局方法试图优化一组流线,以最大化其与基础纤维方向估计的兼容性,但计算成本较高。为了应对这些挑战,我们引入了GenTract,这是全球首个用于神经纤维追踪的生成模型。我们将神经纤维追踪作为生成任务,学习从dMRI到完整、解剖上合理的流线的直接映射。我们比较了基于扩散和流匹配的模式,并评估了GenTract与最新基线方法的性能。值得注意的是,GenTract的精确度比第二名TractOracle高出2.1倍。这一优势在分辨率较低和噪声较大的挑战环境中更为明显,此时它比最接近的竞争对手高出数倍。GenTract能够在研究级数据上产生高精度的追踪图,同时在处理不完美、低分辨率数据时也能保持可靠性,因此代表着全局追踪的一个有前途的解决方案。
论文及项目相关链接
Summary:
本文介绍了基于扩散模型的脑白质路径推断技术(Tractography)。局部追踪法易积累误差且易出现误报,特别是在噪声或低分辨率数据下。而全局方法虽然计算量大,但优化效果更佳。研究提出了基于生成模型的全局追踪方法GenTract,它能从扩散磁共振成像数据中直接生成完整、解剖上合理的流线。相较于其他顶尖方法,GenTract的精准度高出两倍以上,且在低分辨率和噪声环境下表现尤为出色。
Key Takeaways:
- Tractography 是从扩散磁共振成像(dMRI)推断大脑白质路径的过程。
- 局部追踪法在噪声或低分辨率数据下易积累误差和产生高误报率。
- 全局方法尝试优化流线集合以最大限度地与底层纤维方向估计相符,但计算量大。
- GenTract 是首个用于全局追踪的生成模型,能从 dMRI 直接生成完整、解剖上合理的流线。
- GenTract 采用了扩散和流匹配两种范式进行比较。
- GenTract 的性能优于其他顶尖方法,精准度高出两倍以上。
点此查看论文截图
CloseUpShot: Close-up Novel View Synthesis from Sparse-views via Point-conditioned Diffusion Model
Authors:Yuqi Zhang, Guanying Chen, Jiaxing Chen, Chuanyu Fu, Chuan Huang, Shuguang Cui
Reconstructing 3D scenes and synthesizing novel views from sparse input views is a highly challenging task. Recent advances in video diffusion models have demonstrated strong temporal reasoning capabilities, making them a promising tool for enhancing reconstruction quality under sparse-view settings. However, existing approaches are primarily designed for modest viewpoint variations, which struggle in capturing fine-grained details in close-up scenarios since input information is severely limited. In this paper, we present a diffusion-based framework, called CloseUpShot, for close-up novel view synthesis from sparse inputs via point-conditioned video diffusion. Specifically, we observe that pixel-warping conditioning suffers from severe sparsity and background leakage in close-up settings. To address this, we propose hierarchical warping and occlusion-aware noise suppression, enhancing the quality and completeness of the conditioning images for the video diffusion model. Furthermore, we introduce global structure guidance, which leverages a dense fused point cloud to provide consistent geometric context to the diffusion process, to compensate for the lack of globally consistent 3D constraints in sparse conditioning inputs. Extensive experiments on multiple datasets demonstrate that our method outperforms existing approaches, especially in close-up novel view synthesis, clearly validating the effectiveness of our design.
从稀疏的输入视角重建3D场景并合成新的视角是一项极具挑战性的任务。视频扩散模型的最新进展表现出了强大的时间推理能力,使其成为稀疏视图设置下提高重建质量的有前途的工具。然而,现有方法主要设计用于适度的视点变化,它们在捕捉近距离场景的精细细节方面遇到困难,因为输入信息严重受限。在本文中,我们提出了一种基于扩散的框架,称为CloseUpShot,通过点条件视频扩散进行近距离新颖视图合成。具体来说,我们发现像素warp条件在近距离设置中存在严重的稀疏性和背景泄漏问题。为了解决这个问题,我们提出了层次warp和遮挡感知噪声抑制,提高了视频扩散模型的条件图像的质量和完整性。此外,我们引入了全局结构指导,利用密集融合点云为扩散过程提供一致的几何上下文,以弥补稀疏条件输入中缺乏全局一致的3D约束。在多个数据集上的大量实验表明,我们的方法优于现有方法,特别是在近距离新颖视图合成方面,这清楚地验证了我们的设计的有效性。
论文及项目相关链接
PDF Project Link: https://zyqz97.github.io/CloseUpShot/
摘要
重建三维场景并从未知视角合成新型图像是一个极富挑战性的任务。最新的视频扩散模型展现出强大的时间推理能力,使其在稀疏视角条件下增强重建质量方面展现出巨大潜力。然而,现有方法主要针对视角变化不大的情况,难以捕捉近距离场景中的精细细节,因为输入信息严重受限。本文提出了一种基于扩散的框架CloseUpShot,通过点条件视频扩散从稀疏输入进行近距离新型视角合成。我们发现像素级扭曲条件在近距离设置中存在严重稀疏性和背景泄露问题。为解决此问题,我们提出层次扭曲和遮挡感知噪声抑制技术,提升视频扩散模型的参考图像质量和完整性。此外,我们引入全局结构引导,利用密集融合点云为扩散过程提供一致的几何上下文,以弥补稀疏条件输入中缺乏全局一致的3D约束。在多个数据集上的广泛实验表明,我们的方法优于现有技术,特别是在近距离新颖视角合成方面,验证了我们的设计有效性。
关键见解
- 重建三维场景并合成稀疏输入的新视角图像是一项具有挑战性的任务。
- 视频扩散模型展现出强大的时间推理能力,在稀疏视角条件下有增强重建质量的潜力。
- 现有方法主要处理视角变化不大的情况,难以捕捉近距离场景中的精细细节。
- CloseUpShot框架通过点条件视频扩散解决从稀疏输入进行近距离新型视角合成的问题。
- 像素级扭曲条件在近距离合成中存在稀疏性和背景泄露问题。
- 层次扭曲和遮挡感知噪声抑制技术提升参考图像质量和完整性。
- 通过引入全局结构引导,利用密集融合点云提供一致的几何上下文,弥补稀疏输入中的全局3D约束缺失。
点此查看论文截图
DGS-Net: Distillation-Guided Gradient Surgery for CLIP Fine-Tuning in AI-Generated Image Detection
Authors:Jiazhen Yan, Ziqiang Li, Fan Wang, Boyu Wang, Zhangjie Fu
The rapid progress of generative models such as GANs and diffusion models has led to the widespread proliferation of AI-generated images, raising concerns about misinformation, privacy violations, and trust erosion in digital media. Although large-scale multimodal models like CLIP offer strong transferable representations for detecting synthetic content, fine-tuning them often induces catastrophic forgetting, which degrades pre-trained priors and limits cross-domain generalization. To address this issue, we propose the Distillation-guided Gradient Surgery Network (DGS-Net), a novel framework that preserves transferable pre-trained priors while suppressing task-irrelevant components. Specifically, we introduce a gradient-space decomposition that separates harmful and beneficial descent directions during optimization. By projecting task gradients onto the orthogonal complement of harmful directions and aligning with beneficial ones distilled from a frozen CLIP encoder, DGS-Net achieves unified optimization of prior preservation and irrelevant suppression. Extensive experiments on 50 generative models demonstrate that our method outperforms state-of-the-art approaches by an average margin of 6.6, achieving superior detection performance and generalization across diverse generation techniques.
生成模型(如GAN和扩散模型)的快速发展导致了AI生成图像的广泛传播,引发了关于数字媒体中的误导信息、侵犯隐私和对信任的侵蚀的担忧。虽然像CLIP这样的大规模多模态模型为检测合成内容提供了强大的可迁移表示,但对它们进行微调常常会引发灾难性遗忘,这降低了预训练先验知识并限制了跨域泛化。为了解决这一问题,我们提出了Distillation-guided Gradient Surgery Network(DGS-Net),这是一种新型框架,能够保留可迁移的预训练先验知识,同时抑制与任务无关的成分。具体来说,我们引入了梯度空间分解,在优化过程中分离有害和有益的下降方向。通过将任务梯度投影到有害方向的正交补集上,并与从冻结的CLIP编码器中提炼出的有益梯度对齐,DGS-Net实现了先验知识保留和无关抑制的统一优化。在50个生成模型上的大量实验表明,我们的方法比最新方法平均高出6.6个百分点,在多种生成技术上实现了更出色的检测性能和泛化能力。
论文及项目相关链接
Summary
生成模型如GAN和扩散模型的快速发展导致AI生成图像的大量涌现,引发了对数字媒体中虚假信息、隐私侵犯和信任侵蚀的担忧。为解决大型多模态模型如CLIP在检测合成内容时面临的微调灾难遗忘问题,本文提出Distillation-guided Gradient Surgery Network(DGS-Net)框架。它能保留可迁移的预训练先验知识,同时抑制与任务无关的成分。实验证明,DGS-Net在50个生成模型上的表现优于现有技术,平均提高6.6个百分点的检测性能和跨不同生成技术的泛化能力。
Key Takeaways
- 生成模型(如GANs和扩散模型)的快速发展导致了AI生成图像的大量出现。
- AI生成图像引发对数字媒体中虚假信息、隐私侵犯和信任问题的担忧。
- 大型多模态模型如CLIP在检测合成内容时面临微调灾难遗忘问题。
- DGS-Net框架能保留可迁移的预训练先验知识,同时抑制与任务无关的成分。
- DGS-Net通过梯度空间分解来分离有害和有益的下降方向,实现优化过程中的先验保留和无关成分抑制。
- DGS-Net使用蒸馏技术从冻结的CLIP编码器中提取有益梯度,并与任务梯度对齐。
点此查看论文截图
Towards 3D Object-Centric Feature Learning for Semantic Scene Completion
Authors:Weihua Wang, Yubo Cui, Xiangru Lin, Zhiheng Li, Zheng Fang
Vision-based 3D Semantic Scene Completion (SSC) has received growing attention due to its potential in autonomous driving. While most existing approaches follow an ego-centric paradigm by aggregating and diffusing features over the entire scene, they often overlook fine-grained object-level details, leading to semantic and geometric ambiguities, especially in complex environments. To address this limitation, we propose Ocean, an object-centric prediction framework that decomposes the scene into individual object instances to enable more accurate semantic occupancy prediction. Specifically, we first employ a lightweight segmentation model, MobileSAM, to extract instance masks from the input image. Then, we introduce a 3D Semantic Group Attention module that leverages linear attention to aggregate object-centric features in 3D space. To handle segmentation errors and missing instances, we further design a Global Similarity-Guided Attention module that leverages segmentation features for global interaction. Finally, we propose an Instance-aware Local Diffusion module that improves instance features through a generative process and subsequently refines the scene representation in the BEV space. Extensive experiments on the SemanticKITTI and SSCBench-KITTI360 benchmarks demonstrate that Ocean achieves state-of-the-art performance, with mIoU scores of 17.40 and 20.28, respectively.
基于视觉的3D语义场景补全(SSC)因其在自动驾驶领域的应用潜力而受到越来越多的关注。虽然大多数现有方法采用以自我为中心的方法,通过在整个场景上聚合和扩散特征,但它们往往忽视了精细的对象级细节,导致语义和几何歧义,特别是在复杂环境中。为了解决这一局限性,我们提出了Ocean,一个以对象为中心的预测框架,它将场景分解为单个对象实例,以实现更准确的语义占用预测。具体来说,我们首先采用轻量级分割模型MobileSAM从输入图像中提取实例掩码。然后,我们引入了一个3D语义组注意力模块,利用线性注意力在3D空间中聚合以对象为中心的特征。为了处理分割错误和缺失的实例,我们进一步设计了一个全局相似度引导注意力模块,利用分割特征进行全局交互。最后,我们提出了一个实例感知局部扩散模块,通过生成过程改进实例特征,然后细化BEV空间中的场景表示。在SemanticKITTI和SSCBench-KITTI360基准测试上的大量实验表明,Ocean达到了最先进的性能,mIoU得分分别为17.40和20.28。
论文及项目相关链接
PDF Accept by AAAI-2026
Summary
本文关注基于视觉的3D语义场景补全(SSC)在自动驾驶领域的应用。针对现有方法忽略对象级别的细节导致的语义和几何模糊问题,提出了Ocean框架。它采用对象中心预测,将场景分解为独立对象实例,实现更准确的语义占用预测。通过模块设计,实现了场景在实例级别上的精细化理解和表达,提高了在复杂环境下的性能。在SemanticKITTI和SSCBench-KITTI360基准测试中,Ocean取得了最新性能,mIoU得分分别为17.4和20.28。
Key Takeaways
- 自动驾驶中,基于视觉的3D语义场景补全(SSC)受到关注。
- 现有方法多采用以自我为中心的范式,导致语义和几何模糊问题。
- Ocean框架采用对象中心预测,分解场景为独立对象实例,实现更准确语义占用预测。
- Ocean设计了多个模块处理分割错误和缺失实例问题,提高性能。
- Ocean通过模块设计实现场景在实例级别上的精细化理解和表达。
- Ocean在SemanticKITTI和SSCBench-KITTI360基准测试中取得最新性能。
点此查看论文截图
Infinite-Story: A Training-Free Consistent Text-to-Image Generation
Authors:Jihun Park, Kyoungmin Lee, Jongmin Gim, Hyeonseo Jo, Minseok Oh, Wonhyeok Choi, Kyumin Hwang, Jaeyeul Kim, Minwoo Choi, Sunghoon Im
We present Infinite-Story, a training-free framework for consistent text-to-image (T2I) generation tailored for multi-prompt storytelling scenarios. Built upon a scale-wise autoregressive model, our method addresses two key challenges in consistent T2I generation: identity inconsistency and style inconsistency. To overcome these issues, we introduce three complementary techniques: Identity Prompt Replacement, which mitigates context bias in text encoders to align identity attributes across prompts; and a unified attention guidance mechanism comprising Adaptive Style Injection and Synchronized Guidance Adaptation, which jointly enforce global style and identity appearance consistency while preserving prompt fidelity. Unlike prior diffusion-based approaches that require fine-tuning or suffer from slow inference, Infinite-Story operates entirely at test time, delivering high identity and style consistency across diverse prompts. Extensive experiments demonstrate that our method achieves state-of-the-art generation performance, while offering over 6X faster inference (1.72 seconds per image) than the existing fastest consistent T2I models, highlighting its effectiveness and practicality for real-world visual storytelling.
我们提出了Infinite-Story,这是一个无需训练的文本到图像(T2I)生成框架,专为多提示叙事场景定制。我们的方法建立在规模自适应回归模型之上,解决了文本一致性生成中的两个关键挑战:身份不一致和风格不一致。为了克服这些问题,我们引入了三种互补技术:身份提示替换,这减轻了文本编码器的上下文偏见,使跨提示的身份属性对齐;以及包含自适应风格注入和同步指导适应的统一注意力指导机制,它们共同执行全局风格和身份外观的一致性,同时保持提示保真度。与先前需要微调或面临慢速推理的基于扩散的方法不同,Infinite-Story完全在测试阶段运行,实现在不同提示下高身份和风格的一致性。大量实验表明,我们的方法实现了最先进的生成性能,同时提供比现有最快的一致T2I模型快6倍以上的推理速度(每秒生成1.72张图像),这突显了其在现实世界的视觉叙事中的有效性和实用性。
论文及项目相关链接
PDF 18pages, 13 figures, AAAI 2026 Oral
Summary
无限故事:无需训练的一致文本到图像生成框架。该方法针对多提示叙事场景,解决身份不一致和风格不一致两大挑战。引入三种互补技术:身份提示替换、自适应风格注入和同步指导适应的统一注意力引导机制,实现全局风格和身份外观的一致性,同时保持提示的保真度。与需要微调或推理速度慢的扩散方法不同,无限故事完全在测试阶段运行,实现高身份和风格的一致性,提供超过现有最快一致T2I模型6倍以上的推理速度(每秒生成1.72张图像)。
Key Takeaways
- 介绍了无限故事框架,这是一个无需训练的文本到图像生成方法,特别适用于多提示叙事场景。
- 该框架解决了文本到图像生成中的两个关键挑战:身份不一致和风格不一致。
- 通过引入身份提示替换技术,减轻了文本编码器中的上下文偏见,使不同提示间的身份属性保持一致。
- 提出的自适应风格注入和同步指导适应的统一注意力引导机制,共同保证了全局风格和身份外观的一致性。
- 无限故事框架完全在测试阶段运行,无需训练,实现了快速推理,显著优于现有方法。
- 实验表明,该方法在生成性能方面达到最新水平,并展示了其在实际视觉叙事中的有效性和实用性。
点此查看论文截图
SplatSearch: Instance Image Goal Navigation for Mobile Robots using 3D Gaussian Splatting and Diffusion Models
Authors:Siddarth Narasimhan, Matthew Lisondra, Haitong Wang, Goldie Nejat
The Instance Image Goal Navigation (IIN) problem requires mobile robots deployed in unknown environments to search for specific objects or people of interest using only a single reference goal image of the target. This problem can be especially challenging when: 1) the reference image is captured from an arbitrary viewpoint, and 2) the robot must operate with sparse-view scene reconstructions. In this paper, we address the IIN problem, by introducing SplatSearch, a novel architecture that leverages sparse-view 3D Gaussian Splatting (3DGS) reconstructions. SplatSearch renders multiple viewpoints around candidate objects using a sparse online 3DGS map, and uses a multi-view diffusion model to complete missing regions of the rendered images, enabling robust feature matching against the goal image. A novel frontier exploration policy is introduced which uses visual context from the synthesized viewpoints with semantic context from the goal image to evaluate frontier locations, allowing the robot to prioritize frontiers that are semantically and visually relevant to the goal image. Extensive experiments in photorealistic home and real-world environments validate the higher performance of SplatSearch against current state-of-the-art methods in terms of Success Rate and Success Path Length. An ablation study confirms the design choices of SplatSearch.
实例图像目标导航(IIN)问题要求部署在未知环境中的移动机器人仅使用单个目标参考图像来搜索特定对象或感兴趣的人。当面临以下情况时,这个问题可能尤其具有挑战性:1)参考图像是从任意视角捕获的;2)机器人必须在稀疏视图场景重建中进行操作。在本文中,我们针对IIN问题,通过引入SplatSearch这一新型架构来解决该问题,该架构利用稀疏视图3D高斯展布(3DGS)重建。SplatSearch使用稀疏在线3DGS地图在候选对象周围呈现多个视点,并使用多视图扩散模型完成渲染图像的缺失区域,从而实现与目标图像之间的稳健特征匹配。我们介绍了一种新的前沿探索策略,该策略使用合成视点的视觉上下文和目标图像的语义上下文来评估前沿位置,从而使机器人能够优先处理在语义和视觉方面与目标图像相关的前沿。在逼真家居和真实世界环境中的大量实验验证了SplatSearch相较于当前最新方法在成功率和成功路径长度方面的更高性能。消融研究证实了SplatSearch的设计选择。
论文及项目相关链接
PDF Project Page: https://splat-search.github.io/
Summary
本论文研究了Instance Image Goal Navigation(IIN)问题,即移动机器人在未知环境中仅使用目标图像进行特定对象或人物的搜索任务。针对参考图像视角任意及机器人需操作稀疏视图场景重建的挑战,提出了SplatSearch架构。该架构利用稀疏视图3D高斯映射(3DGS)重建,通过渲染候选对象的多视角并使用多视角扩散模型完成图像缺失区域的补充,从而实现与目标图像的鲁棒特征匹配。此外,引入了一种新的边界探索策略,结合合成视角的视觉上下文与目标图像的语义上下文来评估边界位置,使机器人能够优先探索语义和视觉上与目标图像相关的边界。实验证明,SplatSearch在真实家居和真实环境中较当前先进方法具有更高的成功率和更短的路径长度。
Key Takeaways
- IIN问题要求机器人在未知环境中仅使用单一目标图像进行特定对象或人物的搜索。
- SplatSearch架构解决了IIN问题,通过利用稀疏视图3D高斯映射(3DGS)进行重建。
- SplatSearch通过渲染候选对象的多视角并使用多视角扩散模型完成图像缺失区域的补充,实现鲁棒特征匹配。
- 引入了一种新的边界探索策略,结合视觉和语义上下文来评估边界位置的优先级。
- 实验证明SplatSearch在真实环境中较当前方法性能更高。
- SplatSearch的成功率和路径长度均优于其他方法。
点此查看论文截图
GrOCE:Graph-Guided Online Concept Erasure for Text-to-Image Diffusion Models
Authors:Ning Han, Zhenyu Ge, Feng Han, Yuhua Sun, Chengqing Li, Jingjing Chen
Concept erasure aims to remove harmful, inappropriate, or copyrighted content from text-to-image diffusion models while preserving non-target semantics. However, existing methods either rely on costly fine-tuning or apply coarse semantic separation, often degrading unrelated concepts and lacking adaptability to evolving concept sets. To alleviate this issue, we propose Graph-Guided Online Concept Erasure (GrOCE), a training-free framework that performs precise and adaptive concept removal through graph-based semantic reasoning. GrOCE models concepts and their interrelations as a dynamic semantic graph, enabling principled reasoning over dependencies and fine-grained isolation of undesired content. It comprises three components: (1) Dynamic Topological Graph Construction for incremental graph building, (2) Adaptive Cluster Identification for multi-hop traversal with similarity-decay scoring, and (3) Selective Edge Severing for targeted edge removal while preserving global semantics. Extensive experiments demonstrate that GrOCE achieves state-of-the-art performance on Concept Similarity (CS) and Fréchet Inception Distance (FID) metrics, offering efficient, accurate, and stable concept erasure without retraining.
概念擦除旨在从文本到图像的扩散模型中删除有害、不合适或版权内容,同时保留非目标语义。然而,现有方法要么依赖于昂贵的微调,要么应用粗糙的语义分离,经常导致无关概念的退化,并且缺乏对不断变化的概念集的适应性。为了缓解这个问题,我们提出了无需训练的Graph-Guided Online Concept Erasure(GrOCE)框架,它通过基于图的语义推理进行精确和自适应的概念删除。GrOCE将概念及其相互关系建模为动态语义图,实现对依赖关系的原则性推理和对不需要内容的精细粒度隔离。它包括三个组件:1)动态拓扑图构建,用于增量图构建;2)自适应集群识别,用于多跳遍历与相似性衰减评分;3)选择性边缘切断,用于目标边缘删除,同时保留全局语义。大量实验表明,GrOCE在概念相似性和Fréchet Inception Distance(FID)指标上达到了最新技术水平,提供了高效、准确、稳定的概念擦除,无需重新训练。
论文及项目相关链接
PDF 10 pages, 6 figures
Summary
文本介绍了概念擦除技术在文本到图像扩散模型中的应用,旨在去除有害、不合适或版权内容,同时保留非目标语义。针对现有方法的局限性,提出了一种名为Graph-Guided Online Concept Erasure (GrOCE)的新框架,该框架采用基于图的语义推理进行精确和自适应的概念去除,无需重新训练即可应对不断变化的概念集。
Key Takeaways
- 概念擦除的目标是从文本到图像的扩散模型中移除有害、不合适或版权内容,同时保留非目标语义。
- 现有方法存在依赖昂贵的微调或应用粗糙语义分离的问题,经常导致无关概念退化,缺乏适应不断变化概念集的能力。
- GrOCE框架是一种基于图的语义推理进行精确和自适应概念去除的新方法,解决了上述问题。
- GrOCE框架包括三个主要组件:动态拓扑图构建、自适应集群识别和选择性边缘切断。
- 动态拓扑图构建用于增量构建图。
- 自适应集群识别通过多跳遍历和相似性衰减评分来识别并处理概念集群。
点此查看论文截图
PFAvatar: Pose-Fusion 3D Personalized Avatar Reconstruction from Real-World Outfit-of-the-Day Photos
Authors:Dianbing Xi, Guoyuan An, Jingsen Zhu, Zhijian Liu, Yuan Liu, Ruiyuan Zhang, Jiayuan Lu, Rui Wang, Yuchi Huo
We propose PFAvatar (Pose-Fusion Avatar), a new method that reconstructs high-quality 3D avatars from ``Outfit of the Day’’ (OOTD) photos, which exhibit diverse poses, occlusions, and complex backgrounds. Our method consists of two stages: (1) fine-tuning a pose-aware diffusion model from few-shot OOTD examples and (2) distilling a 3D avatar represented by a neural radiance field (NeRF). In the first stage, unlike previous methods that segment images into assets (e.g., garments, accessories) for 3D assembly, which is prone to inconsistency, we avoid decomposition and directly model the full-body appearance. By integrating a pre-trained ControlNet for pose estimation and a novel Condition Prior Preservation Loss (CPPL), our method enables end-to-end learning of fine details while mitigating language drift in few-shot training. Our method completes personalization in just 5 minutes, achieving a 48$\times$ speed-up compared to previous approaches. In the second stage, we introduce a NeRF-based avatar representation optimized by canonical SMPL-X space sampling and Multi-Resolution 3D-SDS. Compared to mesh-based representations that suffer from resolution-dependent discretization and erroneous occluded geometry, our continuous radiance field can preserve high-frequency textures (e.g., hair) and handle occlusions correctly through transmittance. Experiments demonstrate that PFAvatar outperforms state-of-the-art methods in terms of reconstruction fidelity, detail preservation, and robustness to occlusions/truncations, advancing practical 3D avatar generation from real-world OOTD albums. In addition, the reconstructed 3D avatar supports downstream applications such as virtual try-on, animation, and human video reenactment, further demonstrating the versatility and practical value of our approach.
我们提出了PFAvatar(姿态融合化身),这是一种新的方法,可以从“日常穿搭”(OOTD)照片重建高质量的三维化身。这些照片展现出多种姿态、遮挡和复杂背景。我们的方法分为两个阶段:(1)通过少量OOTD样本对姿态感知扩散模型进行微调;(2)通过神经辐射场(NeRF)表示三维化身并进行提炼。在第一阶段,与以往将图像分割成资产(如服装、配饰)进行三维组装的方法不同,这种方法容易导致不一致性。我们避免分解,直接对全身外观进行建模。通过集成预训练的ControlNet进行姿态估计和新颖的条件先验保留损失(CPPL),我们的方法能够在端到端学习中精细细节,同时减轻少量训练中的语言漂移。我们的方法在仅5分钟内完成个性化设置,与以前的方法相比实现了48倍的加速。在第二阶段,我们引入了一种基于NeRF的化身表示,通过规范的SMPL-X空间采样和多分辨率3D-SDS进行优化。与基于网格的表示方法相比,后者受限于分辨率的离散化和遮挡的几何错误,我们连续的辐射场可以保留高频纹理(例如头发),并通过透明度正确地处理遮挡。实验表明,PFAvatar在重建保真度、细节保留和抗遮挡/截断方面优于现有技术,推动了从现实世界OOTD相册生成实用三维化身的发展。此外,重建的三维化身支持下游应用,如虚拟试穿、动画和人体视频重播,进一步证明了我们方法的通用性和实用价值。
论文及项目相关链接
PDF Accepted by AAAI 2026
Summary
我们提出了一种名为PFAvatar(姿态融合化身)的新方法,可以从多样化的姿态、遮挡和复杂背景的“每日穿搭”(OOTD)照片中重建高质量的三维化身。该方法分为两个阶段:一是微调姿态感知扩散模型以适应少量OOTD示例,二是通过神经辐射场(NeRF)表示三维化身。该方法避免了资产分解,直接对全身外观进行建模,能够在短时间内完成个性化定制,并实现了高分辨率纹理和正确遮挡处理。实验结果证明了PFAvatar在重建保真度、细节保留以及对遮挡和截断情况的鲁棒性方面的优越性。此外,重建的三维化身支持下游应用,如虚拟试穿、动画和人类视频重新演绎,展示了该方法的通用性和实用价值。
Key Takeaways
- PFAvatar方法可以从OOTD照片中重建高质量的三维化身。
- 方法分为两个阶段:微调姿态感知扩散模型和通过NeRF表示三维化身。
- 避免资产分解,直接对全身外观进行建模,实现个性化定制。
- 端到端学习方法可以精细细节,同时减轻语言漂移问题。
- NeRF表示能够保留高分辨率纹理并正确处理遮挡情况。
- PFAvatar在重建保真度、细节保留和对遮挡/截断情况的鲁棒性方面优于现有方法。
点此查看论文截图
cryoSENSE: Compressive Sensing Enables High-throughput Microscopy with Sparse and Generative Priors on the Protein Cryo-EM Image Manifold
Authors:Zain Shabeeb, Daniel Saeedi, Darin Tsui, Vida Jamali, Amirali Aghazadeh
Cryo-electron microscopy (cryo-EM) enables the atomic-resolution visualization of biomolecules; however, modern direct detectors generate data volumes that far exceed the available storage and transfer bandwidth, thereby constraining practical throughput. We introduce cryoSENSE, the computational realization of a hardware-software co-designed framework for compressive cryo-EM sensing and acquisition. We show that cryo-EM images of proteins lie on low-dimensional manifolds that can be independently represented using sparse priors in predefined bases and generative priors captured by a denoising diffusion model. cryoSENSE leverages these low-dimensional manifolds to enable faithful image reconstruction from spatial and Fourier-domain undersampled measurements while preserving downstream structural resolution. In experiments, cryoSENSE increases acquisition throughput by up to 2.5$\times$ while retaining the original 3D resolution, offering controllable trade-offs between the number of masked measurements and the level of downsampling. Sparse priors favor faithful reconstruction from Fourier-domain measurements and moderate compression, whereas generative diffusion priors achieve accurate recovery from pixel-domain measurements and more severe undersampling. Project website: https://cryosense.github.io.
冷冻电子显微镜(cryo-EM)能够实现生物分子的原子分辨率可视化;然而,现代直接探测器生成的数据量远远超过了可用的存储和传输带宽,从而限制了实际吞吐量。我们引入了cryoSENSE,这是硬件和软件协同设计框架的计算实现,用于压缩冷冻电子显微镜(cryo-EM)感知和采集。我们证明蛋白质冷冻电子显微镜图像位于低维流形上,可以使用预定义基中的稀疏先验和由降噪扩散模型捕获的生成先验进行独立表示。cryoSENSE利用这些低维流形实现从空间和傅里叶域欠采样测量进行忠实图像重建,同时保留下游结构分辨率。在实验中,cryoSENSE将采集速度提高了高达2.5倍,同时保持了原始的3D分辨率,在掩膜测量的数量和欠采样的程度之间实现了可控的权衡。稀疏先验有利于从傅里叶域测量和适度压缩中实现忠实重建,而生成扩散先验则可从像素域测量和更严重的欠采样中实现准确恢复。项目网站:https://cryosense.github.io。
论文及项目相关链接
Summary
cryoSENSE 是软硬件协同设计的计算框架,用于压缩低温电子显微镜(cryo-EM)图像采集与重建。框架支持图像稀疏先验生成和利用扩散模型重建过程以从欠采样数据中忠实重建图像并保持结构分辨率。实验显示,cryoSENSE 可提高采集速度达 2.5 倍同时保持原有 3D 分辨率。该框架可根据掩膜测量数量和欠采样程度进行控制权衡。框架允许在更极端的欠采样条件下,从像素域测量中获得准确的重建结果。有关详细信息,请访问项目网站:https://cryosense.github.io。
Key Takeaways
- cryoSENSE 是用于压缩低温电子显微镜(cryo-EM)图像采集与重建的计算框架。
- 该框架利用图像稀疏先验和扩散模型进行图像重建。
- cryoSENSE 可提高采集速度达 2.5 倍,同时保持原有 3D 分辨率。
- 该框架支持从欠采样数据中忠实重建图像。
- 框架利用硬件和软件协同设计以实现高效数据采集和重建。
- 实验表明,该框架可在极端的欠采样条件下获得准确的重建结果。
点此查看论文截图
Algorithms Trained on Normal Chest X-rays Can Predict Health Insurance Types
Authors:Chi-Yu Chen, Rawan Abulibdeh, Arash Asgari, Leo Anthony Celi, Deirdre Goode, Hassan Hamidi, Laleh Seyyed-Kalantari, Ned McCague, Thomas Sounack, Po-Chih Kuo
Artificial intelligence is revealing what medicine never intended to encode. Deep vision models, trained on chest X-rays, can now detect not only disease but also invisible traces of social inequality. In this study, we show that state-of-the-art architectures (DenseNet121, SwinV2-B, MedMamba) can predict a patient’s health insurance type, a strong proxy for socioeconomic status, from normal chest X-rays with significant accuracy (AUC around 0.67 on MIMIC-CXR-JPG, 0.68 on CheXpert). The signal persists even when age, race, and sex are controlled for, and remains detectable when the model is trained exclusively on a single racial group. Patch-based occlusion reveals that the signal is diffuse rather than localized, embedded in the upper and mid-thoracic regions. This suggests that deep networks may be internalizing subtle traces of clinical environments, equipment differences, or care pathways; learning socioeconomic segregation itself. These findings challenge the assumption that medical images are neutral biological data. By uncovering how models perceive and exploit these hidden social signatures, this work reframes fairness in medical AI: the goal is no longer only to balance datasets or adjust thresholds, but to interrogate and disentangle the social fingerprints embedded in clinical data itself.
人工智能正在揭示医学从未打算编码的信息。基于胸部X射图像的深度视觉模型现在不仅能够检测疾病,还能发现社会不平等的隐形痕迹。在这项研究中,我们展示了最先进的架构(DenseNet121、SwinV2-B、MedMamba)能从正常的胸部X射图像中准确预测患者的健康保险类型(作为社会经济地位的强烈代理指标),其准确度较高(在MIMIC-CXR-JPG上为AUC约0.67,在CheXpert上为0.68)。即使在控制年龄、种族和性别后,这一信号依然存在,并且在模型仅针对单一种族群体进行训练时仍然可检测。基于补丁的遮挡表明信号是分散的而非局部的,位于上胸部和中胸部区域。这表明深度网络可能正在内化临床环境、设备差异或护理路径的微妙痕迹;学习社会经济分割本身。这些发现挑战了医学图像是中立生物数据的假设。通过揭示模型如何感知和利用这些隐藏的社会签名,这项工作重新定义了医疗人工智能的公平性:目标不再仅仅是平衡数据集或调整阈值,而是质疑和分解嵌入在临床数据中的社会指纹。
论文及项目相关链接
PDF Submitting to MIDL 2026
Summary
本研究的模型展示了深度学习技术在对医学影像数据解读的过程中可能带有的社会属性偏见,即便是面对不涉及病理的胸部X光片也能够分析出患者所享受的医疗保险等级和背后潜在的社会经济状况等隐私信息。分析过程中采用了一系列的深度视觉模型(如DenseNet121、SwinV2-B和MedMamba等),能够在图像的不同区域捕捉到与某种健康保障相关联的信息信号。因此要求重新审视医疗影像数据的公平性问题,不仅仅是数据集平衡或阈值调整的问题,更涉及到临床数据中隐藏的与社会性联系复杂的指痕剖析与分离的任务。通过分析这种现象可了解如何促进公正且合乎伦理的医疗AI系统设计与应用。对此深入研究提供了挑战视角的深入研究意见同时对整个医学行业关于数据和AI使用的看法带来深远的影响。同时也意味着算法开发者必须对AI技术能够编码与解读出个体难以察觉的社会地位背景有所了解。当前的结果意味着无法忽略由于医学成像环境,设备差异或者护理途径的差异而可能造成社会身份被暴露的情况。模型不仅通过识别病理特征,还通过捕捉微妙的临床环境差异来揭示患者的社会经济状况。这进一步揭示了医学图像并非单纯反映生物学信息的观点。这一发现将重塑医疗领域对影像数据及其使用方式的看法,促使未来更加注重对数据使用的监管及研究应用的公平性审查工作。总而言之,该项研究强调,现代技术使得成像所带来除了治疗性的内容还包括无形的社会学复杂性特征的泄露值得进一步研究以保证信息利用既符合公平正义又具有人性化。基于这一发现,未来的医疗AI系统需要更加关注如何避免这种社会偏见的嵌入和传播。同时,这也提醒我们重新审视人工智能在医疗领域的应用过程中可能出现的伦理问题,以确保技术的公平性和公正性。同时需要采取更多措施确保隐私保护和数据安全,避免引发社会歧视等问题。此外,也需要加强对于相关领域的伦理审查工作,以确保新技术的发展不会对社会公平和公正造成威胁。对此发现的认识与后续应用研究将是医疗人工智能领域的重点之一。本研究的结果为我们提供了重新认识AI应用的视角。只有彻底理解了医学影像数据与社会经济现象间的潜在联系才能真正驾驭这类强大技术的潜能为社会服务并且保障公众的利益。通过一系列深入细致的研究步骤对公平性和伦理性的探索为医疗人工智能的进步奠定了坚实的基础也为未来更广泛地推进机器学习模型与生物医学领域的结合铺平了道路从而更加全面深刻地推进科技服务于人类社会这一目标的实现也开辟了新思路推动了技术的公正性与普及化的共同进展因此它的出现必将带来深远的积极影响并将继续成为行业内的研究热点方向之一并为医学科技与社会伦理带来长远的积极贡献未来研究者将能够充分利用此类工具进一步推动医学人工智能领域的进步与发展为公众的健康福祉做出更大的贡献。我们面临的挑战是如何确保技术的公平性和公正性并消除其可能带来的偏见和歧视以确保所有人都能公平地享受技术带来的好处。因此我们需要继续深入研究并探索新的解决方案以确保人工智能技术在医疗领域的应用能够真正造福于人类并推动科技进步的步伐同时也要遵循公平公正的基本原则推进技术应用更加广泛地覆盖各个领域和行业以解决我们面临的各类问题和挑战同时还要重视新技术应用带来的伦理道德问题确保人工智能技术的健康发展能够为人类社会带来长远的积极影响为构建更加公平和谐的社会贡献力量同时该研究还为我们提供了在算法设计之初就注重公平性和伦理性的思考框架帮助我们避免偏见和歧视的出现从而保证算法公正性和透明度以实现更加广泛的人工智能技术应用及其所带来的积极影响为我们构建更加公正和公平的社会提供了新的视角和思考方向确保了技术在发展应用过程中始终保持公平正义的底线确保了社会公平公正性同时也能为社会公共利益带来更多正向意义并实现科学技术伦理原则的共享使得新的智能技术和科技创新应用越来越安全可靠的反应社会各阶层需求的共同富裕原则为未来更先进的算法技术和研究道路奠定了基础支撑着我们不断探索如何优化机器学习算法和社会福利需求的协调发展通过不断改进模型的应用方式方法和技术处理措施逐步消除了不公平不公正的干扰因素同时继续保持推动科技的快速发展促进社会整体的繁荣与进步保障了人们的公平获得服务实现以人为本的目标为我们的医疗科研发展和临床实践带来了新的契机与发展机遇拓展了科学研究的视野促进了人工智能技术在医学领域的深度应用为构建和谐社会贡献出更大的力量也为人工智能技术在其他领域的应用提供了强有力的理论支撑和科学依据明确了研究方向具有重要的里程碑意义
```summary``(这里将给出对文本的核心内容进行的简化概述):
点此查看论文截图
Virtual Multiplex Staining for Histological Images using a Marker-wise Conditioned Diffusion Model
Authors:Hyun-Jic Oh, Junsik Kim, Zhiyi Shi, Yichen Wu, Yu-An Chen, Peter K. Sorger, Hanspeter Pfister, Won-Ki Jeong
Multiplex imaging is revolutionizing pathology by enabling the simultaneous visualization of multiple biomarkers within tissue samples, providing molecular-level insights that traditional hematoxylin and eosin (H&E) staining cannot provide. However, the complexity and cost of multiplex data acquisition have hindered its widespread adoption. Additionally, most existing large repositories of H&E images lack corresponding multiplex images, limiting opportunities for multimodal analysis. To address these challenges, we leverage recent advances in latent diffusion models (LDMs), which excel at modeling complex data distributions by utilizing their powerful priors for fine-tuning to a target domain. In this paper, we introduce a novel framework for virtual multiplex staining that utilizes pretrained LDM parameters to generate multiplex images from H&E images using a conditional diffusion model. Our approach enables marker-by-marker generation by conditioning the diffusion model on each marker, while sharing the same architecture across all markers. To tackle the challenge of varying pixel value distributions across different marker stains and to improve inference speed, we fine-tune the model for single-step sampling, enhancing both color contrast fidelity and inference efficiency through pixel-level loss functions. We validate our framework on two publicly available datasets, notably demonstrating its effectiveness in generating up to 18 different marker types with improved accuracy, a substantial increase over the 2-3 marker types achieved in previous approaches. This validation highlights the potential of our framework, pioneering virtual multiplex staining. Finally, this paper bridges the gap between H&E and multiplex imaging, potentially enabling retrospective studies and large-scale analyses of existing H&E image repositories.
多路成像技术能够通过在组织样本中同时可视化多个生物标志物,为病理学带来革命性的变革,提供分子水平的见解,这是传统的苏木精和伊红(H&E)染色无法提供的。然而,多路数据获取的复杂性和成本阻碍了其广泛采用。此外,大多数现有的H&E图像大型存储库缺少相应的多路图像,限制了多模式分析的机会。为了解决这些挑战,我们利用潜在扩散模型(LDM)的最新进展,该模型通过利用强大的先验知识对目标领域进行微调,擅长对复杂数据分布进行建模。在本文中,我们介绍了一种利用预训练的LDM参数生成多路图像的新框架,该框架使用条件扩散模型从H&E图像生成多路图像。我们的方法通过针对每个标志物对扩散模型进行条件处理来生成标志物,同时共享所有标志物的相同架构。为了解决不同标志染色之间像素值分布的变化并加快推理速度,我们对模型进行了单步采样的微调,通过像素级损失函数提高了颜色对比度和保真度以及推理效率。我们在两个公开可用的数据集上验证了我们的框架,显著证明了其在生成多达18种不同类型的标志物方面的有效性,准确性有所提高,与以前的方法相比实现了大量的标志物类型增长。这一验证突显了我们框架的潜力,开创了虚拟多路染色的先河。最后,本文架起了H&E和多路成像之间的桥梁,有望实现对现有H&E图像存储库的回顾性研究和大规模分析。
论文及项目相关链接
PDF AAAI 2026 accepted
Summary
在病理学中,多重成像技术能够通过同时可视化组织样本中的多个生物标志物,为分子水平的洞察提供前所未有的能力,这是传统的苏木精和伊红(H&E)染色无法实现的。然而,多重数据获取的复杂性和成本阻碍了其广泛应用。为了克服这一挑战,本研究利用潜伏扩散模型(LDM)的最新进展,提出了一种虚拟多重染色的新型框架,该框架可从H&E图像生成多重图像。本研究的方法能够通过针对每个标记物对扩散模型进行条件化,同时在所有标记物之间共享相同的架构,实现逐标记的生成。此外,本研究还解决了不同标记物染色像素值分布不均的问题,提高了推理速度。在公开数据集上的验证表明,该方法生成了多达18种不同的标记类型,准确性显著提高,远超以前方法实现的2-3种标记类型。该研究为虚拟多重染色开辟了新的途径,并有望缩小H&E染色与多重成像之间的差距。
Key Takeaways
- 多重成像技术能够在分子层面提供传统染色无法获得的洞察力。
- 现有技术面临的挑战包括数据获取的复杂性和成本问题。
- 潜伏扩散模型(LDM)用于解决这些挑战,它通过强大的先验模型对目标领域进行微调。
- 提出了一种新型虚拟多重染色框架,能够从H&E图像生成多重图像。
- 该方法实现了逐标记的生成,通过条件扩散模型进行。
- 研究解决了不同标记物染色像素值分布不均的问题,提高了推理速度和颜色对比度的保真度。
点此查看论文截图
DogFit: Domain-guided Fine-tuning for Efficient Transfer Learning of Diffusion Models
Authors:Yara Bahram, Mohammadhadi Shateri, Eric Granger
Transfer learning of diffusion models to smaller target domains is challenging, as naively fine-tuning the model often results in poor generalization. Test-time guidance methods help mitigate this by offering controllable improvements in image fidelity through a trade-off with sample diversity. However, this benefit comes at a high computational cost, typically requiring dual forward passes during sampling. We propose the Domain-guided Fine-tuning (DogFit) method, an effective guidance mechanism for diffusion transfer learning that maintains controllability without incurring additional computational overhead. DogFit injects a domain-aware guidance offset into the training loss, effectively internalizing the guided behavior during the fine-tuning process. The domain-aware design is motivated by our observation that during fine-tuning, the unconditional source model offers a stronger marginal estimate than the target model. To support efficient controllable fidelity-diversity trade-offs at inference, we encode the guidance strength value as an additional model input through a lightweight conditioning mechanism. We further investigate the optimal placement and timing of the guidance offset during training and propose two simple scheduling strategies, i.e., late-start and cut-off, which improve generation quality and training stability. Experiments on DiT and SiT backbones across six diverse target domains show that DogFit can outperform prior guidance methods in transfer learning in terms of FID and FDDINOV2 while requiring up to 2x fewer sampling TFLOPS. Code is available at https://github.com/yaramohamadi/DogFit.
扩散模型的迁移学习在转移到较小的目标域时具有挑战性,因为简单地微调模型通常会导致泛化性能不佳。测试时的指导方法有助于通过样本多样性的权衡来提供可控的图像保真度改进。然而,这种好处需要付出高昂的计算成本,通常在采样过程中需要两次正向传递。我们提出了Domain-guided Fine-tuning(DogFit)方法,这是一种有效的扩散迁移学习指导机制,能够在不增加额外计算开销的情况下保持可控性。DogFit将域感知指导偏移量注入训练损失中,从而在微调过程中有效地内化指导行为。域感知设计是受到我们观察到的启发,即在微调过程中,无条件源模型提供的边际估计比目标模型更强。为了支持在推理时进行高效的可控保真度-多样性权衡,我们通过轻量级条件机制将指导强度值编码为附加模型输入。我们进一步研究了指导偏移在训练过程中的最佳放置位置和时机,并提出了两种简单的调度策略,即延迟启动和截止,这提高了生成质量和训练稳定性。在六个不同目标域上的DiT和SiT主干网上的实验表明,DogFit在迁移学习的FID和FDDINOV2方面可以优于先前的指导方法,同时采样TFLOPS减少了一半。代码可在https://github.com/yaramohamadi/DogFit获取。
论文及项目相关链接
PDF Accepted for poster presentation at AAAI 2026
Summary
本文探讨了扩散模型在转移到小型目标域时面临的挑战,并介绍了Domain-guided Fine-tuning(DogFit)方法,该方法作为一种有效的指导机制,能够在扩散转移学习中保持可控性,同时不会增加额外的计算开销。DogFit通过注入领域感知指导偏移量来优化训练损失,利用无条件源模型在微调过程中提供更强大的边际估计。在推理过程中,通过轻量级条件机制将指导强度值编码为附加模型输入,以实现可控的保真度与多样性的权衡。此外,本文还探讨了指导偏移在训练过程中的最佳放置和时机,并提出了两种简单的调度策略,即晚期开始和截止策略,以提高生成质量和训练稳定性。实验结果表明,DogFit在六个不同的目标域上优于先前的指导方法,同时减少了采样计算量。
Key Takeaways
- 扩散模型在转移到小型目标域时面临挑战,直接微调可能导致较差的泛化能力。
- 测试时的指导方法可以通过控制图像保真度与样本多样性之间的权衡来缓解这一问题,但计算成本较高。
- 提出了Domain-guided Fine-tuning(DogFit)方法,能在保持可控性的同时,不增加额外的计算开销。
- DogFit通过注入领域感知指导偏移量来优化训练损失,利用无条件源模型的更强边际估计。
- DogFit采用轻量级条件机制,将指导强度值作为附加模型输入,以实现可控的保真度与多样性的权衡。
- DogFit探讨了指导偏移在训练过程中的最佳放置和时机,并提出了两种简单的调度策略。
- 实验结果表明,DogFit在多个目标域上优于其他指导方法,降低了采样计算量。
点此查看论文截图
HierarchicalPrune: Position-Aware Compression for Large-Scale Diffusion Models
Authors:Young D. Kwon, Rui Li, Sijia Li, Da Li, Sourav Bhattacharya, Stylianos I. Venieris
State-of-the-art text-to-image diffusion models (DMs) achieve remarkable quality, yet their massive parameter scale (8-11B) poses significant challenges for inferences on resource-constrained devices. In this paper, we present HierarchicalPrune, a novel compression framework grounded in a key observation: DM blocks exhibit distinct functional hierarchies, where early blocks establish semantic structures while later blocks handle texture refinements. HierarchicalPrune synergistically combines three techniques: (1) Hierarchical Position Pruning, which identifies and removes less essential later blocks based on position hierarchy; (2) Positional Weight Preservation, which systematically protects early model portions that are essential for semantic structural integrity; and (3) Sensitivity-Guided Distillation, which adjusts knowledge-transfer intensity based on our discovery of block-wise sensitivity variations. As a result, our framework brings billion-scale diffusion models into a range more suitable for on-device inference, while preserving the quality of the output images. Specifically, combined with INT4 weight quantisation, HierarchicalPrune achieves 77.5-80.4% memory footprint reduction (e.g., from 15.8 GB to 3.2 GB) and 27.9-38.0% latency reduction, measured on server and consumer grade GPUs, with the minimum drop of 2.6% in GenEval score and 7% in HPSv2 score compared to the original model. Finally, our comprehensive user study with 85 participants demonstrates that HierarchicalPrune maintains perceptual quality comparable to the original model while significantly outperforming prior works.
先进文本到图像扩散模型(DMs)达到了显著的质量水平,然而其庞大的参数规模(8-11B)对资源受限设备上的推理构成了重大挑战。在本文中,我们提出了HierarchicalPrune,这是一种新的压缩框架,它基于一个关键观察:DM块表现出不同的功能层次,早期块建立语义结构,而后期块处理纹理细化。HierarchicalPrune协同结合了三种技术:(1)层次位置剪枝,它根据位置层次识别并移除不太重要的后期块;(2)位置权重保留,它系统地保护早期模型部分,对于语义结构完整性至关重要;(3)敏感度引导蒸馏,它根据我们发现的块级敏感度变化调整知识转移强度。因此,我们的框架将规模庞大的扩散模型引入到更适合于设备端推理的范围,同时保持输出图像的质量。具体来说,结合INT4权重量化,HierarchicalPrune实现了77.5-80.4%的内存占用减少(例如,从15.8 GB减少到3.2 GB),在服务器和消费级GPU上测量的延迟减少了27.9-38.0%,与原始模型相比,GenEval得分最低下降了2.6%,HPSv2得分下降了7%。最后,我们的综合用户研究,共有85名参与者,证明HierarchicalPrune在保持与原始模型相当的可感知质量的同时,显著优于先前的工作。
论文及项目相关链接
PDF Accepted at AAAI 2026 (Main Technical Track)
Summary
本文介绍了一种针对文本到图像扩散模型(DMs)的压缩框架——HierarchicalPrune。该框架利用DM块的功能层次结构特点,结合三种技术实现模型压缩,旨在将大规模的扩散模型适应于资源受限设备上的推理计算。实验结果显示,结合INT4权重量化,HierarchicalPrune在保持图像生成质量的同时,大幅减少了模型的内存占用和推理延迟。
Key Takeaways
- HierarchicalPrune是一种针对文本到图像扩散模型的压缩框架,基于模型块的功能层次结构进行设计。
- 该框架结合了三种技术:Hierarchical Position Pruning、Positional Weight Preservation和Sensitivity-Guided Distillation,以实现模型的有效压缩。
- HierarchicalPrune能够将大规模的扩散模型适应于资源受限设备上的推理计算,减小了内存占用和推理延迟。
- 该框架在结合INT4权重量化后,实现了显著的内存占用减少(例如,从15.8 GB减少到3.2 GB)和推理延迟降低。
- HierarchicalPrune在保持图像生成质量方面表现出色,与原始模型相比,GenEval得分仅下降2.6%,HPSv2得分下降7%。
- 通过与85名参与者的综合用户研究,证明了HierarchicalPrune在保持感知质量与原始模型相当的同时,显著优于先前的工作。
点此查看论文截图
Dream, Lift, Animate: From Single Images to Animatable Gaussian Avatars
Authors:Marcel C. Bühler, Ye Yuan, Xueting Li, Yangyi Huang, Koki Nagano, Umar Iqbal
We introduce Dream, Lift, Animate (DLA), a novel framework that reconstructs animatable 3D human avatars from a single image. This is achieved by leveraging multi-view generation, 3D Gaussian lifting, and pose-aware UV-space mapping of 3D Gaussians. Given an image, we first dream plausible multi-views using a video diffusion model, capturing rich geometric and appearance details. These views are then lifted into unstructured 3D Gaussians. To enable animation, we propose a transformer-based encoder that models global spatial relationships and projects these Gaussians into a structured latent representation aligned with the UV space of a parametric body model. This latent code is decoded into UV-space Gaussians that can be animated via body-driven deformation and rendered conditioned on pose and viewpoint. By anchoring Gaussians to the UV manifold, our method ensures consistency during animation while preserving fine visual details. DLA enables real-time rendering and intuitive editing without requiring post-processing. Our method outperforms state-of-the-art approaches on the ActorsHQ and 4D-Dress datasets in both perceptual quality and photometric accuracy. By combining the generative strengths of video diffusion models with a pose-aware UV-space Gaussian mapping, DLA bridges the gap between unstructured 3D representations and high-fidelity, animation-ready avatars.
我们介绍了Dream、Lift、Animate(DLA)这一新型框架,它能从单张图片重建可动态调整的3D人类角色。这通过利用多视角生成、3D高斯提升和姿态感知的UV空间高斯映射来实现。给定一张图片,我们首先使用视频扩散模型梦见可能的多视角,捕捉丰富的几何和外观细节。然后,这些视角被提升为无结构的3D高斯。为了实现动画效果,我们提出了一种基于变压器的编码器,该编码器能够模拟全局空间关系并将这些高斯投影到与参数化身体模型的UV空间对齐的结构化潜在表示中。这个潜在代码被解码为UV空间高斯,可以通过身体驱动变形进行动画处理,并根据姿态和视点进行渲染。通过将高斯锚定到UV流形上,我们的方法确保了动画过程中的一致性,同时保留了精细的视觉细节。DLA无需后期处理即可实现实时渲染和直观编辑。我们的方法在ActorsHQ和4D-Dress数据集上的感知质量和光度精度方面都优于最新技术。通过将视频扩散模型的生成能力与姿态感知的UV空间高斯映射相结合,DLA在构建无结构的三维表示和高保真动画角色之间架起了一座桥梁。
论文及项目相关链接
PDF Accepted to 3DV 2026
Summary
梦、提升、动画(DLA)框架能从单张图像重建可动化的3D人类角色。利用多视角生成、3D高斯提升和姿态感知UV空间映射,完成生成感知视频和映射动画的操作。该框架可实现丰富的几何和外观细节,并能在动画过程中保持一致性,同时保留精细的视觉细节。相较于其他方法,DLA在感知质量和光度准确性上更胜一筹。DLA框架实现了从非结构化到动画就绪的高保真角色的转变。这一技术的运用范围非常广泛,能够为动画创作者提供无限的可能性。梦系列框架成功地把视觉扩散模型的力量与姿态感知UV空间映射技术结合,开创了新的动画领域。它改变了传统的动画制作方式,为创作者带来全新的体验。总体来说,该框架对于动画制作具有划时代的意义。
Dream, Lift, Animate (DLA) framework is capable of reconstructing animated 3D human avatars from a single image, achieving rich geometric and appearance details through multi-view generation, 3D Gaussian lifting, and pose-aware UV-space mapping. With its ability to maintain consistency during animation and preserve fine visual details, DLA outperforms state-of-the-art approaches in perceptual quality and photometric accuracy. It bridges the gap between unstructured 3D representations and high-fidelity animation-ready avatars, revolutionizing the way animation is created. In short, the DLA framework represents a milestone in animation production.
Key Takeaways
- DLA框架能够从单一图像重建出可动化的3D人类角色。
- 利用多视角生成技术捕捉丰富的几何和外观细节。
- 通过结合视频扩散模型和姿态感知UV空间映射技术,实现了动画的生成和渲染。
- 该方法能够在动画过程中保持一致性,同时保留精细的视觉细节。
- 与现有方法相比,DLA在感知质量和光度准确性方面表现更优。
- DLA技术将非结构化3D表示与高质量动画角色相结合,填补了两者之间的鸿沟。
点此查看论文截图
Self-NPO: Data-Free Diffusion Model Enhancement via Truncated Diffusion Fine-Tuning
Authors:Fu-Yun Wang, Keqiang Sun, Yao Teng, Xihui Liu, Jiale Yuan, Jiaming Song, Hongsheng Li
Diffusion models have demonstrated remarkable success in various visual generation tasks, including image, video, and 3D content generation. Preference optimization (PO) is a prominent and growing area of research that aims to align these models with human preferences. While existing PO methods primarily concentrate on producing favorable outputs, they often overlook the significance of classifier-free guidance (CFG) in mitigating undesirable results. Diffusion-NPO addresses this gap by introducing negative preference optimization (NPO), training models to generate outputs opposite to human preferences and thereby steering them away from unfavorable outcomes through CFG. However, prior NPO approaches rely on costly and fragile procedures for obtaining explicit preference annotations (e.g., manual pairwise labeling or reward model training), limiting their practicality in domains where such data are scarce or difficult to acquire. In this work, we propose Self-NPO, specifically truncated diffusion fine-tuning, a data-free approach of negative preference optimization by directly learning from the model itself, eliminating the need for manual data labeling or reward model training. This data-free approach is highly efficient (less than 1% training cost of Diffusion-NPO) and achieves comparable performance to Diffusion-NPO in a data-free manner. We demonstrate that Self-NPO integrates seamlessly into widely used diffusion models, including SD1.5, SDXL, and CogVideoX, as well as models already optimized for human preferences, consistently enhancing both their generation quality and alignment with human preferences. Code is available at https://github.com/G-U-N/Diffusion-NPO.
扩散模型在各种视觉生成任务中取得了显著的成功,包括图像、视频和3D内容生成。偏好优化(PO)是一个突出且不断发展的研究领域,旨在将这些模型与人类偏好对齐。虽然现有的PO方法主要集中在产生有利的输出,但它们往往忽视了无分类引导(CFG)在缓解不良结果中的重要作用。Diffusion-NPO通过引入负面偏好优化(NPO)来解决这一差距,训练模型以产生与人类偏好相反的输出来抵制不良结果,并通过CFG引导模型避免这些不利结果。然而,先前的NPO方法依赖于获取显性偏好注释的昂贵且脆弱的过程(例如手动配对标签或奖励模型训练),这在缺乏此类数据或难以获取数据的领域中限制了其实用性。在这项工作中,我们提出了Self-NPO,特别是截断扩散微调,这是一种通过直接从模型本身学习来进行负面偏好优化的无数据方法,无需手动数据标注或奖励模型训练。这种无数据的方法非常高效(仅为Diffusion-NPO的不到1%的训练成本),并且以无数据的方式实现了与Diffusion-NPO相当的性能。我们证明了Self-NPO可以无缝集成到广泛使用的扩散模型中,包括SD1.5、SDXL和CogVideoX,以及已经优化为人类偏好的模型,持续提高它们的生成质量和与人类偏好的对齐程度。代码可在[https://github.com/G-U-N/Diffusion-NPO找到。]
论文及项目相关链接
PDF accepted by AAAI 2026
Summary
本文介绍了扩散模型在视觉生成任务中的出色表现,以及偏好优化(PO)在这一领域的重要性。文章重点介绍了Diffusion-NPO中的负偏好优化(NPO),它通过训练模型生成与人类偏好相反的输出,通过分类器免费的指导(CFG)来避免不良结果。然而,现有的NPO方法依赖于获取明确偏好注释的昂贵和脆弱程序,限制了其在数据稀缺或难以获取的领域中的实用性。因此,本文提出了Self-NPO,这是一种通过直接学习模型本身的负偏好优化的数据免费方法,无需手动数据标记或奖励模型训练。该方法高效且性能与Diffusion-NPO相当,并能无缝集成到广泛使用的扩散模型中,包括SD1.5、SDXL和CogVideoX等,提高生成质量和与人类偏好的一致性。
Key Takeaways
- 扩散模型在视觉生成任务中表现优异,包括图像、视频和3D内容生成。
- 偏好优化(PO)是扩散模型研究的一个重要方向,旨在使模型与人类偏好对齐。
- Diffusion-NPO引入负偏好优化(NPO),通过训练模型生成与人类偏好相反的输出,使用分类器免费的指导(CFG)避免不良结果。
- 现有NPO方法依赖获取明确偏好注释的昂贵和脆弱程序,限制了其在实际应用中的普及。
- Self-NPO是一种数据免费的方法,通过直接学习模型本身进行负偏好优化,无需手动数据标记或奖励模型训练。
- Self-NPO方法高效,性能与Diffusion-NPO相当,并能提高生成质量和与人类偏好的一致性。