嘘~ 正在从服务器偷取页面 . . .

I2I Translation


⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验

2025-11-21 更新

US-X Complete: A Multi-Modal Approach to Anatomical 3D Shape Recovery

Authors:Miruna-Alexandra Gafencu, Yordanka Velikova, Nassir Navab, Mohammad Farid Azampour

Ultrasound offers a radiation-free, cost-effective solution for real-time visualization of spinal landmarks, paraspinal soft tissues and neurovascular structures, making it valuable for intraoperative guidance during spinal procedures. However, ultrasound suffers from inherent limitations in visualizing complete vertebral anatomy, in particular vertebral bodies, due to acoustic shadowing effects caused by bone. In this work, we present a novel multi-modal deep learning method for completing occluded anatomical structures in 3D ultrasound by leveraging complementary information from a single X-ray image. To enable training, we generate paired training data consisting of: (1) 2D lateral vertebral views that simulate X-ray scans, and (2) 3D partial vertebrae representations that mimic the limited visibility and occlusions encountered during ultrasound spine imaging. Our method integrates morphological information from both imaging modalities and demonstrates significant improvements in vertebral reconstruction (p < 0.001) compared to state of art in 3D ultrasound vertebral completion. We perform phantom studies as an initial step to future clinical translation, and achieve a more accurate, complete volumetric lumbar spine visualization overlayed on the ultrasound scan without the need for registration with preoperative modalities such as computed tomography. This demonstrates that integrating a single X-ray projection mitigates ultrasound’s key limitation while preserving its strengths as the primary imaging modality. Code and data can be found at https://github.com/miruna20/US-X-Complete

超声为实时可视化脊柱标志、旁脊柱软组织以及神经血管结构提供了一种无辐射且成本效益高的解决方案,因此对于脊柱手术过程中的术中指导具有很大价值。然而,超声在可视化完整椎体解剖结构方面存在固有的局限性,特别是在可视化椎体方面,这是由于骨骼引起的声影效应导致的。在这项工作中,我们提出了一种新型的多模态深度学习方法,通过利用来自单一X射线图像的互补信息,来完善在三维超声中被遮挡的解剖结构。为了进行训练,我们生成了配对训练数据,包括:(1)模拟X射线扫描的二维侧位椎体视图;(2)模拟在超声脊柱成像中遇到的有限可见性和遮挡情况的3D部分椎体表示。我们的方法融合了两种成像模式的形态信息,并在椎体重建方面显示出显著改进(p <0.001),与三维超声椎体完成技术相比处于行业前沿。我们进行了幻影研究作为未来临床转化的初步步骤,并实现了在超声扫描上叠加更精确、完整的腰椎体积可视化,而无需与术前模式(如计算机断层扫描)进行配准。这证明整合单一的X射线投影能够缓解超声的主要局限性,同时保留其作为主成像模式的优势。代码和数据可在https://github.com/miruna20/US-X-Complete找到。

论文及项目相关链接

PDF Accepted at the Workshop on Shape in Medical Imaging at MICCAI 2025

Summary

本文介绍了一种利用深度学习技术结合超声和X射线图像完成被遮挡的脊柱结构的方法。通过生成模拟的超声和X射线图像配对数据,该方法能有效重建被遮挡的椎体结构,提高了超声脊柱成像的准确性和完整性。研究结果显示,结合单一X射线投影可有效解决超声成像的关键局限性,即无法完全可视化脊椎解剖结构的问题,同时保留超声作为主成像模态的优势。

Key Takeaways

  1. 超声为脊柱手术中的实时可视化提供了无辐射、成本效益高的解决方案,能展示脊椎标志、旁脊椎软组织以及神经血管结构。
  2. 超声在可视化完整椎体解剖结构方面存在固有局限性,特别是椎体主体,这是由于骨骼引起的声学阴影效应。
  3. 提出了一种新的多模态深度学习方法,通过结合单一X射线图像的信息完成被遮挡的解剖结构在三维超声中的重建。
  4. 通过生成模拟的超声和X射线图像配对数据来训练模型,模拟X射线扫描的二维椎体侧视图和三维部分椎体表示遇到的有限可见性和遮挡。
  5. 该方法整合了两种成像模态的形态信息,并在椎体重建方面实现了显著改进(p < 0.001)。
  6. 通过幻影研究验证了该方法的可行性,实现了无需与术前模态(如计算机断层扫描)配准的更准确、完整的腰椎椎体可视化叠加在超声扫描上。

Cool Papers

点此查看论文截图

IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video?

Authors:Yang Chen, Minghao Liu, Yufan Shen, Yunwen Li, Tianyuan Huang, Xinyu Fang, Tianyu Zheng, Wenxuan Huang, Cheng Yang, Daocheng Fu, Jianbiao Mei, Rong Wu, Yunfei Zhao, Licheng Wen, Xuemeng Yang, Song Mao, Qunshu Lin, Zhi Yu, Yongliang Shen, Yu Qiao, Botian Shi

The webpage-to-code task requires models to understand visual representations of webpages and generate corresponding code. However, existing benchmarks primarily focus on static screenshot-to-code tasks, thereby overlooking the dynamic interactions fundamental to real-world web applications. To address this limitation, this paper introduces IWR-Bench, a novel benchmark for evaluating the capabilities of Large Vision-Language Models (LVLMs) in interactive webpage reconstruction from video. IWR-Bench comprises 113 meticulously curated tasks from 100 real-world websites, with 1,001 actions and featuring diverse interaction complexities (e.g., web games), visual styles, and domains. Aligning with standard web development practices, each task includes not only user interaction videos but also all crawled static assets (e.g., images, videos). This benchmark evaluates models on two fundamental challenges: comprehensive multi-modal reasoning to infer interaction logic from video and assets, and advanced code generation to translate this logic into functional code. An agent-as-a-judge framework with a comprehensive metric system automatically assesses the functional correctness and visual fidelity of generated webpages. Extensive experiments on 28 LVLMs reveal a significant challenge: the best model achieves an overall score of only 36.35%, as functional correctness (24.39% IFS) lags significantly behind visual fidelity (64.25% VFS). These results highlight critical limitations in current models’ ability to reason about temporal dynamics and synthesize event-driven logic, establishing IWR-Bench as a challenging frontier for vision-language research. The benchmark and evaluation code will be made publicly available at https://github.com/SIGMME/IWR-Bench.

网页到代码的任务要求模型理解网页的视觉表示并生成相应的代码。然而,现有的基准测试主要关注静态截图到代码的任务,从而忽略了现实世界网页应用中根本的动态交互。为了解决这一局限性,本文引入了IWR-Bench,这是一个评估大型视觉语言模型(LVLMs)在视频交互式网页重建能力的新型基准测试。IWR-Bench包含113个精心策划的任务,这些任务来自100个真实网站,包含1001个动作,并展示多样化的交互复杂性(如网页游戏)、视觉风格和领域。与标准网页开发实践相一致,每个任务不仅包括用户交互视频,还包括所有爬取的静态资产(如图像、视频)。此基准测试评估模型面临两个基本挑战:全面多模式推理,从视频和资产中推断交互逻辑,以及先进的代码生成,将逻辑转化为功能性代码。一个以代理作为法官的框架,配合全面的度量系统,可以自动评估生成网页的功能正确性和视觉保真度。在28个LVLMs上的广泛实验显示了一个重大挑战:最佳模型的总成绩只有36.35%,因为功能正确性(24.39% IFS)远远落后于视觉保真度(64.25% VFS)。这些结果突显了当前模型在推理时间动态和合成事件驱动逻辑方面的关键局限性,这确立了IWR-Bench作为视觉语言研究的前沿挑战。基准测试和评估代码将在https://github.com/SIGMME/IWR-Bench上公开发布。

论文及项目相关链接

PDF

Summary
该论文针对现有网页转代码任务主要集中在静态截图转代码上的局限性,提出了一个新的基准测试IWR-Bench。该基准测试旨在评估大型视觉语言模型在视频驱动的交互式网页重建能力。它通过构建包含用户交互视频的多种任务来模拟真实世界的场景,评估模型从视频和资产中推断交互逻辑以及将逻辑转化为功能性代码的能力。实验结果显示现有模型的挑战在于功能正确性远低于视觉保真度,强调了模型在理解时序动态和合成事件驱动逻辑方面的局限性。

Key Takeaways

  1. 现有网页转代码任务主要关注静态截图转代码,忽略了真实网页应用中的动态交互。
  2. 论文提出新的基准测试IWR-Bench,用于评估大型视觉语言模型在视频驱动的交互式网页重建能力。
  3. IWR-Bench包含来自真实网站的多样化任务,涵盖不同的交互复杂度、视觉风格和领域。
  4. 模型面临两个主要挑战:从视频和资产中推断交互逻辑的综合多模态推理,以及将逻辑转化为功能性代码的高级代码生成。
  5. 实验结果显示现有模型在功能正确性方面存在显著挑战,强调模型在理解时序动态和合成事件驱动逻辑方面的局限性。
  6. IWR-Bench为视觉语言研究提供了具有挑战性的前沿领域。

Cool Papers

点此查看论文截图


文章作者: Kedreamix
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !
 上一篇
视频理解 视频理解
视频理解 方向最新论文已更新,请持续关注 Update in 2025-11-21 AdCare-VLM Towards a Unified and Pre-aligned Latent Representation for Healthcare Video Understanding
2025-11-21
下一篇 
Few-Shot Few-Shot
Few-Shot 方向最新论文已更新,请持续关注 Update in 2025-11-21 In-N-On Scaling Egocentric Manipulation with in-the-wild and on-task Data
2025-11-21
  目录