发布日期: 2025-09-18

更新日期: 2025-10-07

文章字数: 1.9k

阅读时长: 7 分

阅读次数:

⚠️ 以下所有内容总结都来自于大语言模型的能力，如有错误，仅供参考，谨慎使用
🔴 请注意：千万不要用于严肃的学术场景，只能用于论文阅读前的初筛！
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ，还请您给我们一些鼓励！⭐️ HuggingFace免费体验

2025-09-18 更新

VQT-Light:Lightweight HDR Illumination Map Prediction with Richer Texture.pdf

Authors:Kunliang Xie

Accurate lighting estimation is a significant yet challenging task in computer vision and graphics. However, existing methods either struggle to restore detailed textures of illumination map, or face challenges in running speed and texture fidelity. To tackle this problem, we propose a novel framework (VQT-Light) based on VQVAE and ViT architecture. VQT-Light includes two modules: feature extraction and lighting estimation. First, we take advantages of VQVAE to extract discrete features of illumination map rather than continuous features to avoid “posterior collapse”. Second, we capture global context and dependencies of input image through ViT rather than CNNs to improve the prediction of illumination outside the field of view. Combining the above two modules, we formulate the lighting estimation as a multiclass classification task, which plays a key role in our pipeline. As a result, our model predicts light map with richer texture and better fidelity while keeping lightweight and fast. VQT-Light achieves an inference speed of 40FPS and improves multiple evaluation metrics. Qualitative and quantitative experiments demonstrate that the proposed method realizes superior results compared to existing state-of-the-art methods.

精确的光照估计在计算机视觉和图形学中是一项重要且具有挑战性的任务。然而，现有方法要么难以恢复光照图的详细纹理，要么在运行速度和纹理保真度方面面临挑战。为了解决这个问题，我们提出了一种基于VQVAE和ViT架构的新型框架（VQT-Light）。VQT-Light包括两个模块：特征提取和光照估计。首先，我们利用VQVAE提取光照图的离散特征，而不是连续特征，以避免“后崩溃”问题。其次，我们通过ViT而不是CNN捕获输入图像的全局上下文和依赖性，以提高视野外的光照预测。通过结合以上两个模块，我们将光照估计制定为多元分类任务，这在我们的管道中发挥了关键作用。因此，我们的模型在保持轻便和快速的同时，预测的光照图具有更丰富的纹理和更高的保真度。VQT-Light的推理速度达到40FPS，并提高了多个评估指标。定性和定量实验表明，所提出的方法与现有最先进的方法相比实现了更优越的结果。

论文及项目相关链接

PDF 11 pages, 8 figures

Summary

本文提出了一种基于VQVAE和ViT架构的新型框架VQT-Light，用于准确照明估计。该框架包括特征提取和照明估计两个模块。通过提取离散特征避免“后崩溃”，并捕捉输入图像的全局上下文和依赖关系，从而提高视野外的照明预测。通过将照明估计制定为多级分类任务，模型能够预测具有更丰富纹理和更高保真度的光图，同时保持轻量级和快速。与现有方法相比，VQT-Light实现了更高的推理速度和多个评价指标的改进。

Key Takeaways

提出了基于VQVAE和ViT架构的新型框架VQT-Light，用于解决照明估计中的挑战。
通过提取离散特征避免“后崩溃”，提高了模型的性能。
通过捕捉全局上下文和依赖关系，提高了视野外的照明预测准确性。
将照明估计制定为多级分类任务，实现了具有更丰富纹理和更高保真度的光图预测。
VQT-Light实现了更高的推理速度。
与现有方法相比，VQT-Light在多个评价指标上实现了改进。

Cool Papers

点此查看论文截图

Diagnosis for Less-Prevalent Thyroid Carcinoma Subtype Using a Dual-Branch Attention Deep Network with Ultrasound Images

Authors:Peiqi Li, Yincheng Gao, Renxing Li, Haojie Yang, Yunyun Liu, Boji Liu, Jiahui Ni, Ying Zhang, Yulu Wu, Xiaowei Fang, Lehang Guo, Liping Sun, Jiangang Chen

Heterogeneous morphological features and data imbalance pose significant challenges in rare thyroid carcinoma classification using ultrasound imaging. To address this issue, we propose a novel multitask learning framework, Channel-Spatial Attention Synergy Network (CSASN), which integrates a dual-branch feature extractor - combining EfficientNet for local spatial encoding and ViT for global semantic modeling, with a cascaded channel-spatial attention refinement module. A residual multiscale classifier and dynamically weighted loss function further enhance classification stability and accuracy. Trained on a multicenter dataset comprising more than 2000 patients from four clinical institutions, our framework leverages a residual multiscale classifier and dynamically weighted loss function to enhance classification stability and accuracy. Extensive ablation studies demonstrate that each module contributes significantly to model performance, particularly in recognizing rare subtypes such as FTC and MTC carcinomas. Experimental results show that CSASN outperforms existing single-stream CNN or Transformer-based models, achieving a superior balance between precision and recall under class-imbalanced conditions. This framework provides a promising strategy for AI-assisted thyroid cancer diagnosis.

在利用超声成像对罕见的甲状腺癌进行分类时，异质性的形态特征和数据不平衡构成了重大挑战。为了解决这个问题，我们提出了一种新型的多任务学习框架——通道空间注意力协同网络（CSASN），它整合了一个双分支特征提取器，结合了EfficientNet进行局部空间编码和ViT进行全局语义建模，以及一个级联的通道空间注意力优化模块。残差多尺度分类器和动态加权损失函数进一步提高了分类的稳定性和准确性。我们的框架是在一个包含超过2000名患者数据的多中心数据集上进行训练的，该数据集来自四家医疗机构。广泛的正交实验表明，每个模块都对模型性能有显著贡献，特别是在识别罕见的FTC和MTC亚型方面。实验结果表明，CSASN优于现有的单流CNN或基于Transformer的模型，在类别不平衡的条件下实现了精确度和召回率之间的卓越平衡。该框架为人工智能辅助甲状腺癌诊断提供了有前景的策略。

论文及项目相关链接

PDF 15 pages, 7 figures, 4 tables

Summary
针对超声成像中罕见的甲状腺癌分类问题，面临异质形态特征和数据不平衡的挑战。为此，提出一种新型多任务学习框架——通道空间注意力协同网络（CSASN），集成双分支特征提取器，结合EfficientNet进行局部空间编码和ViT进行全局语义建模，配备级联通道空间注意力优化模块。通过采用残差多尺度分类器和动态加权损失函数，增强了分类的稳定性和准确性。在由四家临床机构超过2000名患者组成的多中心数据集上训练，该框架对稀有亚型如FTC和MTC的识别有显著贡献。实验表明，CSASN在类别不平衡条件下实现了精确度和召回率的平衡，并优于现有的单流CNN或基于Transformer的模型，为AI辅助甲状腺癌诊断提供了有前途的策略。

Key Takeaways

超声成像在罕见甲状腺癌分类上遇到异质形态特征和数据不平衡的挑战。
引入了一种新型多任务学习框架CSASN，集成了EfficientNet和ViT进行特征提取。
CSASN通过级联通道空间注意力优化模块进行特征优化。
利用残差多尺度分类器和动态加权损失函数增强分类的稳定性和准确性。
在多中心数据集上进行训练，涵盖四家临床机构的超过2000名患者。
CSASN在识别罕见亚型如FTC和MTC方面表现出显著贡献。

Cool Papers

点此查看论文截图

Kedreamix

https://kedreamix.github.io/Talk2Paper/Paper/2025-09-18/Vision%20Transformer/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 Kedreamix !

Vision Transformer

检测/分割/跟踪

检测/分割/跟踪方向最新论文已更新，请持续关注 Update in 2025-09-18 Instance-Guided Class Activation Mapping for Weakly Supervised Semantic Segmentation

2025-09-18 检测/分割/跟踪

检测/分割/跟踪

I2I Translation

I2I Translation 方向最新论文已更新，请持续关注 Update in 2025-09-18 AREPAS Anomaly Detection in Fine-Grained Anatomy with Reconstruction-Based Semantic Patch-Scoring

2025-09-18 I2I Translation

I2I Translation