⚠️ 以下所有内容总结都来自于 大语言模型的能力,如有错误,仅供参考,谨慎使用
🔴 请注意:千万不要用于严肃的学术场景,只能用于论文阅读前的初筛!
💗 如果您觉得我们的项目对您有帮助 ChatPaperFree ,还请您给我们一些鼓励!⭐️ HuggingFace免费体验
2024-12-26 更新
Sampling Bag of Views for Open-Vocabulary Object Detection
Authors:Hojun Choi, Junsuk Choe, Hyunjung Shim
Existing open-vocabulary object detection (OVD) develops methods for testing unseen categories by aligning object region embeddings with corresponding VLM features. A recent study leverages the idea that VLMs implicitly learn compositional structures of semantic concepts within the image. Instead of using an individual region embedding, it utilizes a bag of region embeddings as a new representation to incorporate compositional structures into the OVD task. However, this approach often fails to capture the contextual concepts of each region, leading to noisy compositional structures. This results in only marginal performance improvements and reduced efficiency. To address this, we propose a novel concept-based alignment method that samples a more powerful and efficient compositional structure. Our approach groups contextually related ``concepts’’ into a bag and adjusts the scale of concepts within the bag for more effective embedding alignment. Combined with Faster R-CNN, our method achieves improvements of 2.6 box AP50 and 0.5 mask AP over prior work on novel categories in the open-vocabulary COCO and LVIS benchmarks. Furthermore, our method reduces CLIP computation in FLOPs by 80.3% compared to previous research, significantly enhancing efficiency. Experimental results demonstrate that the proposed method outperforms previous state-of-the-art models on the OVD datasets.
现有开放词汇对象检测(OVD)的方法通过对齐对象区域嵌入与相应的VLM特征来测试未见过的类别。最近的一项研究利用VLM在图像内部隐式学习语义概念组合结构的思想。它不使用单个区域嵌入,而是利用一组区域嵌入作为新的表示形式,将组合结构纳入OVD任务中。然而,这种方法往往无法捕捉每个区域的上文概念,导致组合结构带有噪声。这仅带来性能上的微小提升和效率下降。为了解决这一问题,我们提出了一种基于概念的对齐方法,该方法可以采样更强大、更高效的组合结构。我们的方法将上下文相关的“概念”分组到一个袋子中,并调整袋子内概念的比例,以实现更有效的嵌入对齐。结合Faster R-CNN,我们的方法在开放词汇COCO和LVIS基准测试的新型类别上实现了相比先前工作提高了2.6个box AP50和0.5个mask AP。此外,与先前的研究相比,我们的方法在FLOPs中将CLIP计算减少了80.3%,大大提高了效率。实验结果证明,该方法在OVD数据集上的性能超过了之前的最新模型。
论文及项目相关链接
PDF 19 pages
Summary
本文介绍了现有的开放词汇对象检测(OVD)方法主要通过将对象区域嵌入与相应的VLM特征对齐来测试未见过的类别。最近的一项研究利用VLMs在图像中隐含地学习语义概念组合结构的想法。该研究使用一组区域嵌入作为新的表示形式,以融入OVD任务的组合结构。然而,这种方法往往无法捕捉每个区域的上下文概念,导致组合结构噪声较大。针对这一问题,本文提出了一种基于概念的对齐方法,该方法可以更有效地采样组合结构,并将上下文相关的“概念”分组到袋子中,并调整袋子内概念的比例以实现更有效的嵌入对齐。结合Faster R-CNN,本文方法在开放词汇COCO和LVIS基准测试中实现了对新类别的盒检测AP提升2.6个点和掩模检测AP提升0.5个点。此外,与先前的研究相比,本文方法将CLIP计算减少了80.3%,大大提高了效率。实验结果证明,该方法在OVD数据集上的表现优于先前最先进的模型。
Key Takeaways
- 开放词汇对象检测(OVD)通过区域嵌入与VLM特征对齐来测试未见类别。
- 最近研究使用一组区域嵌入来捕捉图像中的语义概念组合结构。
- 现有方法无法有效捕捉区域上下文概念,导致组合结构噪声和性能提升有限。
- 提出一种基于概念的对齐方法,更有效地采样和整合组合结构。
- 通过结合Faster R-CNN,新方法在COCO和LVIS基准测试中实现了性能提升。
- 与先前研究相比,新方法显著提高了效率,减少了CLIP计算。
点此查看论文截图
ERUP-YOLO: Enhancing Object Detection Robustness for Adverse Weather Condition by Unified Image-Adaptive Processing
Authors:Yuka Ogino, Yuho Shoji, Takahiro Toizumi, Atsushi Ito
We propose an image-adaptive object detection method for adverse weather conditions such as fog and low-light. Our framework employs differentiable preprocessing filters to perform image enhancement suitable for later-stage object detections. Our framework introduces two differentiable filters: a B'ezier curve-based pixel-wise (BPW) filter and a kernel-based local (KBL) filter. These filters unify the functions of classical image processing filters and improve performance of object detection. We also propose a domain-agnostic data augmentation strategy using the BPW filter. Our method does not require data-specific customization of the filter combinations, parameter ranges, and data augmentation. We evaluate our proposed approach, called Enhanced Robustness by Unified Image Processing (ERUP)-YOLO, by applying it to the YOLOv3 detector. Experiments on adverse weather datasets demonstrate that our proposed filters match or exceed the expressiveness of conventional methods and our ERUP-YOLO achieved superior performance in a wide range of adverse weather conditions, including fog and low-light conditions.
我们提出了一种针对恶劣天气条件(如雾和低光)的自适应图像目标检测方法。我们的框架采用可微分的预处理滤波器,执行适用于后期目标检测的图像增强。我们的框架引入两种可微分滤波器:基于贝塞尔曲线的像素级(BPW)滤波器和基于核的局部(KBL)滤波器。这些滤波器结合了传统图像处理滤波器的功能,提高了目标检测的性能。我们还提出了一种基于BPW滤波器的跨领域数据增强策略。我们的方法不需要针对特定数据定制滤波器组合、参数范围和数据增强。我们将所提出的方法称为通过统一图像处理增强稳健性(ERUP)-YOLO,并将其应用于YOLOv3检测器。在恶劣天气数据集上的实验表明,我们所提出的滤波器与常规方法的表达能力相匹配,甚至更高,并且我们的ERUP-YOLO在包括雾和低光条件在内的各种恶劣天气条件下实现了卓越的性能。
论文及项目相关链接
PDF Accepted to WACV 2025
Summary:
针对恶劣天气条件(如雾和低光环境),我们提出了一种自适应图像的目标检测方法。该方法采用可微分预处理滤波器进行图像增强,为后续阶段的目标检测提供便利。我们引入了两种可微分滤波器:基于Bézier曲线的像素级(BPW)滤波器和基于核的局部(KBL)滤波器。这些滤波器融合了传统图像处理滤波器的功能,提高了目标检测的性能。我们还提出了一种基于BPW滤波器的领域无关数据增强策略。我们的方法不需要针对特定数据集定制滤波器组合、参数范围和数据处理方式。通过将其应用于YOLOv3检测器,我们提出的方法在恶劣天气数据集上的实验表明,所提滤波器与常规方法相匹配或表现更佳,且在雾和低光条件下的性能表现尤为出色。
Key Takeaways:
- 提出了一种自适应图像的目标检测方法,适用于恶劣天气条件如雾和低光环境。
- 引入两种可微分预处理滤波器:基于Bézier曲线的像素级(BPW)滤波器和基于核的局部(KBL)滤波器,以提升图像质量并增强目标检测性能。
- 提出一种领域无关的数据增强策略,使用BPW滤波器进行图像处理而不需特定数据集定制。
- 方法在恶劣天气数据集上的实验表现优异,与传统方法相比具有竞争力或更佳性能。
- 成功将该方法应用于YOLOv3检测器,展示了在各种恶劣天气条件下的高效性能。
- 方法具有通用性,能够适应不同的目标检测任务。
点此查看论文截图
Bridging Data Islands: Geographic Heterogeneity-Aware Federated Learning for Collaborative Remote Sensing Semantic Segmentation
Authors:Jieyi Tan, Yansheng Li, Sergey A. Bartalev, Shinkarenko Stanislav, Bo Dang, Yongjun Zhang, Liangqi Yuan, Wei Chen
Remote sensing semantic segmentation (RSS) is an essential technology in earth observation missions. Due to concerns over geographic information security, data privacy, storage bottleneck and industry competition, high-quality annotated remote sensing images are often isolated and distributed across institutions. The issue of remote sensing data islands poses challenges for fully utilizing isolated datasets to train a global model. Federated learning (FL), a privacy-preserving distributed collaborative learning technology, offers a potential solution to leverage isolated remote sensing data. Typically, remote sensing images from different institutions exhibit significant geographic heterogeneity, characterized by coupled class-distribution heterogeneity and object-appearance heterogeneity. However, existing FL methods lack consideration of them, leading to a decline in the performance of the global model when FL is directly applied to RSS. We propose a novel Geographic heterogeneity-aware Federated learning (GeoFed) framework to bridge data islands in RSS. Our framework consists of three modules, including the Global Insight Enhancement (GIE) module, the Essential Feature Mining (EFM) module and the Local-Global Balance (LoGo) module. Through the GIE module, class distribution heterogeneity is alleviated by introducing a prior global class distribution vector. We design an EFM module to alleviate object appearance heterogeneity by constructing essential features. Furthermore, the LoGo module enables the model to possess both global generalization capability and local adaptation. Extensive experiments on three public datasets (i.e., FedFBP, FedCASID, FedInria) demonstrate that our GeoFed framework consistently outperforms the current state-of-the-art methods.
遥感语义分割(RSS)是地球观测任务中的一项关键技术。由于地理信息安全、数据隐私、存储瓶颈和行业竞争等问题,高质量的标注遥感图像往往被各机构孤立和分散存储。遥感数据孤岛的问题给充分利用孤立数据集来训练全球模型带来了挑战。联邦学习(FL)是一项保护隐私的分布式协作学习技术,可能为利用孤立的遥感数据提供潜在解决方案。通常,来自不同机构的遥感图像表现出显著的地理异质性,其特点是类别分布异质性和目标外观异质性相互关联。然而,现有的联邦学习方法并没有考虑到这些特性,导致直接应用于遥感语义分割时全局模型的性能下降。我们提出了一种新型的地理异质感知联邦学习(GeoFed)框架,以弥合遥感语义分割中的数据孤岛问题。我们的框架包含三个模块,包括全局洞察力增强(GIE)模块、关键特征挖掘(EFM)模块和本地全局平衡(LoGo)模块。通过GIE模块,我们引入先验全局类别分布向量来缓解类别分布异质性。我们设计了EFM模块来通过构建关键特征来缓解目标外观异质性。此外,LoGo模块使模型同时拥有全局泛化能力和局部适应性。在三个公共数据集(即FedFBP、FedCASID、FedInria)上的广泛实验表明,我们的GeoFed框架始终优于当前最先进的方法。
论文及项目相关链接
PDF 19 pages,12 figures, 10 tables
Summary
远程遥感语义分割(RSS)是地球观测任务中的关键技术。由于地理信息安全性、数据隐私、存储瓶颈和行业竞争等问题,高质量的标注遥感图像通常被隔离并分散在各个机构之间。遥感数据孤岛的问题使得充分利用这些孤立数据集来训练全球模型面临挑战。联邦学习(FL)作为一种隐私保护型的分布式协作学习技术,可能为利用孤立的遥感数据提供潜在解决方案。然而,直接应用于RSS的联邦学习方法忽视了不同机构遥感图像之间的地理异质性问题,包括类分布异质性和对象外观异质性,导致全球模型性能下降。为此,我们提出了一个新的地理异质感知联邦学习框架(GeoFed),以消除RSS中的数据孤岛问题。该框架包括三个模块:全局洞察增强(GIE)模块、关键特征挖掘(EFM)模块和本地-全局平衡(LoGo)模块。通过GIE模块引入先验全局类分布向量,缓解类分布异质性。EFM模块旨在通过构建关键特征来缓解对象外观异质性。LoGo模块使模型兼具全球通用性和本地适应性。在三个公共数据集上的广泛实验表明,我们的GeoFed框架始终优于当前最先进的方法。
Key Takeaways
- 远程遥感语义分割(RSS)是地球观测中的关键技术,但数据孤岛问题限制了其应用。
- 联邦学习(FL)为解决遥感数据孤岛问题提供了潜在解决方案。
- 不同机构间的遥感图像存在地理异质性,包括类分布和对象外观的异质性。
- 现有联邦学习方法忽视了地理异质性,导致全球模型性能下降。
- 提出的GeoFed框架包含GIE、EFM和LoGo三个模块,分别应对类分布、对象外观的异质性和全局与本地的平衡问题。
- GeoFed框架通过引入先验全局类分布向量和构建关键特征来缓解地理异质性。