Tag: ovss

GLA-CLIP

2026-04-06

GLA-CLIP

要点

GLA-CLIPは、training-freeなOpen-Vocabulary Semantic Segmentation (OVSS)において、高解像度画像をsliding-windowで推論する際に生じるwindow間の不整合を、追加学習なしで軽減する手法です。論文の主張は明快であり、既存手法の精度低下は「モデルが十分に学習されていないから」ではなく、「推論時に参照できる文脈がwindow内に制限されているから」起きるというものです。

この問題に対し、GLA-CLIPはlocal queryを維持したままglobalなkey/valueを参照させ、さらにquery側のwindow…

OVSS 問題設定

2026-04-05

OVSS 論文リストに共通して出てくる問題

  • OVSS の本丸は結局、分類能力よりも dense localization の不足
    • ICCV 2025 の CorrCLIP、DIH-CLIP、Feature Purification Matters、Plug-in Feedback Self-adaptive Attention、CVPR 2026 の [[GLA-CLIP]]、PEARL はいずれも、CLIP の patch 表現や attention、局所相関、ウィンドウ間整合、幾何整合、後段伝播の改善に集中 している

繰り返し解決対象になっている問題点

  1. CLIPは分類には強いが画素・パッチレベルの局在性に欠ける
  2. training-free OV…

OVSS のタスク定義

2026-04-05

基本的なタスク定義

  • 画像 I∈RH×W×CI∈RH×W×C が与えられたとき、任意のテキストで指定されたクラスで各ピクセル ((i,j)) にラベルを割り当てるラベルマッjプ L∈RH×WL∈RH×W を出力する
  • 「Open‑vocabulary」のポイント 学習時になかったクラス名(例:「量子ホール効果の実験装置」など)もテキストで指定でき、そのテキストでセグメンテーションできること。

![[OVSSのタスクを決定する_20260405_182855.png]]

サーベイでの分類

  • Training Free Open-Vocabulary Semantic Segmentation
    • CLIP-Based Approaches
      • P…

Open-Vocabulary Segmentation 調査メモ

2026-04-06

Open-vocabulary segmentation 調査メモ

要点

Open-vocabulary segmentation は、学習時に固定されたラベル集合を超えて、自由なテキスト語彙で画像中の領域を切り分けて認識する流れとして発展してきた研究領域です (OVS Survey)。

2022年ごろの初期フェーズでは、CLIP や ALIGN のような vision-language model の語彙能力を、セグメンテーションへどう移すかが中心課題で、OpenSeg は「まず領域をまとめること」が重要だと整理し、画像キャプション由来の supervision でも open-vocabulary segmentation をスケ…

← All articles