基本的なタスク定義
- 画像 I∈RH×W×CI∈RH×W×C が与えられたとき、任意のテキストで指定されたクラスで各ピクセル ((i,j)) にラベルを割り当てるラベルマッjプ L∈RH×WL∈RH×W を出力する
- 「Open‑vocabulary」のポイント 学習時になかったクラス名(例:「量子ホール効果の実験装置」など)もテキストで指定でき、そのテキストでセグメンテーションできること。
![[OVSSのタスクを決定する_20260405_182855.png]]
サーベイでの分類
- Training Free Open-Vocabulary Semantic Segmentation
- CLIP-Based Approaches
- Purely CLIP-based
- Refine Inter-token Mixing
- Leverage Intermediate Layers
- Leverage Non-ML obtained Masks
- Others
- VFM-s alongside CLIP
- Refine Inter-token Mixing with VFMs
- Leverage VFMs for Maskpooling
- Generative Methods Alongside CLIP
- Purely CLIP-based
- CLIP-Based Approaches