基本的なタスク定義

  • 画像 I∈RH×W×CI∈RH×W×C が与えられたとき、任意のテキストで指定されたクラスで各ピクセル ((i,j)) にラベルを割り当てるラベルマッjプ L∈RH×WL∈RH×W を出力する
  • 「Open‑vocabulary」のポイント 学習時になかったクラス名(例:「量子ホール効果の実験装置」など)もテキストで指定でき、そのテキストでセグメンテーションできること。

![[OVSSのタスクを決定する_20260405_182855.png]]

サーベイでの分類

  • Training Free Open-Vocabulary Semantic Segmentation
    • CLIP-Based Approaches
      • Purely CLIP-based
        • Refine Inter-token Mixing
        • Leverage Intermediate Layers
        • Leverage Non-ML obtained Masks
        • Others
      • VFM-s alongside CLIP
        • Refine Inter-token Mixing with VFMs
        • Leverage VFMs for Maskpooling
      • Generative Methods Alongside CLIP