問題

OV-segがベーシックなモデルとしていい題材なのではと考えしばらくの間追試などをしてきた。その中でMaskFormerをsam3に変えるという実験をしてみた。結果としてはあまりいい成果は得られなかったが、SAM3の性能の高さに驚いた。OV-Segではそれを特化させたとしてもSAM3の一つのベンチマークにすら敵うのは難しそうだと感じた。

自分がやりたいのはそもそも階層的・動的なセグメンテーションである。人間は普段物体全てを細かくセグメンテーションしている訳ではなくみたいと思ったものを詳細にみて、一つ一つ分析していく。分析するのは思考力の仕事だけど注目する粒度を動的に変化させつつその文脈を維持…

research ovss

目的

content/research/topics/segmentations/segmentation_servey.md
content/research/research_memo/260524.md

にすでにセグメンテーションタスクの実験をやるにあたって必要になる知識と自分の興味のある情報はまとめた

これらのデータセットに対して、有効なモデルを調査する

条件として

2024-2026のAI/CV系トップカンファレンスに採択されている
コードが公開されている

を条件にまずはある程度広く、第1選択ならこれで十分じゃないかというモデル候補を明確な根拠を持って調査し、簡潔にまとめることが目的

形式

conten…

research ovss servey

GLA-CLIP

要点

GLA-CLIPは、training-freeなOpen-Vocabulary Semantic Segmentation (OVSS)において、高解像度画像をsliding-windowで推論する際に生じるwindow間の不整合を、追加学習なしで軽減する手法です。論文の主張は明快であり、既存手法の精度低下は「モデルが十分に学習されていないから」ではなく、「推論時に参照できる文脈がwindow内に制限されているから」起きるというものです。

この問題に対し、GLA-CLIPはlocal queryを維持したままglobalなkey/valueを参照させ、さらにquery側のwindow…

research ovss

OVSS 問題設定

2026-04-05

OVSS 論文リストに共通して出てくる問題

OVSS の本丸は結局、分類能力よりも dense localization の不足
- ICCV 2025 の CorrCLIP、DIH-CLIP、Feature Purification Matters、Plug-in Feedback Self-adaptive Attention、CVPR 2026 の [[GLA-CLIP]]、PEARL はいずれも、CLIP の patch 表現や attention、局所相関、ウィンドウ間整合、幾何整合、後段伝播の改善に集中している

繰り返し解決対象になっている問題点

CLIPは分類には強いが画素・パッチレベルの局在性に欠ける
training-free OV…

research ovss

Open-Vocabulary Segmentation 調査メモ

2026-04-06

Open-vocabulary segmentation 調査メモ

要点

Open-vocabulary segmentation は、学習時に固定されたラベル集合を超えて、自由なテキスト語彙で画像中の領域を切り分けて認識する流れとして発展してきた研究領域です (OVS Survey)。

2022年ごろの初期フェーズでは、CLIP や ALIGN のような vision-language model の語彙能力を、セグメンテーションへどう移すかが中心課題で、OpenSeg は「まず領域をまとめること」が重要だと整理し、画像キャプション由来の supervision でも open-vocabulary segmentation をスケ…

research ovss

Segmentation: データセットとタスク分類

2026-04-05

Segmentation全体としての分野

セグメンテーション全体は入力データの種類とタスクの種類で大きく2つの軸に分けられる

第1軸: タスクの種類による分類^[1]

task	definition	output format	main approach
Semantic Segmentation	各ピクセルにクラスラベルを付与。同一クラスの複数インスタンスは区別しない	ピクセル単位のクラスマップ	FCN, U-Net, DeepLab, PSPNet, SegFormer
Instance Segmentation	各インスタンス（個体）をク… research ovss ← All articles Powered by Mizushi — a Rust knowledge base engine

Tag: ovss

2026-05-24

問題

segmentationのモデルを調査する

目的

形式

GLA-CLIP

GLA-CLIP

要点

OVSS 問題設定

OVSS 論文リストに共通して出てくる問題

繰り返し解決対象になっている問題点

Open-Vocabulary Segmentation 調査メモ

Open-vocabulary segmentation 調査メモ

要点

Segmentation: データセットとタスク分類

Segmentation全体としての分野

第1軸: タスクの種類による分類^[1]

Tag: ovss

2026-05-24

問題

segmentationのモデルを調査する

目的

形式

GLA-CLIP

GLA-CLIP

要点

OVSS 問題設定

OVSS 論文リストに共通して出てくる問題

繰り返し解決対象になっている問題点

Open-Vocabulary Segmentation 調査メモ

Open-vocabulary segmentation 調査メモ

要点

Segmentation: データセットとタスク分類

Segmentation全体としての分野

第1軸: タスクの種類による分類[1]

第1軸: タスクの種類による分類^[1]