問題
OV-segがベーシックなモデルとしていい題材なのではと考えしばらくの間追試などをしてきた。その中でMaskFormerをsam3に変えるという実験をしてみた。 結果としてはあまりいい成果は得られなかったが、SAM3の性能の高さに驚いた。OV-Segではそれを特化させたとしてもSAM3の一つのベンチマークにすら敵うのは難しそうだと感じた。
自分がやりたいのはそもそも階層的・動的なセグメンテーションである。人間は普段物体全てを細かくセグメンテーションしている訳ではなくみたいと思ったものを詳細にみて、一つ一つ分析していく。分析するのは思考力の仕事だけど注目する粒度を動的に変化させつつその文脈を維持できる。
教授> generalなモデルはレッドオーシャンで改善も難しいのでデータセットやベンチマークを絞るといい
また、手法自体の効率などの改善もできるといいと思う
最近盛んなトレンド
ひとまず、最近盛んな研究分野の国際会議採択論文を見てみる
Training-Free & Test-Time Adaptation
大規模な事前学習は企業のものを活用し、推論時の工夫やadapterなどの追加で性能向上を目指す
test-time adaption
学習済みのVLM(Vision-Language Model)に対し、テスト画像の統計情報や自己教師あり学習を用いて、推論中に重みやプロンプトを動的に更新する手法
- しかし、個人的にはプロンプトを動的に変更する手法自体はあまり魅力を感じない。ただ、重みを変えるのは少し気になる
- 論文: Test-Time Adaptation of Vision-Language Models for Open-Vocabulary Semantic Segmentation
Training-free
VLMの追加学習を行わないで外部からの出力を参考にする
- e.g. Training-Free Open-Vocabulary Segmentation with Offline Diffusion-Augmented Prototype Generation (CVPR 2024)
- 拡散モデル(Diffusion Model)の内部特徴や、オフラインで生成したプロトタイプを活用するアプローチ
- e.g. Direct Segmentation without Logits Optimization for Training-Free Open-Vocabulary Semantic Segmentation (CVPR 2026)
- Logitsの最適化を行わずに直接セグメンテーションを行う手法
Part Segmentation
Object-levelは既存VLMが既に解決しつつあるため、「部品」や「サブカテゴリ」への適用拡大を目指す
- Fine-Grained Image-Text Correspondence with Cost Aggregation for Open-Vocabulary Part Segmentation
- Fine-grainedなimage-text対応付けに関する研究
- PCA-Seg: Revisiting Cost Aggregation for Open-Vocabulary Semantic and Part Segmentation
- Cost Aggregationを見直す
- Open-Vocabulary Part Segmentation via Progressive and Boundary-Aware Strategy
- 境界(Boundary)を考慮したプログレッシブな部品セグメンテーション
新アーキテクチャの流用
CLIPやSAMに依存せず、あるいはそれらと組み合わせる形で、最新のアーキテクチャをOVSに流用するアプローチ
- Diffusion Models for Open-Vocabulary Segmentation (ECCV2024)
- 拡散モデルの生成プロセス自体をセグメンテーションに利用
- MambaML: Exploring State Space Models for Multi-Label Image Classification (ICCV 2025)
- MambaアーキテクチャをOVSに応用する研究
自分が興味あるもの
Segmentation 研究動向の調査を参考にする限り、興味があるのは
- 2D全般で、その中で新しいアーキテクチャを試すような研究
- 動画のtracking & segmentation
工業データセット- 自分が興味あるロボットの稼働領域を勝手に工場で想像していただけで、異常検知自体はそこまでやりたいことではなかった
- 傷があるとかより「このパーツはxxで、yyをするものだな。ではここについているこのパーツは?」というような探索ができるように支援する目を与えるという方向性でやりたい
- 医療データセット
あたりか
まずは特定データセットに限らないモデルで条件を満たすものを探して、データセットに特化させるという流れがいいのかな?
良さそうなデータセット・ドメイン
- 病理画像(WSI)
- WSIは1枚が数GB〜数十GB、10万×10万ピクセルクラスなので、mambaなどを使う正当性がある
- 大きなデータへの階層的セグメンテーションという意味でテーマとしてやりたいと拡張性がありそう
- 組織領域(正常/がん)→ 腺管構造 → 細胞核・細胞質、という3階層が病理診断では用いられるので、階層的な考え方と人間の実際の使い方がマッチしている
- 公開データセット例
- CAMELYON16/17: リンパ節転移検出(WSI、約400枚)
- DigestPath2019: 結直腸がん WSI
- BACH: 乳がん組織画像
- BRACS: 乳腺病変の多階層アノテーション(正常→良性→悪性の階層あり)
- WSIは1枚が数GB〜数十GB、10万×10万ピクセルクラスなので、mambaなどを使う正当性がある
- 医用動画(内視鏡・超音波)
- 時系列データ
- S4Mなど時系列向けのモデルがある(そして自分はパッと見だけどS4Mに興味がある)
- 3D 医用画像(CT/MRI)
- 腹部CTであれば「肝臓領域 → 肝細胞がん → 腫瘍内の壊死領域」という3階層が臨床的に意味を持つので階層的セグメンテーションの正当性がある
- MSD (Medical Segmentation Decathlon), LiTS, BraTS, KiTS など、高品質な3Dアノテーション付きデータセットが多数公開されている
- 衛星・航空画像
- 建物(10mスケール)→ 街区(100m)→ ランドユース(1km)→ 都市構造(10km)という階層的な文脈はちゃんと意味がある。初めから建物だけを見るより、この階層を経たからこそその建物に対してのコンテキストが意味を持つ
- SpaceNet, DeepGlobe, xBD(災害画像)など、ダウンロード制限が緩く実験しやすい