スコープ: 公開コードを持つトップカンファレンスモデル (2024–2026)。260524.md で定義された関心領域に基づきドメイン別に整理。 優先度: 2D汎用/OVSS > ビデオトラッキング > 医用 (WSI/3D/ビデオ) > 衛星。 選定基準: (1) CVPR/ICCV/ECCV/NeurIPS/ICLR/MICCAI 2024–2026 に採録、(2) 公開コードが利用可能または公開予定が明示されている、(3) SOTA または重要なアーキテクチャ上の貢献を示す。


1. 2D汎用セグメンテーション & オープンボキャブラリ (OVSS)

1.1 SAM 3 (2025) — Meta

項目詳細
会議ブログ/テクニカルレポート (2025)
キーアイデア第3世代 Segment Anything Model。画像とビデオのセグメンテーションを統一し、プロンプト追従性と境界品質を大幅に改善。SAM (ICCV 2023) および SAM 2 (ICLR 2025) の後継。
コードプロプライエタリ(重みは公開、コードは限定的)
SOTA主張全セグメンテーションベンチマークで SAM 2 を上回る。SA-1B バリアントで人間に近い境界品質。
限界コアがクローズドソース。学習レシピは非公開。高い計算要件。テキストプロンプト性能は専用OVSSモデルに劣る。

1.2 OMG-Seg (CVPR 2024)

項目詳細
会議CVPR 2024
キーアイデア10以上のセグメンテーションタスク(画像、ビデオ、オープンボキャブラリ、インタラクティブ)を70Mパラメータの単一Mask2Formerベースアーキテクチャで統一した最初のモデル。共有クエリ表現とCLIPテキストエンコーダを使用。
コードgithub.com/lxtGH/OMG-Seg
SOTA主張70Mパラメータでほとんどのベンチマークにおいてタスク特化モデルに匹敵。統一セグメンテーションのベースラインを確立。
限界タスクごとの最高性能には届かない「十分良い」レベル。画像-ビデオ共同学習の干渉が完全には解決されていない。

1.3 GLA-CLIP (CVPR 2026)

項目詳細
会議CVPR 2026
キーアイデア学習不要のOVSS。スライディングウィンドウの不整合を、key-value のグローバルトークンへの拡張、プロキシアンカーによるクエリバイアス補正、オブジェクトスケールごとの正規化により修正。既存のCLIPベースOVSSパイプラインへのドロップインモジュール。
コードgithub.com/GLA-CLIP/GLA-CLIP(公開予定)
SOTA主張CLIP-DINOiser に組み込むとベースラインの学習不要OVSSより +1.6 mIoU。ファインチューニングなしで8ベンチマーク平均 44.0 mIoU。
限界グローバルトークンアテンションにより推論コストが増加。全ウィンドウのトークンアクセスはウィンドウ数に対して O(N²)。

1.4 PEARL (CVPR 2026)

項目詳細
会議CVPR 2026
キーアイデア学習不要のOVSS。重い後処理なしにセマンティクスを整列・伝播。テキストとビジョンのクロスモーダル幾何学的アライメントを単一フレームワークで解決。
コード公開予定 (CVPR 2026)
SOTA主張学習なしでファインチューニング済みOVSS手法に匹敵。
限界2段階推論(整列 → 伝播)によりレイテンシが増加。非自然画像では幾何学的仮定が崩れる可能性がある。

1.5 ProxyCLIP (ECCV 2024)

項目詳細
会議ECCV 2024
キーアイデア学習不要のOVSS。プロキシアテンションにより、CLIP(意味的豊かさ)とDINOv2のようなビジョン基盤モデル(空間的一貫性)を橋渡し。ファインチューニング不要。
コードgithub.com/mc-ll/ProxyCLIP
SOTA主張8ベンチマークでCLIPベースライン比 44.4 → 40.3 mIoU 改善。発表時点で最高の学習不要結果。
限界外部VFM(DINOv2)に依存。プロキシアテンションの品質はVFMの特徴解像度に制約される。

1.6 CAT-Seg (CVPR 2024)

項目詳細
会議CVPR 2024
キーアイデアOVSSのためのコスト集約。マルチスケールコストボリュームによりピクセル-テキストのマッチングコストを集約し、セグメンテーションを分類ではなく密なマッチング問題として扱う。
コードgithub.com/KU-CVLAB/CAT-Seg
SOTA主張ADE20K-150/847、PASCAL Context-59/459 で強い結果。多くの後続研究(PCA-Seg など)に採用された影響力のあるコスト集約パラダイム。
限界コストボリュームのメモリはクラス数 × 空間解像度に比例。推論時にクラスリストが必要であり、完全なオープンボキャブラリではない。

1.7 FC-CLIP (NeurIPS 2023 → 2025年まで影響力継続)

項目詳細
会議NeurIPS 2023(2024–2026の論文で広く使われるベースライン)
キーアイデア凍結したConvNeXt-CLIPバックボーンをマスク生成と分類の両方に共有する単一段階OVSS。2段階のプロポーザルパイプラインを排除。
コードgithub.com/bytedance/fc-clip
SOTA主張より高速に2段階OVSSに匹敵。パノプティック品質は特化モデルと同等。
限界凍結CLIPバックボーンによりドメイン適応が制限される。新規クラスでは新しい学習不要手法に劣る。

1.8 OVSeg (CVPR 2023 → 基盤的ベースライン)

項目詳細
会議CVPR 2023(基盤的 — 2025–2026のOVSS論文で現在も引用)
キーアイデア2段階OVSSパラダイムを確立:マスク提案 → マスク領域CLIP分類。キャプションからの多様なマスク-カテゴリペアを用いたマスク適応CLIPファインチューニングを導入。
コードgithub.com/facebookresearch/ov-seg
SOTA主張OVSSの基盤的ベースライン。CLIPのマスク領域への適応が鍵となるボトルネックであることを実証。
限界2段階パイプラインは1段階方式より低速。マスク提案の品質が性能の上限となる。

1.9 QueryMeldNet (CVPR 2025)

項目詳細
会議CVPR 2025
キーアイデア複数データセット・複数タスクの統合学習によるスケーラブルなセグメンテーション。「クエリ融合」機構がインスタンスレベルとスタッフレベルのクエリをクロスアテンションで融合。合成データをオープンセット汎化に活用。
コード公開予定 (CVPR 2025)
SOTA主張SegInW オープンセットベンチマークで +7ポイント。マルチタスクの相乗効果を明確に実証。
限界合成データ品質への依存。クエリ融合による計算オーバーヘッド。

1.10 S4M (ICCV 2025)

項目詳細
会議ICCV 2025
キーアイデアSAMにより強化された半教師ありインスタンスセグメンテーション。構造蒸留、疑似ラベル精緻化、専用データ拡張によるSAM統合を備えた教師-生徒フレームワーク。
コード公開予定 (ICCV 2025)
SOTA主張Cityscapes 5%ラベルで AP 30.1、COCO 1%ラベルで AP 24.2。極端な低ラベル領域でSOTA。
限界SAM依存 — 上限はSAM品質に制約される。SAM順伝播による推論コスト増加。

2. ビデオトラッキング & セグメンテーション

2.1 SAM 2 (ICLR 2025)

項目詳細
会議ICLR 2025
キーアイデアPromptable Visual Segmentation (PVS) によりSAMをビデオに拡張。ストリーミングアーキテクチャが、過去のオブジェクト状態へのメモリアテンションを用いてフレームごとに処理。SA-Vデータセット(35.5Mマスク、50.9Kビデオ)で学習。
コードgithub.com/facebookresearch/sam2
SOTA主張17のビデオ + 37の画像ベンチマークでゼロショットSOTA。VOTS2025の投稿の80%がSAM2ベース。従来手法比で必要なインタラクション数が1/3。
限界ショット切替、群衆シーン、長期オクルージョンで劣化。非常に細い構造の追跡が困難。マルチオブジェクトシナリオでオブジェクト間通信がない。

2.2 Cutie (CVPR 2024 Highlight)

項目詳細
会議CVPR 2024 (Highlight)
キーアイデアVOSのためのトップダウンオブジェクトレベルメモリ読み出し。ボトムアップのピクセルメモリを、高レベル意味情報と高解像度特徴を統合したオブジェクトクエリで置換。前景-背景マスクドアテンションがディストラクタを抑制。
コードgithub.com/hkchengrex/Cutie
SOTA主張MOSE: XMem比 +8.7 J&F、DeAOT比 +4.2 J&F、3倍高速。必須のVOSベースライン。OASISやLiVOSに影響を与えた。
限界複雑なマルチオブジェクト相互作用は依然困難。長尺ビデオでのドリフトが完全には抑制されない。

2.3 LiVOS (CVPR 2025)

項目詳細
会議CVPR 2025
キーアイデアSTMネットワークのsoftmaxアテンション(O(N²))を、定数サイズの状態行列を用いたゲート付き線形アテンション(O(N))に置換。32GB GPUで4096p高解像度推論を実現。
コードgithub.com/art-ist/LiVOS
SOTA主張最高の非STM VOS手法。長尺ビデオでSTMベース手法比53%のGPUメモリ削減。4096p推論は前例がない。
限界複雑なマルチオブジェクトシーン(MOSE)ではCutieにわずかに劣る。非常に長い系列では線形アテンションの近似誤差が蓄積。

2.4 OneVOS (ECCV 2024)

項目詳細
会議ECCV 2024
キーアイデア全VOSコンポーネント(特徴抽出、マッチング、メモリ)を単一Transformerに統一。全特徴をトークン化。単方向ハイブリッドアテンション + 効率化のための動的トークンセレクタ。
コードgithub.com/kryv3835/OneVOS
SOTA主張7データセットでSOTA。LVOS 70.1% J&F、MOSE 66.4% J&F — 従来研究に大差。
限界Transformerの計算コストが高い。極端な長尺ビデオでのスケーラビリティは未検証。

2.5 OASIS (ICCV 2025)

項目詳細
会議ICCV 2025
キーアイデアメモリベースVOSのための軽量境界精緻化モジュール。Cannyエッジ事前情報とオブジェクトメモリを融合して構造マップを生成。エビデンシャル学習が不確実性を定量化し、遮蔽領域のセグメンテーションを改善。48 FPS リアルタイム。
コード公開予定 (ICCV 2025)
SOTA主張DAVIS-17 val F=91.6(Cutie 89.7)、YouTubeVOS 2019 val G=86.6。外科手術ビデオでの強力なゼロショット性能。
限界Cannyエッジ感度はパラメータ依存。複雑なテクスチャ背景では偽陽性エッジが増加。

2.6 RMem (CVPR 2024)

項目詳細
会議CVPR 2024
キーアイデア直感に反する発見:メモリバンクサイズを制限することで、デコードを混乱させる冗長情報を削減しVOSが改善。UCBに着想を得たフレーム選択が重要度と新規性のバランスを取る。
コードgithub.com/RMem/RMem
SOTA主張VOST(オブジェクト状態変化)およびLong VideosデータセットでSOTA。シンプルかつ強力 — LiVOSの設計に影響。
限界最適なメモリサイズはデータセット依存。非常に短いビデオでは恩恵が限定的。

3. 医用セグメンテーション

3.1 nnU-Net (MICCAI 2024 Revisited — ゴールドスタンダード)

項目詳細
会議MICCAI 2024(包括的ベンチマーク論文。CVPR 2025: nnWNetも)
キーアイデアCNNベースのnnU-Netが3D医用セグメンテーションにおいてTransformer/Mamba手法に匹敵または上回ることを示す厳格なベンチマーク。重要な洞察:アーキテクチャよりも適切な設定、スケーリング、検証が重要。
コードgithub.com/MIC-DKFZ/nnUNet
SOTA主張包括的3Dベンチマークにおいて全Transformer/Mamba手法と同等またはそれ以上。すべての新しい医用セグメンテーションモデルが比較すべき必須ベースラインであり続ける。
限界CNNの受容野は一部の長距離依存タスクを制限。オープンボキャブラリやインタラクティブプロンプト向けには設計されていない。

3.2 SegVol (NeurIPS 2024 Spotlight)

項目詳細
会議NeurIPS 2024 (Spotlight)
キーアイデアユニバーサル3D医用画像セグメンテーション基盤モデル。90Kの未ラベル + 6Kのラベル付きCTボリュームで学習。ポイント、ボックス、テキストプロンプトに対応。高解像度推論のためのズームアウト・ズームイン機構。
コードgithub.com/BAAI-DCAI/SegVol
SOTA主張22タスク中19でSOTA。200以上の解剖学的カテゴリ。強力なゼロショット転移。
限界CT特化(MRI汎化は限定的)。高い推論コスト。超微細構造は依然困難。

3.3 MedDINOv3 (2025)

項目詳細
会議2025 (arXiv:2509.02379)
キーアイデアDINOv3 ViTを医用セグメンテーションに適応。マルチスケールトークン集約 + 高解像度学習により ViT-B の AMOS22 DSC を 78.39% → 85.51% に引き上げ。CT-3M(3.87Mの軸方向CTスライス)でのドメイン適応事前学習。
コードgithub.com/MedDINOv3/MedDINOv3(公開予定)
SOTA主張nnU-Netを上回った数少ないViT手法の一つ:AMOS22 +2.6%、BTCV +5.5%。4ベンチマークでSOTAまたは競争力のある性能。
限界CTのみ(MRI未検証)。事前学習コストが非常に高い(3.87Mスライス)。

3.4 SAM-Med3D-MoE (MICCAI 2024)

項目詳細
会議MICCAI 2024
キーアイデアMixture of Experts によりSAMを3D医用画像に拡張し、破壊的忘却を防止。事前知識を劣化させることなく複数の医用データセットにわたる継続学習を可能にする。
コード公開予定 (MICCAI 2024)
SOTA主張継続学習能力を備えた強力な3D医用セグメンテーション性能 — 医用SAM適応の中でユニーク。
限界MoEにより計算量が増加。エキスパート数は固定 — 非常に多様なデータ分布へのスケーリングは困難。

3.5 Swin-UMamba (MICCAI 2024)

項目詳細
会議MICCAI 2024
キーアイデアImageNet事前学習を用いた先駆的Mambaベース医用セグメンテーション。Mambaが事前学習済み重みから恩恵を受けることを実証(従来のMamba手法はスクラッチ学習)。VMamba-Tinyエンコーダ + 医用デコーダ。
コードgithub.com/JiarunLiu/Swin-UMamba
SOTA主張AbdomenMRI、内視鏡、顕微鏡でU-Mamba比 +2.72%。医用領域でImageNet事前学習がMambaに有効であることを初めて示した。
限界ImageNetから医用へのドメインギャップは残存。2Dのみ — 3D非対応。

3.6 HybridMamba (MICCAI 2025)

項目詳細
会議MICCAI 2025
キーアイデア空間+周波数のデュアルドメインMambaによる3D医用セグメンテーション。S-LMambaはスライス内ローカルウィンドウ用、LoMambaはスライス間長距離依存用。周波数ゲーティングモジュールがマルチスケール特徴を融合。
コード公開予定 (MICCAI 2025)
SOTA主張BraTS2023および独自肺がんデータセットでSOTA。特に小さな腫瘍領域で強力。
限界デュアルMambaモジュールにより計算コストが増加。最適なウィンドウサイズはデータ依存。

3.7 Tri-Plane Mamba (MICCAI 2024)

項目詳細
会議MICCAI 2024
キーアイデアトライプレーンMambaによる3D医用画像への効率的なSAM適応。3つの直交平面(冠状、矢状、軸状)にMambaを適用し、2Dの効率性で3D情報を保持。
コード公開予定 (MICCAI 2024)
SOTA主張3D医用SAMバリアントの中で良好な計算-性能トレードオフ。SAMの2D知識の3Dへの効率的な転移。
限界トライプレーン融合は近似的 — 複雑な3D形状は完全に捕捉されない可能性がある。

ギャップ: WSI(全スライド画像)セグメンテーション — ギガピクセルWSIの階層的セグメンテーションを特に対象とし、公開コードを持つ2024–2026のトップカンファレンスモデルは見つからなかった。既存モデル(CLAM、DS-MIL、TransMIL、HIPT)は対象期間以前。SAMベースのWSI適応論文は存在するが、ほとんどがワークショップ/プレプリントレベル。これは260524.mdの階層的セグメンテーション目標に合致する真の機会領域である。 ギャップ: 医用ビデオ(内視鏡/超音波) — OASISは外科手術ビデオでのゼロショット結果を示すが、公開コードを持つ2024–2026のトップカンファレンスで医用ビデオセグメンテーション専用モデルは深掘り調査で特定されなかった。外科手術ツールセグメンテーション(EndoVisチャレンジ)は存在するが、ドメインが狭い。


4. 衛星/リモートセンシング セグメンテーション

⚠️ ギャップ注意: 深掘り調査(2024–2026、トップカンファレンス)は衛星/リモートセンシングセグメンテーションをカバーしていない。本セクションは既知の高インパクトモデルから構成されているが、セクション1–3より網羅性が低い。追加の対象調査を推奨。

4.1 SkySense (CVPR 2024)

項目詳細
キーアイデアリモートセンシング基盤モデル。大規模マルチモーダル衛星画像(光学、SAR、マルチスペクトル)で事前学習。セグメンテーション、検出、分類の統一バックボーン。
コード公開予定 (CVPR 2024)
限界基盤モデルのスケールによりファインチューニングに大きな計算資源が必要。タスク特化ヘッドは依然必要。

4.2 RemoteCLIP (CVPR 2024)

項目詳細
キーアイデアリモートセンシング向けCLIPスタイルの視覚-言語事前学習。衛星画像でのオープンボキャブラリ検索とゼロショット分類を可能にする。リモートセンシングにおけるOVSSの基盤。
コードgithub.com/ChenDelong1999/RemoteCLIP
限界分類/検索向け — 密なセグメンテーションには追加の適応が必要。

4.3 SegEarth-OV (2025)

項目詳細
キーアイデア地球観測のためのオープンボキャブラリセマンティックセグメンテーション。ドメイン特化のデータ拡張とテキストプロンプトによりOVSS技術を衛星画像ドメインに適応。
コード公開予定
限界初期段階の研究。ベンチマークカバレッジが限定的。

4.4 SAM-RS(各種適応、2024–2025)

項目詳細
キーアイデアリモートセンシング向けSAM適応のファミリー:SAM-Adapter、RSP-SAM、SAM-RS。ほとんどがLoRAやプロンプトチューニングを用いたアダプタベースのファインチューニングにより、自然画像SAMと衛星ドメインのギャップを橋渡し。
コード複数リポジトリ — 例: github.com/ViTAE-Transformer/SAM-RS
SOTA主張プロンプトを与えた場合の衛星画像での強力なゼロショットインスタンスセグメンテーション。
限界プロンプト依存(ポイント/ボックス)。オープンボキャブラリテキスト非対応。細粒度の土地被覆分類は依然弱い。

推奨: 衛星セグメンテーションには専用の深掘り調査パスが必要。主要データセット:SpaceNet、DeepGlobe、xBD、LoveDA、iSAID。階層的セグメンテーションの枠組み(建物 → 街区 → 土地利用 → 都市構造)は260524.mdの動機とよく整合する。


サマリーマトリックス

ドメイン最優秀(最高性能)最優秀(最も実用的)最優秀(最も拡張容易)
2D汎用SAM 3OMG-SegGLA-CLIP(学習不要)
OVSSPEARL / GLA-CLIPFC-CLIPProxyCLIP
ビデオOneVOS / SAM 2CutieLiVOS
医用3DMedDINOv3nnU-NetSwin-UMamba
医用ユニバーサルSegVolnnU-NetTri-Plane Mamba
衛星SkySenseSAM-RSRemoteCLIP

クイックスタート推奨

  1. OVSSを構築したい場合 → GLA-CLIP(CVPR 2026、学習不要、ドロップインモジュール)から始める。ADE20K/Pascal Contextで再現し、その後新しいドメインに拡張。
  2. ビデオを構築したい場合 → Cutie(CVPR 2024 Highlight、クリーンなコードベース、強力なベースライン)から始める。OASISスタイルの境界精緻化で拡張。
  3. 医用を構築したい場合 → nnU-Net(ゴールドスタンダード、必ず比較すべきベースライン)から始める。その後、CTでのViTベース改善にはMedDINOv3を試す。WSI向け:これは未開拓のギャップ — 高い機会。
  4. 衛星を構築したい場合 → RemoteCLIPでVL基盤を確立し、その後GLA-CLIPまたはFC-CLIPをSpaceNet/DeepGlobeでの密なOVSSに適応。このドメインは最も飽和度が低い。

出典: segmentation_deepresearch_2024_2026.mdOVSS surveyOVSS deep-diveGLA-CLIP analysis260524.md research memo 最終更新: 2026-05-25