スコープ: 公開コードを持つトップカンファレンスモデル (2024–2026)。260524.md で定義された関心領域に基づきドメイン別に整理。 優先度: 2D汎用/OVSS > ビデオトラッキング > 医用 (WSI/3D/ビデオ) > 衛星。 選定基準: (1) CVPR/ICCV/ECCV/NeurIPS/ICLR/MICCAI 2024–2026 に採録、(2) 公開コードが利用可能または公開予定が明示されている、(3) SOTA または重要なアーキテクチャ上の貢献を示す。
1. 2D汎用セグメンテーション & オープンボキャブラリ (OVSS)
1.1 SAM 3 (2025) — Meta
| 項目 | 詳細 | | 会議 | ブログ/テクニカルレポート (2025) |
| キーアイデア | 第3世代 Segment Anything Model。画像とビデオのセグメンテーションを統一し、プロンプト追従性と境界品質を大幅に改善。SAM (ICCV 2023) および SAM 2 (ICLR 2025) の後継。 |
| コード | プロプライエタリ(重みは公開、コードは限定的) |
| SOTA主張 | 全セグメンテーションベンチマークで SAM 2 を上回る。SA-1B バリアントで人間に近い境界品質。 |
| 限界 | コアがクローズドソース。学習レシピは非公開。高い計算要件。テキストプロンプト性能は専用OVSSモデルに劣る。 |
1.2 OMG-Seg (CVPR 2024)
| 項目 | 詳細 | | 会議 | CVPR 2024 |
| キーアイデア | 10以上のセグメンテーションタスク(画像、ビデオ、オープンボキャブラリ、インタラクティブ)を70Mパラメータの単一Mask2Formerベースアーキテクチャで統一した最初のモデル。共有クエリ表現とCLIPテキストエンコーダを使用。 |
| コード | github.com/lxtGH/OMG-Seg |
| SOTA主張 | 70Mパラメータでほとんどのベンチマークにおいてタスク特化モデルに匹敵。統一セグメンテーションのベースラインを確立。 |
| 限界 | タスクごとの最高性能には届かない「十分良い」レベル。画像-ビデオ共同学習の干渉が完全には解決されていない。 |
1.3 GLA-CLIP (CVPR 2026)
| 項目 | 詳細 | | 会議 | CVPR 2026 |
| キーアイデア | 学習不要のOVSS。スライディングウィンドウの不整合を、key-value のグローバルトークンへの拡張、プロキシアンカーによるクエリバイアス補正、オブジェクトスケールごとの正規化により修正。既存のCLIPベースOVSSパイプラインへのドロップインモジュール。 |
| コード | github.com/GLA-CLIP/GLA-CLIP(公開予定) |
| SOTA主張 | CLIP-DINOiser に組み込むとベースラインの学習不要OVSSより +1.6 mIoU。ファインチューニングなしで8ベンチマーク平均 44.0 mIoU。 |
| 限界 | グローバルトークンアテンションにより推論コストが増加。全ウィンドウのトークンアクセスはウィンドウ数に対して O(N²)。 |
1.4 PEARL (CVPR 2026)
| 項目 | 詳細 | | 会議 | CVPR 2026 |
| キーアイデア | 学習不要のOVSS。重い後処理なしにセマンティクスを整列・伝播。テキストとビジョンのクロスモーダル幾何学的アライメントを単一フレームワークで解決。 |
| コード | 公開予定 (CVPR 2026) |
| SOTA主張 | 学習なしでファインチューニング済みOVSS手法に匹敵。 |
| 限界 | 2段階推論(整列 → 伝播)によりレイテンシが増加。非自然画像では幾何学的仮定が崩れる可能性がある。 |
1.5 ProxyCLIP (ECCV 2024)
| 項目 | 詳細 | | 会議 | ECCV 2024 |
| キーアイデア | 学習不要のOVSS。プロキシアテンションにより、CLIP(意味的豊かさ)とDINOv2のようなビジョン基盤モデル(空間的一貫性)を橋渡し。ファインチューニング不要。 |
| コード | github.com/mc-ll/ProxyCLIP |
| SOTA主張 | 8ベンチマークでCLIPベースライン比 44.4 → 40.3 mIoU 改善。発表時点で最高の学習不要結果。 |
| 限界 | 外部VFM(DINOv2)に依存。プロキシアテンションの品質はVFMの特徴解像度に制約される。 |
1.6 CAT-Seg (CVPR 2024)
| 項目 | 詳細 | | 会議 | CVPR 2024 |
| キーアイデア | OVSSのためのコスト集約。マルチスケールコストボリュームによりピクセル-テキストのマッチングコストを集約し、セグメンテーションを分類ではなく密なマッチング問題として扱う。 |
| コード | github.com/KU-CVLAB/CAT-Seg |
| SOTA主張 | ADE20K-150/847、PASCAL Context-59/459 で強い結果。多くの後続研究(PCA-Seg など)に採用された影響力のあるコスト集約パラダイム。 |
| 限界 | コストボリュームのメモリはクラス数 × 空間解像度に比例。推論時にクラスリストが必要であり、完全なオープンボキャブラリではない。 |
1.7 FC-CLIP (NeurIPS 2023 → 2025年まで影響力継続)
| 項目 | 詳細 | | 会議 | NeurIPS 2023(2024–2026の論文で広く使われるベースライン) |
| キーアイデア | 凍結したConvNeXt-CLIPバックボーンをマスク生成と分類の両方に共有する単一段階OVSS。2段階のプロポーザルパイプラインを排除。 |
| コード | github.com/bytedance/fc-clip |
| SOTA主張 | より高速に2段階OVSSに匹敵。パノプティック品質は特化モデルと同等。 |
| 限界 | 凍結CLIPバックボーンによりドメイン適応が制限される。新規クラスでは新しい学習不要手法に劣る。 |
1.8 OVSeg (CVPR 2023 → 基盤的ベースライン)
| 項目 | 詳細 | | 会議 | CVPR 2023(基盤的 — 2025–2026のOVSS論文で現在も引用) |
| キーアイデア | 2段階OVSSパラダイムを確立:マスク提案 → マスク領域CLIP分類。キャプションからの多様なマスク-カテゴリペアを用いたマスク適応CLIPファインチューニングを導入。 |
| コード | github.com/facebookresearch/ov-seg |
| SOTA主張 | OVSSの基盤的ベースライン。CLIPのマスク領域への適応が鍵となるボトルネックであることを実証。 |
| 限界 | 2段階パイプラインは1段階方式より低速。マスク提案の品質が性能の上限となる。 |
1.9 QueryMeldNet (CVPR 2025)
| 項目 | 詳細 | | 会議 | CVPR 2025 |
| キーアイデア | 複数データセット・複数タスクの統合学習によるスケーラブルなセグメンテーション。「クエリ融合」機構がインスタンスレベルとスタッフレベルのクエリをクロスアテンションで融合。合成データをオープンセット汎化に活用。 |
| コード | 公開予定 (CVPR 2025) |
| SOTA主張 | SegInW オープンセットベンチマークで +7ポイント。マルチタスクの相乗効果を明確に実証。 |
| 限界 | 合成データ品質への依存。クエリ融合による計算オーバーヘッド。 |
1.10 S4M (ICCV 2025)
| 項目 | 詳細 | | 会議 | ICCV 2025 |
| キーアイデア | SAMにより強化された半教師ありインスタンスセグメンテーション。構造蒸留、疑似ラベル精緻化、専用データ拡張によるSAM統合を備えた教師-生徒フレームワーク。 |
| コード | 公開予定 (ICCV 2025) |
| SOTA主張 | Cityscapes 5%ラベルで AP 30.1、COCO 1%ラベルで AP 24.2。極端な低ラベル領域でSOTA。 |
| 限界 | SAM依存 — 上限はSAM品質に制約される。SAM順伝播による推論コスト増加。 |
2. ビデオトラッキング & セグメンテーション
2.1 SAM 2 (ICLR 2025)
| 項目 | 詳細 | | 会議 | ICLR 2025 |
| キーアイデア | Promptable Visual Segmentation (PVS) によりSAMをビデオに拡張。ストリーミングアーキテクチャが、過去のオブジェクト状態へのメモリアテンションを用いてフレームごとに処理。SA-Vデータセット(35.5Mマスク、50.9Kビデオ)で学習。 |
| コード | github.com/facebookresearch/sam2 |
| SOTA主張 | 17のビデオ + 37の画像ベンチマークでゼロショットSOTA。VOTS2025の投稿の80%がSAM2ベース。従来手法比で必要なインタラクション数が1/3。 |
| 限界 | ショット切替、群衆シーン、長期オクルージョンで劣化。非常に細い構造の追跡が困難。マルチオブジェクトシナリオでオブジェクト間通信がない。 |
2.2 Cutie (CVPR 2024 Highlight)
| 項目 | 詳細 | | 会議 | CVPR 2024 (Highlight) |
| キーアイデア | VOSのためのトップダウンオブジェクトレベルメモリ読み出し。ボトムアップのピクセルメモリを、高レベル意味情報と高解像度特徴を統合したオブジェクトクエリで置換。前景-背景マスクドアテンションがディストラクタを抑制。 |
| コード | github.com/hkchengrex/Cutie |
| SOTA主張 | MOSE: XMem比 +8.7 J&F、DeAOT比 +4.2 J&F、3倍高速。必須のVOSベースライン。OASISやLiVOSに影響を与えた。 |
| 限界 | 複雑なマルチオブジェクト相互作用は依然困難。長尺ビデオでのドリフトが完全には抑制されない。 |
2.3 LiVOS (CVPR 2025)
| 項目 | 詳細 | | 会議 | CVPR 2025 |
| キーアイデア | STMネットワークのsoftmaxアテンション(O(N²))を、定数サイズの状態行列を用いたゲート付き線形アテンション(O(N))に置換。32GB GPUで4096p高解像度推論を実現。 |
| コード | github.com/art-ist/LiVOS |
| SOTA主張 | 最高の非STM VOS手法。長尺ビデオでSTMベース手法比53%のGPUメモリ削減。4096p推論は前例がない。 |
| 限界 | 複雑なマルチオブジェクトシーン(MOSE)ではCutieにわずかに劣る。非常に長い系列では線形アテンションの近似誤差が蓄積。 |
2.4 OneVOS (ECCV 2024)
| 項目 | 詳細 | | 会議 | ECCV 2024 |
| キーアイデア | 全VOSコンポーネント(特徴抽出、マッチング、メモリ)を単一Transformerに統一。全特徴をトークン化。単方向ハイブリッドアテンション + 効率化のための動的トークンセレクタ。 |
| コード | github.com/kryv3835/OneVOS |
| SOTA主張 | 7データセットでSOTA。LVOS 70.1% J&F、MOSE 66.4% J&F — 従来研究に大差。 |
| 限界 | Transformerの計算コストが高い。極端な長尺ビデオでのスケーラビリティは未検証。 |
2.5 OASIS (ICCV 2025)
| 項目 | 詳細 | | 会議 | ICCV 2025 |
| キーアイデア | メモリベースVOSのための軽量境界精緻化モジュール。Cannyエッジ事前情報とオブジェクトメモリを融合して構造マップを生成。エビデンシャル学習が不確実性を定量化し、遮蔽領域のセグメンテーションを改善。48 FPS リアルタイム。 |
| コード | 公開予定 (ICCV 2025) |
| SOTA主張 | DAVIS-17 val F=91.6(Cutie 89.7)、YouTubeVOS 2019 val G=86.6。外科手術ビデオでの強力なゼロショット性能。 |
| 限界 | Cannyエッジ感度はパラメータ依存。複雑なテクスチャ背景では偽陽性エッジが増加。 |
2.6 RMem (CVPR 2024)
| 項目 | 詳細 | | 会議 | CVPR 2024 |
| キーアイデア | 直感に反する発見:メモリバンクサイズを制限することで、デコードを混乱させる冗長情報を削減しVOSが改善。UCBに着想を得たフレーム選択が重要度と新規性のバランスを取る。 |
| コード | github.com/RMem/RMem |
| SOTA主張 | VOST(オブジェクト状態変化)およびLong VideosデータセットでSOTA。シンプルかつ強力 — LiVOSの設計に影響。 |
| 限界 | 最適なメモリサイズはデータセット依存。非常に短いビデオでは恩恵が限定的。 |
3. 医用セグメンテーション
3.1 nnU-Net (MICCAI 2024 Revisited — ゴールドスタンダード)
| 項目 | 詳細 | | 会議 | MICCAI 2024(包括的ベンチマーク論文。CVPR 2025: nnWNetも) |
| キーアイデア | CNNベースのnnU-Netが3D医用セグメンテーションにおいてTransformer/Mamba手法に匹敵または上回ることを示す厳格なベンチマーク。重要な洞察:アーキテクチャよりも適切な設定、スケーリング、検証が重要。 |
| コード | github.com/MIC-DKFZ/nnUNet |
| SOTA主張 | 包括的3Dベンチマークにおいて全Transformer/Mamba手法と同等またはそれ以上。すべての新しい医用セグメンテーションモデルが比較すべき必須ベースラインであり続ける。 |
| 限界 | CNNの受容野は一部の長距離依存タスクを制限。オープンボキャブラリやインタラクティブプロンプト向けには設計されていない。 |
3.2 SegVol (NeurIPS 2024 Spotlight)
| 項目 | 詳細 | | 会議 | NeurIPS 2024 (Spotlight) |
| キーアイデア | ユニバーサル3D医用画像セグメンテーション基盤モデル。90Kの未ラベル + 6Kのラベル付きCTボリュームで学習。ポイント、ボックス、テキストプロンプトに対応。高解像度推論のためのズームアウト・ズームイン機構。 |
| コード | github.com/BAAI-DCAI/SegVol |
| SOTA主張 | 22タスク中19でSOTA。200以上の解剖学的カテゴリ。強力なゼロショット転移。 |
| 限界 | CT特化(MRI汎化は限定的)。高い推論コスト。超微細構造は依然困難。 |
3.3 MedDINOv3 (2025)
| 項目 | 詳細 | | 会議 | 2025 (arXiv:2509.02379) |
| キーアイデア | DINOv3 ViTを医用セグメンテーションに適応。マルチスケールトークン集約 + 高解像度学習により ViT-B の AMOS22 DSC を 78.39% → 85.51% に引き上げ。CT-3M(3.87Mの軸方向CTスライス)でのドメイン適応事前学習。 |
| コード | github.com/MedDINOv3/MedDINOv3(公開予定) |
| SOTA主張 | nnU-Netを上回った数少ないViT手法の一つ:AMOS22 +2.6%、BTCV +5.5%。4ベンチマークでSOTAまたは競争力のある性能。 |
| 限界 | CTのみ(MRI未検証)。事前学習コストが非常に高い(3.87Mスライス)。 |
3.4 SAM-Med3D-MoE (MICCAI 2024)
| 項目 | 詳細 | | 会議 | MICCAI 2024 |
| キーアイデア | Mixture of Experts によりSAMを3D医用画像に拡張し、破壊的忘却を防止。事前知識を劣化させることなく複数の医用データセットにわたる継続学習を可能にする。 |
| コード | 公開予定 (MICCAI 2024) |
| SOTA主張 | 継続学習能力を備えた強力な3D医用セグメンテーション性能 — 医用SAM適応の中でユニーク。 |
| 限界 | MoEにより計算量が増加。エキスパート数は固定 — 非常に多様なデータ分布へのスケーリングは困難。 |
3.5 Swin-UMamba (MICCAI 2024)
| 項目 | 詳細 | | 会議 | MICCAI 2024 |
| キーアイデア | ImageNet事前学習を用いた先駆的Mambaベース医用セグメンテーション。Mambaが事前学習済み重みから恩恵を受けることを実証(従来のMamba手法はスクラッチ学習)。VMamba-Tinyエンコーダ + 医用デコーダ。 |
| コード | github.com/JiarunLiu/Swin-UMamba |
| SOTA主張 | AbdomenMRI、内視鏡、顕微鏡でU-Mamba比 +2.72%。医用領域でImageNet事前学習がMambaに有効であることを初めて示した。 |
| 限界 | ImageNetから医用へのドメインギャップは残存。2Dのみ — 3D非対応。 |
3.6 HybridMamba (MICCAI 2025)
| 項目 | 詳細 | | 会議 | MICCAI 2025 |
| キーアイデア | 空間+周波数のデュアルドメインMambaによる3D医用セグメンテーション。S-LMambaはスライス内ローカルウィンドウ用、LoMambaはスライス間長距離依存用。周波数ゲーティングモジュールがマルチスケール特徴を融合。 |
| コード | 公開予定 (MICCAI 2025) |
| SOTA主張 | BraTS2023および独自肺がんデータセットでSOTA。特に小さな腫瘍領域で強力。 |
| 限界 | デュアルMambaモジュールにより計算コストが増加。最適なウィンドウサイズはデータ依存。 |
3.7 Tri-Plane Mamba (MICCAI 2024)
| 項目 | 詳細 | | 会議 | MICCAI 2024 |
| キーアイデア | トライプレーンMambaによる3D医用画像への効率的なSAM適応。3つの直交平面(冠状、矢状、軸状)にMambaを適用し、2Dの効率性で3D情報を保持。 |
| コード | 公開予定 (MICCAI 2024) |
| SOTA主張 | 3D医用SAMバリアントの中で良好な計算-性能トレードオフ。SAMの2D知識の3Dへの効率的な転移。 |
| 限界 | トライプレーン融合は近似的 — 複雑な3D形状は完全に捕捉されない可能性がある。 |
ギャップ: WSI(全スライド画像)セグメンテーション — ギガピクセルWSIの階層的セグメンテーションを特に対象とし、公開コードを持つ2024–2026のトップカンファレンスモデルは見つからなかった。既存モデル(CLAM、DS-MIL、TransMIL、HIPT)は対象期間以前。SAMベースのWSI適応論文は存在するが、ほとんどがワークショップ/プレプリントレベル。これは260524.mdの階層的セグメンテーション目標に合致する真の機会領域である。 ギャップ: 医用ビデオ(内視鏡/超音波) — OASISは外科手術ビデオでのゼロショット結果を示すが、公開コードを持つ2024–2026のトップカンファレンスで医用ビデオセグメンテーション専用モデルは深掘り調査で特定されなかった。外科手術ツールセグメンテーション(EndoVisチャレンジ)は存在するが、ドメインが狭い。
4. 衛星/リモートセンシング セグメンテーション
⚠️ ギャップ注意: 深掘り調査(2024–2026、トップカンファレンス)は衛星/リモートセンシングセグメンテーションをカバーしていない。本セクションは既知の高インパクトモデルから構成されているが、セクション1–3より網羅性が低い。追加の対象調査を推奨。
4.1 SkySense (CVPR 2024)
| 項目 | 詳細 | | キーアイデア | リモートセンシング基盤モデル。大規模マルチモーダル衛星画像(光学、SAR、マルチスペクトル)で事前学習。セグメンテーション、検出、分類の統一バックボーン。 |
| コード | 公開予定 (CVPR 2024) |
| 限界 | 基盤モデルのスケールによりファインチューニングに大きな計算資源が必要。タスク特化ヘッドは依然必要。 |
4.2 RemoteCLIP (CVPR 2024)
4.3 SegEarth-OV (2025)
| 項目 | 詳細 | | キーアイデア | 地球観測のためのオープンボキャブラリセマンティックセグメンテーション。ドメイン特化のデータ拡張とテキストプロンプトによりOVSS技術を衛星画像ドメインに適応。 |
| コード | 公開予定 |
| 限界 | 初期段階の研究。ベンチマークカバレッジが限定的。 |
4.4 SAM-RS(各種適応、2024–2025)
| 項目 | 詳細 | | キーアイデア | リモートセンシング向けSAM適応のファミリー:SAM-Adapter、RSP-SAM、SAM-RS。ほとんどがLoRAやプロンプトチューニングを用いたアダプタベースのファインチューニングにより、自然画像SAMと衛星ドメインのギャップを橋渡し。 |
| コード | 複数リポジトリ — 例: github.com/ViTAE-Transformer/SAM-RS |
| SOTA主張 | プロンプトを与えた場合の衛星画像での強力なゼロショットインスタンスセグメンテーション。 |
| 限界 | プロンプト依存(ポイント/ボックス)。オープンボキャブラリテキスト非対応。細粒度の土地被覆分類は依然弱い。 |
推奨: 衛星セグメンテーションには専用の深掘り調査パスが必要。主要データセット:SpaceNet、DeepGlobe、xBD、LoveDA、iSAID。階層的セグメンテーションの枠組み(建物 → 街区 → 土地利用 → 都市構造)は260524.mdの動機とよく整合する。
サマリーマトリックス
| ドメイン | 最優秀(最高性能) | 最優秀(最も実用的) | 最優秀(最も拡張容易) | | 2D汎用 | SAM 3 | OMG-Seg | GLA-CLIP(学習不要) |
| OVSS | PEARL / GLA-CLIP | FC-CLIP | ProxyCLIP |
| ビデオ | OneVOS / SAM 2 | Cutie | LiVOS |
| 医用3D | MedDINOv3 | nnU-Net | Swin-UMamba |
| 医用ユニバーサル | SegVol | nnU-Net | Tri-Plane Mamba |
| 衛星 | SkySense | SAM-RS | RemoteCLIP |
クイックスタート推奨
- OVSSを構築したい場合 → GLA-CLIP(CVPR 2026、学習不要、ドロップインモジュール)から始める。ADE20K/Pascal Contextで再現し、その後新しいドメインに拡張。
- ビデオを構築したい場合 → Cutie(CVPR 2024 Highlight、クリーンなコードベース、強力なベースライン)から始める。OASISスタイルの境界精緻化で拡張。
- 医用を構築したい場合 → nnU-Net(ゴールドスタンダード、必ず比較すべきベースライン)から始める。その後、CTでのViTベース改善にはMedDINOv3を試す。WSI向け:これは未開拓のギャップ — 高い機会。
- 衛星を構築したい場合 → RemoteCLIPでVL基盤を確立し、その後GLA-CLIPまたはFC-CLIPをSpaceNet/DeepGlobeでの密なOVSSに適応。このドメインは最も飽和度が低い。
出典: segmentation_deepresearch_2024_2026.md、OVSS survey、OVSS deep-dive、GLA-CLIP analysis、260524.md research memo。 最終更新: 2026-05-25