調査対象: CVPR, ICCV, ECCV, NeurIPS, ICLR, MICCAI 等のトップカンファレンスにおける、セグメンテーションに関連する最新研究(2024年〜2026年) 調査分野: (1) 2D画像セグメンテーションの新アーキテクチャ, (2) 動画Tracking & Segmentation, (3) 工業用データセット, (4) 医用データセット・医用セグメンテーション


目次

  1. 2D画像セグメンテーション:新アーキテクチャ
  2. 動画Tracking & Segmentation
  3. 工業データセット・セグメンテーション
  4. 医用データセット・セグメンテーション
  5. 総合分析と推奨事項

1. 2D画像セグメンテーション:新アーキテクチャ

1.1 OMG-Seg: Is One Model Good Enough For All Segmentation?

項目内容
paper titleOMG-Seg: Is One Model Good Enough For All Segmentation?
paper linkhttps://openaccess.thecvf.com/content/CVPR2024/papers/Li_OMG-Seg_Is_One_Model_Good_Enough_For_All_Segmentation_CVPR_2024_paper.pdf
tagsCVPR 2024, Unified Segmentation, Multi-task, Transformer, Open-Vocabulary
summary画像・動画・オープンボキャブラリー・インタラクティブセグメンテーションを1つのモデルで統一。Mask2Formerベースのエンコーダ・デコーダアーキテクチャで、10種類以上のセグメンテーションタスクを1つの共有モデルで処理。CLIPテキストエンコーダも活用し、タスク間でパラメータを共有することで計算コストと専用設計の必要性を大幅に削減。
key ideaすべてのセグメンテーションタスクの出力を統一クエリ表現としてモデル化。1つのクエリがマスクラベル、画像/チューブマスク、ユニークID、ビジュアルプロンプトを表現可能。
comments / limitation重要なベースライン: 初めて4つの異なるセグメンテーション設定を1モデルで実現。パラメータ数はわずか70Mでタスク特化モデルと同等性能。後続の統合セグメンテーション研究に大きな影響。→ 各タスクの最上位性能を超える設計ではなく、"good enough"な統一性能が目標。動画と画像の同時学習による干渉は完全には解消されていない。

1.2 QueryMeldNet: Scaling up Image Segmentation across Data and Tasks

項目内容
paper titleQueryMeldNet: Scaling up Image Segmentation across Data and Tasks
paper linkhttps://openaccess.thecvf.com/content/CVPR2025/html/Wang_Scaling_up_Image_Segmentation_across_Data_and_Tasks_CVPR_2025_paper.html
tagsCVPR 2025, Scalable Segmentation, Open-set, Query-based, Synthetic Data
summary複数のデータセットとタスクを同時に学習することでセグメンテーションの汎化性を向上させるスケーラブルフレームワーク。"query meld"機構により異なるタイプのクエリをクロスアテンションで融合し、インスタンスレベルとスタッフレベルのセグメンテーションをバランス良く処理。合成データ生成も活用し、オープンセットセグメンテーションでSeginWベンチマークを7ポイント向上。
key ideaクエリ融合(query meld)メカニズムで異なるクエリタイプを動的に統合。データ規模とタスク多様性の両方でスケール可能な設計。
comments / limitationマルチタスク学習による相乗効果を明確に実証。特にオープンセット設定での汎化性能向上が顕著。→ 合成データの品質が最終性能に大きく影響。クエリ融合の計算コストはやや増加。

1.3 S4M: Boosting Semi-Supervised Instance Segmentation with SAM

項目内容
paper titleS4M: Boosting Semi-Supervised Instance Segmentation with SAM
paper linkhttps://openaccess.thecvf.com/content/ICCV2025/html/Yoon_S4M_Boosting_Semi-Supervised_Instance_Segmentation_with_SAM_ICCV_2025_paper.html
tagsICCV 2025, Semi-Supervised Learning, SAM, Instance Segmentation, Knowledge Distillation
summaryラベル付きデータが限られた状況でのインスタンスセグメンテーションを、SAMを活用して大幅に改善。Teacher-StudentフレームワークにSAMを統合し、構造蒸留・疑似ラベル精緻化・専用データ拡張の3つのアプローチでSAMの強力なセグメンテーション能力を効果的に転移。Cityscapes 5%ラベルでAP 30.1、COCO 1%ラベルでAP 24.2というSOTA性能。
key ideaSAMをそのまま使うのではなく、自己類似性行列の蒸留で構造的情報を転移。過分割/欠分割を避けつつSAMの局在化能力を獲得。
comments / limitation現在のSOTA: 半教師あり設定でのSOTAを達成。特にラベルが極端に少ない状況(1-5%)で強い。SAMのclass-agnostic性をうまく回避。→ SAMへの依存度が高く、SAMの性能が上限に影響。計算コストはSAMの推論分増加。

1.4 v-CLR: View-Consistent Learning for Open-World Instance Segmentation

項目内容
paper titlev-CLR: View-Consistent Learning for Open-World Instance Segmentation
paper linkCVPR 2025 (Proceedings)
tagsCVPR 2025, Open-World, Instance Segmentation, View Consistency, Self-Supervised
summaryオープンワールドインスタンスセグメンテーションのために、外観に不変な表現学習を実現。テクスチャを変更した構造保存ビューを生成し、異なるビュー間で特徴の一貫性を強制することで、見た目に頼らない堅牢な特徴を学習。未見オブジェクトの発見・セグメンテーション能力を大幅に向上。
key ideaテクスチャ変更ビュー生成+特徴一貫性正則化。外観不変な表現の学習。
comments / limitationテクスチャバイアス問題に対する新しいアプローチ。ゼロショット/フューショット設定で有効。→ ビュー生成の品質が性能に影響。計算コスト増加。

1.5 CALICO: Part-Focused Semantic Co-Segmentation with Large Vision-Language Models

項目内容
paper titleCALICO: Part-Focused Semantic Co-Segmentation with Large Vision-Language Models
paper linkCVPR 2025 (Proceedings)
tagsCVPR 2025, Part Segmentation, Vision-Language Model, Co-Segmentation, LVLM
summary複数画像にまたがるパーツレベルの意味的共セグメンテーションを初めて扱う。LVLMをベースに、Correspondence Extraction Moduleでパーツレベルの意味的類似性を抽出し、パラメータ効率の良い適応で詳細なオブジェクト・パーツ分析を実現。
key ideaパーツレベルの意味的対応を抽出する新しいモジュール。LVLMの強力な表現力をパーツ分割に活用。
comments / limitation新しいタスク設定を提案。オブジェクトの細部理解が必要な応用に有効。→ パーツアノテーションが必要でデータ収集コストは高い。複雑なパーツ階層には未対応。

1.6 MI-DETR: An Object Detection Model with Multi-time Inquiries Mechanism

項目内容
paper titleMI-DETR: An Object Detection Model with Multi-time Inquiries Mechanism
paper linkCVPR 2025 (Proceedings)
tagsCVPR 2025, DETR, Object Detection, Transformer, Parallel Queries
summaryDETR系モデルの連続的デコーダの限界を克服するため、並列マルチタイム照会(MI)機構を提案。オブジェクトクエリが画像特徴に対して複数の並列照会を実行でき、小さな物体や遮蔽された物体の検出性能を大幅に向上。
key ideaカスケードデコーダを並列化し、各クエリが複数回のクロスアテンションでricher特徴を収集。
comments / limitationCOCOベンチマークで既存DETRモデルを上回る性能。小物体検出の改善が特に顕著。→ 計算コストは増加。セグメンテーションタスクへの拡張は未検証。

1.7 Unified Anomaly Segmentation

項目内容
paper titleTowards Accurate Unified Anomaly Segmentation
paper linkhttps://ieeexplore.ieee.org/abstract/document/10943629/ (CVPR 2025 Workshop)
tagsCVPR 2025 Workshop, Anomaly Segmentation, Unified, Industrial, CNN+Transformer
summary未解決であった統一異常セグメンテーションタスクを正式に定義・導入。軽量CNNとTransformerの統合により、効率的な異常領域のセグメンテーションを実現。複数の工業データセットで包括的評価。
key idea異常セグメンテーションの統一フレームワーク。CNN+Transformerのハイブリッド設計。
comments / limitation異常セグメンテーションを体系的に扱った重要な研究。工業応用への実用性が高い。→ 異常の多様性カバレッジは限定的。

1.8 nnWNet: Rethinking the Use of Transformers in Biomedical Image Segmentation

項目内容
paper titlennWNet: Rethinking the Use of Transformers in Biomedical Image Segmentation
paper linkhttps://openaccess.thecvf.com/content/CVPR2025/html/Zhou_nnWNet_Rethinking_the_Use_of_Transformers_in_Biomedical_Image_Segmentation_CVPR_2025_paper.html
tagsCVPR 2025, Benchmark, nnU-Net, Validation, Medical Segmentation
summary3D医用画像セグメンテーションにおける厳格な検証の重要性を訴求。CNNベースのnnU-Netが、TransformerやMambaベースの最新手法と同等以上の性能を持つことを包括的ベンチマークで実証。不十分なベースライン・少ないデータセット・無視された計算資源などの検証上の問題を指摘。
key idea厳格な検証基準による包括的ベンチマーク。アーキテクチャの革新よりも、スケーリングと適切な設定が重要。
comments / limitation最も重要な反論研究: 医用画像セグメンテーション分野で最も影響力のある論文の一つ。Transformer/Mamba優位説を再検討させる。新アーキテクチャの性能評価では必ずnnU-Netを含めるべき。→ 特定のタスク(長距離依存性が重要な場合)ではTransformerの優位性が残る。

2. 動画Tracking & Segmentation

2.1 SAM 2: Segment Anything in Images and Videos

項目内容
paper titleSAM 2: Segment Anything in Images and Videos
paper linkhttps://arxiv.org/abs/2408.00714 (ICLR 2025)
tagsICLR 2025, Foundation Model, Video Segmentation, SAM, Streaming Architecture
summarySAMを動画領域に拡張。Promptable Visual Segmentation (PVS) タスクを定義し、画像・動画の両方でセグメンテーションを実現。ストリーミングアーキテクチャで1フレームずつ処理し、メモリアテンションモジュールで過去のオブジェクト記憶にアクセス。SA-Vデータセット(35.5Mマスク、50.9K動画)で学習。17個の動画・37個の画像ベンチマークでゼロショット評価。
key idea動画のためのストリーミングアーキテクチャ。メモリエンコーダ・メモリバンク・オブジェクトポインタで時空間一貫性を保持。
comments / limitation現代の標準: 動画セグメンテーションの事実上の標準。VOTS2025で80%の提出がSAM2ベース。後続のDAM4SAM, HQ-SMemなどの基盤。3x少ないインタラクションで従来より高精度。→ ショット変更・群集シーン・長期遮蔽で性能低下。非常に細い構造の追跡は困難。複数オブジェクト間の通信がない。

2.2 Cutie: Putting the Object Back into Video Object Segmentation

項目内容
paper titleCutie: Putting the Object Back into Video Object Segmentation
paper linkhttps://openaccess.thecvf.com/content/CVPR2024/papers/Cheng_Putting_the_Object_Back_into_Video_Object_Segmentation_CVPR_2024_paper.pdf
tagsCVPR 2024 Highlight, Video Object Segmentation, Object Memory, Object Transformer
summary近年のVOSがボトムアップのピクセルレベルメモリ読み出しに依存し、ノイズに弱い問題を解決。トップダウンのオブジェクトレベルメモリ読み出しを導入し、オブジェクトクエリを用いて高レベルセマンティクスと高解像度特徴マップを統合。前景-背景マスクアテンションでオブジェクトを明確に分離。
key ideaオブジェクトメモリSとオブジェクトトランスフォーマーによるtop-down読み出し。前景-背景マスクドアテンションでノイズ抑制。
comments / limitationCVPR 2024 Highlight: MOSEでXMemより+8.7 J&F、DeAOTより+4.2 J&Fかつ3倍高速。後続のOASIS, LiVOSなどに大きな影響。現在のVOS研究の重要ベースライン。→ 複雑なオブジェクト間相互作用には依然として課題。長期動画でのドリフトは完全に抑制されていない。

2.3 RMem: Restricted Memory Banks Improve Video Object Segmentation

項目内容
paper titleRMem: Restricted Memory Banks Improve Video Object Segmentation
paper linkhttps://openaccess.thecvf.com/content/CVPR2024/html/Zhou_RMem_Restricted_Memory_Banks_Improve_Video_Object_Segmentation_CVPR_2024_paper.html
tagsCVPR 2024, Memory Bank, Long Video, VOST, State Changes
summaryVOSにおいてメモリバンクのサイズを制限することで、かえって性能が向上するという逆説的な発見。メモリ拡大は冗長情報による混乱を増大させ、関連特徴のデコードを困難にする。制限メモリで重要性と新鮮さのバランスを取り、訓練-推論間の不一致も縮小。時間的位置埋め込みも新たに導入。
key ideaメモリバンクを制限することでVOSモジュールのデコード能力が向上。UCBアルゴリズムに着想を得たフレーム選択戦略。
comments / limitation長期動画でSOTA: 非常にシンプルながら強力なアプローチ。VOST(オブジェクト状態変化)とLong VideosデータセットでSOTA。RMemの考え方はLiVOSなど後続研究にも影響。→ 最適なメモリサイズはデータセット依存。極端に短い動画では恩恵は限定的。

2.4 OneVOS: Unifying Video Object Segmentation with All-in-One Transformer

項目内容
paper titleOneVOS: Unifying Video Object Segmentation with All-in-One Transformer
paper linkhttps://arxiv.org/abs/2403.08682 (ECCV 2024)
tagsECCV 2024, Unified VOS, Transformer, Multi-object, Dynamic Token Selection
summaryVOSの主要コンポーネント(特徴抽出・マッチング・メモリ管理)を1つのTransformerで統合。フレーム・マスク・メモリのすべての特徴をトランスフォーマートークンとしてモデル化。Uni-directional Hybrid Attentionで意味的エラーを修正。Dynamic Token Selectorで効率的な推論を実現。
key ideaVOSの全モジュールを1つのTransformerに統合。動的トークン選択で計算効率と性能の両立。
comments / limitation7つのデータセットでSOTA、特に複雑なLVOS(70.1% J&F)とMOSE(66.4% J&F)で大幅に既存手法を上回る。→ Transformerの計算量は依然として大きい。極長期動画でのスケーラビリティは未検証。

2.5 LiVOS: Light Video Object Segmentation with Gated Linear Matching

項目内容
paper titleLiVOS: Light Video Object Segmentation with Gated Linear Matching
paper linkhttps://openaccess.thecvf.com/content/CVPR2025/papers/Liu_LiVOS_Light_Video_Object_Segmentation_with_Gated_Linear_Matching_CVPR_2025_paper.pdf
tagsCVPR 2025, Lightweight, Linear Attention, High Resolution, Real-time
summarySTMネットワークのsoftmaxアテンションの2次計算量を、線形アテンションで定数サイズの状態行列に置き換え。ゲート行列で情報の選択的保持・破棄を制御。32GB GPUで4096p高解像度推論が可能。長期動画で53%少ないGPUメモリでSTMベース手法と同等性能。
key ideaSoftmax matchingをgated linear matchingに置き換え。定数サイズの状態行列で時空間に依存しない2D状態を維持。
comments / limitation高解像度VOSの革新: 非STM手法として最高性能。32GB GPUで4096p推論は画期的。長期・高解像度動画VOSの実用性を大きく向上。→ MOSEなど複雑なマルチオブジェクトシーンではSTMベース(Cutie)にやや劣る。線形アテンションの近似誤差。

2.6 OASIS: Structure Matters in Video Object Segmentation

項目内容
paper titleOASIS: Structure Matters: Revisiting Boundary Refinement in Video Object Segmentation
paper linkhttps://openaccess.thecvf.com/content/ICCV2025/papers/Qin_Structure_Matters_Revisiting_Boundary_Refinement_in_Video_Object_Segmentation_ICCV_2025_paper.pdf
tagsICCV 2025, Boundary Refinement, Real-time, Evidential Learning, Canny Edge
summaryメモリベースVOSの境界精度を向上させる軽量構造精緻化モジュール。Cannyエッジ検出器で粗いエッジ事前情報を抽出し、オブジェクトメモリと融合して構造マップを生成。証拠学習(Evidential Learning)で不確実性を定量化し、遮蔽領域のセグメンテーション精度を向上。48FPSでリアルタイム処理。
key ideaCannyエッジ+オブジェクトメモリ融合による構造精緻化。証拠学習による不確実性推定。
comments / limitationDAVIS-17 valでF値91.6(vs Cutie 89.7)、YouTubeVOS 2019 valでG値86.6。外科手術ビデオでもゼロショットで良好な性能。→ Cannyエッジの感度はパラメータに依存。複雑なテクスチャ背景では偽陽性が増加。

2.7 DAM4SAM: Distractor-Aware Memory for SAM2

項目内容
paper titleDAM4SAM: Distractor-Aware Memory for SAM2
paper linkhttps://www.votchallenge.net/vots2025/
tagsVOTS2025, SAM2, Distractor-aware, Dual Memory, Tracking
summarySAM2の拡張として、干渉物(distractor)に対応した双メモリアーキテクチャを提案。Recent Appearance Memory(RAM)で短期追跡精度を維持し、Distractor Resolving Memory(DRM)でターゲットと類似オブジェクトを区別。SAM2の複数出力マスク間の不一致を利用して干渉物検出・DRM選択的更新を実現。
key idea双メモリ(RAM+DRM)アーキテクチャ。マスク間不一致による干渉物自動検出。
comments / limitationVOTS2025の支配的ベースライン: VOTS2025で80%以上の提出がSAM2ベース、その多くがDAM4SAMを拡張。S3-DAM4SAM(DAM4SAM+Cutie統合)が優勝。類似オブジェクトが多いシーンでの性能向上が顕著。→ SAM2の基本制限を引き継ぐ。干渉物が極端に多い場合はDRMが飽和。

2.8 M3-VOS: Multi-Phase, Multi-Transition, and Multi-Scenery VOS

項目内容
paper titleM3-VOS: Multi-Phase, Multi-Transition, and Multi-Scenery Video Object Segmentation
paper linkhttps://arxiv.org/abs/2412.13803 (CVPR 2025)
tagsCVPR 2025, Phase Transition, Novel Benchmark, Physical Dynamics
summaryオブジェクトの相転移(氷→水、裁断など)を伴う新しいVOSベンチマークを提案。479本の高解像度動画、10以上のシナリオで、相転移とインスタンスマスクを密にアノテーション。ReVOS(反転精緻化)モデルで、エントロピー増大過程を反転によるエントロピー減少で補正する新アプローチ。
key idea相転移概念をVOSに導入。反転精緻化(Reversal Refinement)で動的変化をモデル化。
comments / limitation新しいタスク設定が現実世界のロボット応用に直結。既存の外観ベースアプローチの限界を明確に示した。→ ベンチマーク規模はまだ小さい。相転移の物理モデルは明示的に組み込まれていない。

2.9 HQ-SMem: High Quality VOS using Smart Memory

項目内容
paper titleHQ-SMem: Video Segmentation and Tracking Using Memory Efficient Object Embedding With Selective Update and Self-Supervised Distillation Feedback
paper linkhttps://arxiv.org/abs/2507.18921
tags2025, SAM-HQ, Smart Memory, Long Video, High Quality
summarySAM-HQを活用して粗いセグメンテーションマスクを精緻化。動的スマートメモリで関連キーフレームのみを選択的保持し、長期動画でのメモリ効率を最適化。外観モデルの動的更新でトポロジー変化とドリフトを抑制。
key ideaSAM-HQによる境界品質向上+スマートメモリ選択。動的外観更新。
comments / limitationVOTS2024/VOTSt2024で常に上位2位以内。長期動画・複雑マルチオブジェクトで強い。→ SAM-HQの推論コストは増加。メモリ選択戦略の最適化は課題。

2.10 VOTS2025 Challenge Results

項目内容
paper titleThe Third Visual Object Tracking Segmentation VOTS2025 Challenge Results
paper linkhttps://openaccess.thecvf.com/content/ICCV2025W/VOTS2025/html/Kristan_The_Third_Visual_Object_Tracking_Segmentation_VOTS2025_Challenge_Results_ICCVW_2025_paper.html
tagsICCV 2025 Workshop, Benchmark, Tracking, Segmentation, Survey
summaryVOTS2025チャレンジの結果報告。VOTS2025/VOTS-RT2025/VOTSt2025の3つのサブチャレンジ。SAM2ベースのトラッカーが80%を占める。優勝はS3-DAM4SAM。リアルタイム部門ではSV-DAM4SAMが優勝。適応的融合戦略による性能向上を確認。
key ideaSAM2.1が現代トラッキングに巨大な影響。DAM4SAMの拡張が主流。リアルタイム制約下でも堅牢性維持。
comments / limitation動画セグメンテーションの最新動向を網羅的に把握できる重要なサーベイ。すべての15提出がベースラインを上回る好結果。→ トポロジー変化を伴うVOTStは依然として困難。SAM2の制限がそのまま反映。

3. 工業データセット・セグメンテーション

3.1 Real-IAD: A Real-World Multi-View Dataset for Industrial Anomaly Detection

項目内容
paper titleReal-IAD: A Real-World Multi-View Dataset for Benchmarking Versatile Industrial Anomaly Detection
paper linkhttps://openaccess.thecvf.com/content/CVPR2024/papers/Wang_Real-IAD_A_Real-World_Multi-View_Dataset_for_Benchmarking_Versatile_Industrial_Anomaly_Detection_CVPR_2024_paper.pdf
tagsCVPR 2024, Industrial Dataset, Multi-view, Anomaly Detection, Large-scale
summary151,050枚の実世界工業画像を含む大規模異常検出データセット。30クラスの実製品、複数視点・複数照明条件で撮影。異常はピクセルレベルでセグメンテーションアノテーション付き。既存のMVTec AD(5,354枚)と比較して約28倍の規模。
key idea実世界の多様な製品・視点・照明を網羅。30クラス×複数視点×大規模アノテーション。
comments / limitation現在の標準ベンチマーク: 工業異常検出の標準ベンチマークとして急速に普及。Real-IADを使った論文は信頼性が高い。→ すべてのクラスが均等に難しいわけではない。一部クラスは比較的簡単。3D情報は限定的。

3.2 MANTA: Multi-View and Visual-Text Anomaly Detection for Tiny Objects

項目内容
paper titleMANTA: A Large-Scale Multi-View and Visual-Text Anomaly Detection Dataset for Tiny Objects
paper linkhttps://cvpr.thecvf.com/virtual/2025/poster/34486
tagsCVPR 2025, Tiny Object, Multimodal, Visual-Text, Industrial
summary微細オブジェクトの異常検出に特化した大規模データセット。38クラス、686,690枚の画像、マルチビュー・ビジュアルテキストアノテーション付き。微細な欠陥の検出・説明が可能。テキストによる異常の言語的記述も提供。
key idea微細オブジェクト専用の大規模データセット。画像+テキストのマルチモーダルアノテーション。
comments / limitation微細欠陥検出という重要な実用タスクに対応。Vision-Languageモデルとの組み合わせに最適。→ データ収集コストが高い。一部カテゴリは限定的。

3.3 Kaputt: A Large-Scale Dataset for Visual Defect Detection

項目内容
paper titleKaputt: A Large-Scale Dataset for Visual Defect Detection
paper linkhttps://openaccess.thecvf.com/content/ICCV2025/papers/Hofer_Kaputt_A_Large-Scale_Dataset_for_Visual_Defect_Detection_ICCV_2025_paper.pdf
tagsICCV 2025, Defect Detection, Large-scale, Visual Inspection
summary大規模視覚的欠陥検出データセット。既存データセットの課題を克服するため、多様な製品カテゴリ・欠陥タイプ・撮影条件を網羅。実世界の検査ラインに近い設定。
key idea実世界の検査環境に近い大規模データセット構築。欠陥の多様性と撮影条件の現実性。
comments / limitationICCV 2025で発表された注目のデータセット。工業応用への実用性が高い。→ 詳細な統計情報は論文に記載の通り。一部特殊な欠陥タイプは未カバー。

3.4 3CAD: 3C Product Dataset for Unsupervised Anomaly Detection

項目内容
paper title3CAD: A Large-Scale Real-World 3C Product Dataset for Unsupervised Anomaly Detection
paper linkhttps://github.com/M-3LAB/awesome-industrial-anomaly-detection
tagsAAAI 2025, 3C Product, Unsupervised, Real-world
summary27,039枚の実世界3C製品(PC・スマートフォン・タブレット等)異常検出データセット。8クラス、15,577正常・11,462異常サンプル。ピクセルレベルのセグメンテーションマスク付き。
key idea3C製品に特化した大規模実世界データセット。オープンセット設定。
comments / limitation電子機器製造業での応用に直結。Real-IADと並んで工業異常検出の重要ベンチマーク。→ 3C製品に限定。他の製造業分野への汎用性は不明。

3.5 Real-IAD D3: 2D/Pseudo-3D/3D Dataset for Industrial Anomaly Detection

項目内容
paper titleReal-IAD D3: A Real-World 2D/Pseudo-3D/3D Dataset for Industrial Anomaly Detection
paper linkCVPR 2025
tagsCVPR 2025, 3D Anomaly Detection, Multi-modal, Industrial
summaryReal-IADの拡張版で、2D画像・疑似3D・本格3Dの3つのモダリティを提供。20クラス、8,450サンプル。工業検査における3D幾何情報の重要性を検証可能。
key idea2D+3Dのマルチモーダル工業異常検出データセット。実世界の3D検査環境を反映。
comments / limitation3D情報を活用した異常検出研究の推進に寄与。Real-IADブランドの信頼性。→ 3Dデータの取得コストが高い。データセット規模は2D版より小さい。

3.6 MulSenAD: Multi-Sensor Object Anomaly Detection

項目内容
paper titleMulSenAD: Multi-Sensor Object Anomaly Detection
paper linkCVPR 2025
tagsCVPR 2025, Multi-Sensor, RGB-D-IR, Industrial
summaryRGB・Depth・IRの3つのセンサーを統合したマルチモーダル異常検出データセット。15クラス、2,035サンプル。外観・形状・内部特性の統一的な異常検出を可能にする。
key idea外観・幾何・内部特性を統合したマルチセンサー異常検出。
comments / limitation工業検査における非破壊検査に近い設定。マルチモーダル学習の重要性を示唆。→ データセット規模は比較的小さい。センサーの校正が必要。

4. 医用データセット・セグメンテーション

4.1 nnU-Net Revisited: A Call for Rigorous Validation

項目内容
paper titlennU-Net Revisited: A Call for Rigorous Validation in 3D Medical Image Segmentation
paper linkhttps://papers.miccai.org/miccai-2024/paper/2847_paper.pdf
tagsMICCAI 2024, Benchmark, nnU-Net, Validation, CNN vs Transformer
summary3D医用画像セグメンテーションにおける厳格な検証の重要性を訴求。CNNベースのnnU-Netが、TransformerやMambaベースの最新手法と同等以上の性能を持つことを包括的ベンチマークで実証。不十分なベースライン・少ないデータセット・無視された計算資源などの検証上の問題を指摘。
key ideaSOTA達成のレシピは 1) CNNベースU-Net(ResNet/ConvNeXt)、2) nnU-Netフレームワーク、3) 現代ハードウェアへのスケーリング。
comments / limitation最も影響力のある研究の一つ: nnU-Netが未だに最強という衝撃的な結果。新アーキテクタの性能評価では必ずnnU-Netを含めるべき。MICCAI 2024でオーラル発表。→ 特定のタスク(長距離依存性重視)ではTransformerの優位性が残る。

4.2 SegVol: Universal and Interactive Volumetric Medical Image Segmentation

項目内容
paper titleSegVol: Universal and Interactive Volumetric Medical Image Segmentation
paper linkhttps://proceedings.neurips.cc/paper_files/paper/2024/hash/c7c7cf10082e454b9662a686ce6f1b6f-Abstract-Conference.html
tagsNeurIPS 2024 Spotlight, Foundation Model, 3D Medical, Universal, Interactive
summary90K未ラベルCTボリュームと6Kラベル付きCTで学習した3D医用画像セグメンテーション基盤モデル。200以上の解剖学的カテゴリのセグメンテーションをサポート。点・ボックス・テキストプロンプトに対応。Zoom-out-zoom-in機構で効率的かつ高精度な推論。22のセグメンテーションタスクのうち19でSOTA。
key idea医用画像SAMの3D版。Semantic・Spatialプロンプト両対応。Zoom-out-zoom-inで効率化。
comments / limitation3D医用SAMの双璧: 3D医用画像セグメンテーションの基盤モデルとして広く引用。NeurIPS 2024 Spotlight。90Kボリュームの大規模事前学習が強力。→ CTに特化(MRIへの汎化は限定的)。推論コストは高い。超細部構造の精度には課題。

4.3 SAM-Med3D-MoE: Segment Anything Model for 3D Medical Images

項目内容
paper titleSAM-Med3D-MoE: Towards a Non-Forgetting Segment Anything Model via Mixture of Experts for 3D Medical Image Segmentation
paper linkMICCAI 2024 Proceedings
tagsMICCAI 2024, SAM, 3D Medical, Mixture of Experts, Continual Learning
summarySAMを3D医用画像に拡張し、MoE(Mixture of Experts)でカタストロフィック忘却を防止。複数の医用データセットで学習しながら、過去の知識を忘却しない。3D医用画像セグメンテーションで強力な性能と継続学習能力の両立を実現。
key ideaMoEアーキテクチャで知識の選択的活用。カタストロフィック忘却の防止。
comments / limitation継続学習の観点から重要。臨床現場での逐次学習シナリオに対応可能。→ MoEの計算コスト増加。専門家の数は固定。

4.4 MedDINOv3: Adapting Vision Foundation Models for Medical Segmentation

項目内容
paper titleMedDINOv3: How to adapt vision foundation models for medical image segmentation?
paper linkhttps://arxiv.org/abs/2509.02379
tags2025, DINOv3, Foundation Model, CT Segmentation, Self-Supervised
summaryDINOv3を医用画像セグメンテーションに適応。Plain ViTを再検討し、マルチスケールトークン集約と高解像度訓練でViT-BのAMOS22 DSCを78.39%→85.51%に向上。CT-3M(387万軸位CTスライス)でドメイン適応事前学習。4つのベンチマークでSOTA同等以上。
key ideaマルチスケールトークン集約+高解像度訓練でViTの局所性バイアスを強化。3段階ドメイン適応事前学習。
comments / limitationnnU-Netを超えた少数のViT手法: nnU-Netを超える初めてのViTベース手法の一つ。特にOARセグメンテーションで強い(AMOS22 +2.6%、BTCV +5.5%)。コード公開済み。→ 主にCTに特化(MRIは未検証)。事前学習コストは非常に高い。

4.5 Swin-UMamba: Mamba-based UNet with ImageNet Pretraining

項目内容
paper titleSwin-UMamba: Mamba-based UNet with ImageNet-Based Pretraining
paper linkhttps://papers.miccai.org/miccai-2024/paper/1627_paper.pdf
tagsMICCAI 2024, Mamba, ImageNet Pretraining, Medical, Efficient
summaryImageNet事前学習を活用したMambaベースの医用画像セグメンテーションモデル。既存のMambaモデルがスクラッチから学習する傾向に対し、ImageNet事前学習の有効性を実証。AbdomenMRI・Endoscopy・MicroscopyでU-Mambaを平均2.72%上回る。
key ideaMambaアーキテクチャ+ImageNet事前学習の組み合わせ。VMamba-Tinyエンコーダー+医用特化デコーダー。
comments / limitationMamba医用の先駆的研究: Mambaが医用画像で有効なことを示した先駆的研究。ImageNet事前学習がMambaでも有効という重要な知見。→ ImageNetと医用画像のドメインギャップは残る。3Dデータには未対応。

4.6 HybridMamba: A Dual-domain Mamba for 3D Medical Image Segmentation

項目内容
paper titleHybridMamba: A Dual-domain Mamba for 3D Medical Image Segmentation
paper linkhttps://papers.miccai.org/miccai-2025/paper/2815_paper.pdf
tagsMICCAI 2025, Mamba, 3D, Frequency Domain, Brain Tumor
summary3D医用画像セグメンテーションのための空間-周波数双領域Mamba。S-LMamba(スライス内局所窓)とLoMamba(スライス間長距離依存)の2つのモジュールで、局所病変領域と大域的構造の両方を捕捉。周波数ゲーティングモジュール(FGM)で多スケール特徴を融合。
key idea空間・周波数の双領域特徴学習。S-LMamba+LoMambaの相補的設計。
comments / limitationMICCAI 2025の注目論文。BraTS2023と独自の肺癌データセットでSOTA。特に小さな腫瘍領域の検出に強い。→ 2つのMambaモジュールの計算コストは増加。最適な窓サイズはデータ依存。

4.7 Tri-Plane Mamba: Adapting SAM for 3D Medical Images

項目内容
paper titleTri-Plane Mamba: Efficiently Adapting Segment Anything Model for 3D Medical Images
paper linkMICCAI 2024 Proceedings
tagsMICCAI 2024, SAM, 3D, Mamba, Tri-plane
summarySAMを3D医用画像に効率的に適応。3つの直交平面(coronal, sagittal, axial)でMambaを適用し、3D情報を保持しつつ計算効率を最適化。SAMの2D事前学習知識を3Dに効果的に転移。
key ideaTri-plane表現で3D情報を2Dマンバで効率的に処理。SAMの知識転移。
comments / limitation3D医用SAMの効率的実装の一つ。計算コストと性能の良いトレードオフ。→ 3つの平面の情報融合は完全ではない。複雑な3D形状には課題。

4.8 SAM Guided Enhanced Nuclei Segmentation

項目内容
paper titleSAM Guided Enhanced Nuclei Segmentation
paper linkMICCAI 2024 Proceedings
tagsMICCAI 2024, SAM, Nuclei Segmentation, Pathology, Zero-shot
summarySAMを病理画像の核セグメンテーションに適応。SAMの強力なゼロショットセグメンテーション能力を活用し、細胞核の正確な輪郭抽出を実現。病理画像特有の細密な構造に対するSAMの限界を改善。
key ideaSAMのプロンプト可能なセグメンテーションを病理画像に拡張。核検出の精度向上。
comments / limitation病理画像解析でのSAM適用の一例。細胞レベルのセグメンテーションに有効。→ 密集した細胞群での境界曖昧性。特殊な染色条件への頑健性。

4.9 SegMamba: Long-range Dependency for 3D Medical Image Segmentation

項目内容
paper titleSegMamba: Long-range Dependency Modeling for 3D Medical Image Segmentation
paper linkMICCAI 2024関連
tags2024, Mamba, 3D, Long-range, Efficient
summary3D医用画像セグメンテーションのための純粋なMambaベースアーキテクチャ。自己注意機構の2次計算量を回避しつつ、長距離依存性を効率的にモデル化。複数の3D医用画像データセットで強力な性能。
key ideaMambaの線形時間複雑性を3Dセグメンテーションに活用。長距離依存性の効率的学習。
comments / limitationMambaが医用画像で有効なことを示した先駆的研究の一つ。計算効率と性能の良いトレードオフ。→ ImageNet事前学習の恩恵を受けにくい。純粋Mambaの表現力には限界。

4.10 MetaUNETR: Universal Medical Image Segmentation

項目内容
paper titleMetaUNETR: Universal Medical Image Segmentation
paper linkMICCAI 2024 Proceedings
tagsMICCAI 2024, Universal, Meta-learning, Transformer, Few-shot
summaryメタ学習ベースの汎用医用画像セグメンテーションモデル。異なるタスクやモダリティ間で知識を共有し、少数サンプルでの適応を可能にする。UNETRアーキテクチャをベースに、タスクに依存しないメタ表現を学習。
key ideaメタ学習によるタスク汎用性。少数ショット適応能力。
comments / limitationMICCAI 2024のユニバーサルセグメンテーションに関する重要研究。臨床現場での適応性に注目。→ メタ学習の計算コスト。複雑なタスク分布での収束。

5. 総合分析と推奨事項

5.1 主要トレンド

分野主要トレンド代表論文
2D統合セグメンテーション複数タスク(画像/動画/オープンボキャブラリー/インタラクティブ)を1モデルで統合する流れが加速OMG-Seg, QueryMeldNet
動画セグメンテーションSAM2が事実上の標準に。Linear Attentionによる軽量化・高解像度化が次の波SAM 2, LiVOS, OASIS
医用セグメンテーションnnU-Netが依然最強だが、大規模事前学習+ViTの組み合わせが限定的に優位性を示し始めたnnU-Net Revisited, MedDINOv3, SegVol
工業異常検出大規模実世界データセット(Real-IAD系列)の整備が進み、3D・マルチモーダル化がトレンドReal-IAD, MANTA, Real-IAD D3

5.2 研究を進める上での推奨

  1. ベースラインの選定: 医用画像ではnnU-Netを必ず含める。2D統合ではOMG-Seg、動画ではSAM2/Cutieをベースラインとして推奨

  2. 新アーキテクチャの検証: nnWNetが示したように、厳格な検証(十分なデータセット・強力なベースライン・適切な計算資源)が不可欠

  3. データセットの活用: 工業ではReal-IADが標準。医用ではFLAREやBraTSチャレンジのデータが有用

  4. SAM2の活用: 動画セグメンテーションではSAM2をベースにした拡張(DAM4SAMのようなメモリ設計の改良)が最も効率的なアプローチ

  5. Mambaの位置づけ: Mambaは計算効率で優位だが、nnU-Net同等以上の性能を出すにはImageNet事前学習や巧妙な設計が必要


参考文献一覧

本レポートは以下の検索ソースに基づいて作成されました。

  • CVPR 2024/2025 Open Access Repository (thecvf.com)
  • ICCV 2025 Open Access Repository (thecvf.com)
  • NeurIPS 2024 Proceedings (neurips.cc)
  • MICCAI 2024/2025 Papers (papers.miccai.org)
  • arXiv preprint server (arxiv.org)
  • VOTS2025 Challenge Official Page (votchallenge.net)
  • Awesome-MICCAI-2024 GitHub Repository
  • Awesome-Industrial-Anomaly-Detection GitHub Repository
  • Awesome-Video-Object-Segmentation GitHub Repository

レポート作成日: 2026年5月24日 調査対象期間: 2024年1月 〜 2026年5月 対象カンファレンス: CVPR, ICCV, ECCV, NeurIPS, ICLR, MICCAI, AAAI