調査対象: CVPR, ICCV, ECCV, NeurIPS, ICLR, MICCAI 等のトップカンファレンスにおける、セグメンテーションに関連する最新研究(2024年〜2026年) 調査分野: (1) 2D画像セグメンテーションの新アーキテクチャ, (2) 動画Tracking & Segmentation, (3) 工業用データセット, (4) 医用データセット・医用セグメンテーション
目次
- 2D画像セグメンテーション:新アーキテクチャ
- 動画Tracking & Segmentation
- 工業データセット・セグメンテーション
- 医用データセット・セグメンテーション
- 総合分析と推奨事項
1. 2D画像セグメンテーション:新アーキテクチャ
1.1 OMG-Seg: Is One Model Good Enough For All Segmentation?
| 項目 | 内容 | | paper title | OMG-Seg: Is One Model Good Enough For All Segmentation? |
| paper link | https://openaccess.thecvf.com/content/CVPR2024/papers/Li_OMG-Seg_Is_One_Model_Good_Enough_For_All_Segmentation_CVPR_2024_paper.pdf |
| tags | CVPR 2024, Unified Segmentation, Multi-task, Transformer, Open-Vocabulary |
| summary | 画像・動画・オープンボキャブラリー・インタラクティブセグメンテーションを1つのモデルで統一。Mask2Formerベースのエンコーダ・デコーダアーキテクチャで、10種類以上のセグメンテーションタスクを1つの共有モデルで処理。CLIPテキストエンコーダも活用し、タスク間でパラメータを共有することで計算コストと専用設計の必要性を大幅に削減。 |
| key idea | すべてのセグメンテーションタスクの出力を統一クエリ表現としてモデル化。1つのクエリがマスクラベル、画像/チューブマスク、ユニークID、ビジュアルプロンプトを表現可能。 |
| comments / limitation | 重要なベースライン: 初めて4つの異なるセグメンテーション設定を1モデルで実現。パラメータ数はわずか70Mでタスク特化モデルと同等性能。後続の統合セグメンテーション研究に大きな影響。→ 各タスクの最上位性能を超える設計ではなく、"good enough"な統一性能が目標。動画と画像の同時学習による干渉は完全には解消されていない。 |
1.2 QueryMeldNet: Scaling up Image Segmentation across Data and Tasks
| 項目 | 内容 | | paper title | QueryMeldNet: Scaling up Image Segmentation across Data and Tasks |
| paper link | https://openaccess.thecvf.com/content/CVPR2025/html/Wang_Scaling_up_Image_Segmentation_across_Data_and_Tasks_CVPR_2025_paper.html |
| tags | CVPR 2025, Scalable Segmentation, Open-set, Query-based, Synthetic Data |
| summary | 複数のデータセットとタスクを同時に学習することでセグメンテーションの汎化性を向上させるスケーラブルフレームワーク。"query meld"機構により異なるタイプのクエリをクロスアテンションで融合し、インスタンスレベルとスタッフレベルのセグメンテーションをバランス良く処理。合成データ生成も活用し、オープンセットセグメンテーションでSeginWベンチマークを7ポイント向上。 |
| key idea | クエリ融合(query meld)メカニズムで異なるクエリタイプを動的に統合。データ規模とタスク多様性の両方でスケール可能な設計。 |
| comments / limitation | マルチタスク学習による相乗効果を明確に実証。特にオープンセット設定での汎化性能向上が顕著。→ 合成データの品質が最終性能に大きく影響。クエリ融合の計算コストはやや増加。 |
1.3 S4M: Boosting Semi-Supervised Instance Segmentation with SAM
| 項目 | 内容 | | paper title | S4M: Boosting Semi-Supervised Instance Segmentation with SAM |
| paper link | https://openaccess.thecvf.com/content/ICCV2025/html/Yoon_S4M_Boosting_Semi-Supervised_Instance_Segmentation_with_SAM_ICCV_2025_paper.html |
| tags | ICCV 2025, Semi-Supervised Learning, SAM, Instance Segmentation, Knowledge Distillation |
| summary | ラベル付きデータが限られた状況でのインスタンスセグメンテーションを、SAMを活用して大幅に改善。Teacher-StudentフレームワークにSAMを統合し、構造蒸留・疑似ラベル精緻化・専用データ拡張の3つのアプローチでSAMの強力なセグメンテーション能力を効果的に転移。Cityscapes 5%ラベルでAP 30.1、COCO 1%ラベルでAP 24.2というSOTA性能。 |
| key idea | SAMをそのまま使うのではなく、自己類似性行列の蒸留で構造的情報を転移。過分割/欠分割を避けつつSAMの局在化能力を獲得。 |
| comments / limitation | 現在のSOTA: 半教師あり設定でのSOTAを達成。特にラベルが極端に少ない状況(1-5%)で強い。SAMのclass-agnostic性をうまく回避。→ SAMへの依存度が高く、SAMの性能が上限に影響。計算コストはSAMの推論分増加。 |
1.4 v-CLR: View-Consistent Learning for Open-World Instance Segmentation
| 項目 | 内容 | | paper title | v-CLR: View-Consistent Learning for Open-World Instance Segmentation |
| paper link | CVPR 2025 (Proceedings) |
| tags | CVPR 2025, Open-World, Instance Segmentation, View Consistency, Self-Supervised |
| summary | オープンワールドインスタンスセグメンテーションのために、外観に不変な表現学習を実現。テクスチャを変更した構造保存ビューを生成し、異なるビュー間で特徴の一貫性を強制することで、見た目に頼らない堅牢な特徴を学習。未見オブジェクトの発見・セグメンテーション能力を大幅に向上。 |
| key idea | テクスチャ変更ビュー生成+特徴一貫性正則化。外観不変な表現の学習。 |
| comments / limitation | テクスチャバイアス問題に対する新しいアプローチ。ゼロショット/フューショット設定で有効。→ ビュー生成の品質が性能に影響。計算コスト増加。 |
1.5 CALICO: Part-Focused Semantic Co-Segmentation with Large Vision-Language Models
| 項目 | 内容 | | paper title | CALICO: Part-Focused Semantic Co-Segmentation with Large Vision-Language Models |
| paper link | CVPR 2025 (Proceedings) |
| tags | CVPR 2025, Part Segmentation, Vision-Language Model, Co-Segmentation, LVLM |
| summary | 複数画像にまたがるパーツレベルの意味的共セグメンテーションを初めて扱う。LVLMをベースに、Correspondence Extraction Moduleでパーツレベルの意味的類似性を抽出し、パラメータ効率の良い適応で詳細なオブジェクト・パーツ分析を実現。 |
| key idea | パーツレベルの意味的対応を抽出する新しいモジュール。LVLMの強力な表現力をパーツ分割に活用。 |
| comments / limitation | 新しいタスク設定を提案。オブジェクトの細部理解が必要な応用に有効。→ パーツアノテーションが必要でデータ収集コストは高い。複雑なパーツ階層には未対応。 |
1.6 MI-DETR: An Object Detection Model with Multi-time Inquiries Mechanism
| 項目 | 内容 | | paper title | MI-DETR: An Object Detection Model with Multi-time Inquiries Mechanism |
| paper link | CVPR 2025 (Proceedings) |
| tags | CVPR 2025, DETR, Object Detection, Transformer, Parallel Queries |
| summary | DETR系モデルの連続的デコーダの限界を克服するため、並列マルチタイム照会(MI)機構を提案。オブジェクトクエリが画像特徴に対して複数の並列照会を実行でき、小さな物体や遮蔽された物体の検出性能を大幅に向上。 |
| key idea | カスケードデコーダを並列化し、各クエリが複数回のクロスアテンションでricher特徴を収集。 |
| comments / limitation | COCOベンチマークで既存DETRモデルを上回る性能。小物体検出の改善が特に顕著。→ 計算コストは増加。セグメンテーションタスクへの拡張は未検証。 |
1.7 Unified Anomaly Segmentation
| 項目 | 内容 | | paper title | Towards Accurate Unified Anomaly Segmentation |
| paper link | https://ieeexplore.ieee.org/abstract/document/10943629/ (CVPR 2025 Workshop) |
| tags | CVPR 2025 Workshop, Anomaly Segmentation, Unified, Industrial, CNN+Transformer |
| summary | 未解決であった統一異常セグメンテーションタスクを正式に定義・導入。軽量CNNとTransformerの統合により、効率的な異常領域のセグメンテーションを実現。複数の工業データセットで包括的評価。 |
| key idea | 異常セグメンテーションの統一フレームワーク。CNN+Transformerのハイブリッド設計。 |
| comments / limitation | 異常セグメンテーションを体系的に扱った重要な研究。工業応用への実用性が高い。→ 異常の多様性カバレッジは限定的。 |
1.8 nnWNet: Rethinking the Use of Transformers in Biomedical Image Segmentation
| 項目 | 内容 | | paper title | nnWNet: Rethinking the Use of Transformers in Biomedical Image Segmentation |
| paper link | https://openaccess.thecvf.com/content/CVPR2025/html/Zhou_nnWNet_Rethinking_the_Use_of_Transformers_in_Biomedical_Image_Segmentation_CVPR_2025_paper.html |
| tags | CVPR 2025, Benchmark, nnU-Net, Validation, Medical Segmentation |
| summary | 3D医用画像セグメンテーションにおける厳格な検証の重要性を訴求。CNNベースのnnU-Netが、TransformerやMambaベースの最新手法と同等以上の性能を持つことを包括的ベンチマークで実証。不十分なベースライン・少ないデータセット・無視された計算資源などの検証上の問題を指摘。 |
| key idea | 厳格な検証基準による包括的ベンチマーク。アーキテクチャの革新よりも、スケーリングと適切な設定が重要。 |
| comments / limitation | 最も重要な反論研究: 医用画像セグメンテーション分野で最も影響力のある論文の一つ。Transformer/Mamba優位説を再検討させる。新アーキテクチャの性能評価では必ずnnU-Netを含めるべき。→ 特定のタスク(長距離依存性が重要な場合)ではTransformerの優位性が残る。 |
2. 動画Tracking & Segmentation
2.1 SAM 2: Segment Anything in Images and Videos
| 項目 | 内容 | | paper title | SAM 2: Segment Anything in Images and Videos |
| paper link | https://arxiv.org/abs/2408.00714 (ICLR 2025) |
| tags | ICLR 2025, Foundation Model, Video Segmentation, SAM, Streaming Architecture |
| summary | SAMを動画領域に拡張。Promptable Visual Segmentation (PVS) タスクを定義し、画像・動画の両方でセグメンテーションを実現。ストリーミングアーキテクチャで1フレームずつ処理し、メモリアテンションモジュールで過去のオブジェクト記憶にアクセス。SA-Vデータセット(35.5Mマスク、50.9K動画)で学習。17個の動画・37個の画像ベンチマークでゼロショット評価。 |
| key idea | 動画のためのストリーミングアーキテクチャ。メモリエンコーダ・メモリバンク・オブジェクトポインタで時空間一貫性を保持。 |
| comments / limitation | 現代の標準: 動画セグメンテーションの事実上の標準。VOTS2025で80%の提出がSAM2ベース。後続のDAM4SAM, HQ-SMemなどの基盤。3x少ないインタラクションで従来より高精度。→ ショット変更・群集シーン・長期遮蔽で性能低下。非常に細い構造の追跡は困難。複数オブジェクト間の通信がない。 |
2.2 Cutie: Putting the Object Back into Video Object Segmentation
| 項目 | 内容 | | paper title | Cutie: Putting the Object Back into Video Object Segmentation |
| paper link | https://openaccess.thecvf.com/content/CVPR2024/papers/Cheng_Putting_the_Object_Back_into_Video_Object_Segmentation_CVPR_2024_paper.pdf |
| tags | CVPR 2024 Highlight, Video Object Segmentation, Object Memory, Object Transformer |
| summary | 近年のVOSがボトムアップのピクセルレベルメモリ読み出しに依存し、ノイズに弱い問題を解決。トップダウンのオブジェクトレベルメモリ読み出しを導入し、オブジェクトクエリを用いて高レベルセマンティクスと高解像度特徴マップを統合。前景-背景マスクアテンションでオブジェクトを明確に分離。 |
| key idea | オブジェクトメモリSとオブジェクトトランスフォーマーによるtop-down読み出し。前景-背景マスクドアテンションでノイズ抑制。 |
| comments / limitation | CVPR 2024 Highlight: MOSEでXMemより+8.7 J&F、DeAOTより+4.2 J&Fかつ3倍高速。後続のOASIS, LiVOSなどに大きな影響。現在のVOS研究の重要ベースライン。→ 複雑なオブジェクト間相互作用には依然として課題。長期動画でのドリフトは完全に抑制されていない。 |
2.3 RMem: Restricted Memory Banks Improve Video Object Segmentation
| 項目 | 内容 | | paper title | RMem: Restricted Memory Banks Improve Video Object Segmentation |
| paper link | https://openaccess.thecvf.com/content/CVPR2024/html/Zhou_RMem_Restricted_Memory_Banks_Improve_Video_Object_Segmentation_CVPR_2024_paper.html |
| tags | CVPR 2024, Memory Bank, Long Video, VOST, State Changes |
| summary | VOSにおいてメモリバンクのサイズを制限することで、かえって性能が向上するという逆説的な発見。メモリ拡大は冗長情報による混乱を増大させ、関連特徴のデコードを困難にする。制限メモリで重要性と新鮮さのバランスを取り、訓練-推論間の不一致も縮小。時間的位置埋め込みも新たに導入。 |
| key idea | メモリバンクを制限することでVOSモジュールのデコード能力が向上。UCBアルゴリズムに着想を得たフレーム選択戦略。 |
| comments / limitation | 長期動画でSOTA: 非常にシンプルながら強力なアプローチ。VOST(オブジェクト状態変化)とLong VideosデータセットでSOTA。RMemの考え方はLiVOSなど後続研究にも影響。→ 最適なメモリサイズはデータセット依存。極端に短い動画では恩恵は限定的。 |
2.4 OneVOS: Unifying Video Object Segmentation with All-in-One Transformer
| 項目 | 内容 | | paper title | OneVOS: Unifying Video Object Segmentation with All-in-One Transformer |
| paper link | https://arxiv.org/abs/2403.08682 (ECCV 2024) |
| tags | ECCV 2024, Unified VOS, Transformer, Multi-object, Dynamic Token Selection |
| summary | VOSの主要コンポーネント(特徴抽出・マッチング・メモリ管理)を1つのTransformerで統合。フレーム・マスク・メモリのすべての特徴をトランスフォーマートークンとしてモデル化。Uni-directional Hybrid Attentionで意味的エラーを修正。Dynamic Token Selectorで効率的な推論を実現。 |
| key idea | VOSの全モジュールを1つのTransformerに統合。動的トークン選択で計算効率と性能の両立。 |
| comments / limitation | 7つのデータセットでSOTA、特に複雑なLVOS(70.1% J&F)とMOSE(66.4% J&F)で大幅に既存手法を上回る。→ Transformerの計算量は依然として大きい。極長期動画でのスケーラビリティは未検証。 |
2.5 LiVOS: Light Video Object Segmentation with Gated Linear Matching
| 項目 | 内容 | | paper title | LiVOS: Light Video Object Segmentation with Gated Linear Matching |
| paper link | https://openaccess.thecvf.com/content/CVPR2025/papers/Liu_LiVOS_Light_Video_Object_Segmentation_with_Gated_Linear_Matching_CVPR_2025_paper.pdf |
| tags | CVPR 2025, Lightweight, Linear Attention, High Resolution, Real-time |
| summary | STMネットワークのsoftmaxアテンションの2次計算量を、線形アテンションで定数サイズの状態行列に置き換え。ゲート行列で情報の選択的保持・破棄を制御。32GB GPUで4096p高解像度推論が可能。長期動画で53%少ないGPUメモリでSTMベース手法と同等性能。 |
| key idea | Softmax matchingをgated linear matchingに置き換え。定数サイズの状態行列で時空間に依存しない2D状態を維持。 |
| comments / limitation | 高解像度VOSの革新: 非STM手法として最高性能。32GB GPUで4096p推論は画期的。長期・高解像度動画VOSの実用性を大きく向上。→ MOSEなど複雑なマルチオブジェクトシーンではSTMベース(Cutie)にやや劣る。線形アテンションの近似誤差。 |
2.6 OASIS: Structure Matters in Video Object Segmentation
| 項目 | 内容 | | paper title | OASIS: Structure Matters: Revisiting Boundary Refinement in Video Object Segmentation |
| paper link | https://openaccess.thecvf.com/content/ICCV2025/papers/Qin_Structure_Matters_Revisiting_Boundary_Refinement_in_Video_Object_Segmentation_ICCV_2025_paper.pdf |
| tags | ICCV 2025, Boundary Refinement, Real-time, Evidential Learning, Canny Edge |
| summary | メモリベースVOSの境界精度を向上させる軽量構造精緻化モジュール。Cannyエッジ検出器で粗いエッジ事前情報を抽出し、オブジェクトメモリと融合して構造マップを生成。証拠学習(Evidential Learning)で不確実性を定量化し、遮蔽領域のセグメンテーション精度を向上。48FPSでリアルタイム処理。 |
| key idea | Cannyエッジ+オブジェクトメモリ融合による構造精緻化。証拠学習による不確実性推定。 |
| comments / limitation | DAVIS-17 valでF値91.6(vs Cutie 89.7)、YouTubeVOS 2019 valでG値86.6。外科手術ビデオでもゼロショットで良好な性能。→ Cannyエッジの感度はパラメータに依存。複雑なテクスチャ背景では偽陽性が増加。 |
2.7 DAM4SAM: Distractor-Aware Memory for SAM2
| 項目 | 内容 | | paper title | DAM4SAM: Distractor-Aware Memory for SAM2 |
| paper link | https://www.votchallenge.net/vots2025/ |
| tags | VOTS2025, SAM2, Distractor-aware, Dual Memory, Tracking |
| summary | SAM2の拡張として、干渉物(distractor)に対応した双メモリアーキテクチャを提案。Recent Appearance Memory(RAM)で短期追跡精度を維持し、Distractor Resolving Memory(DRM)でターゲットと類似オブジェクトを区別。SAM2の複数出力マスク間の不一致を利用して干渉物検出・DRM選択的更新を実現。 |
| key idea | 双メモリ(RAM+DRM)アーキテクチャ。マスク間不一致による干渉物自動検出。 |
| comments / limitation | VOTS2025の支配的ベースライン: VOTS2025で80%以上の提出がSAM2ベース、その多くがDAM4SAMを拡張。S3-DAM4SAM(DAM4SAM+Cutie統合)が優勝。類似オブジェクトが多いシーンでの性能向上が顕著。→ SAM2の基本制限を引き継ぐ。干渉物が極端に多い場合はDRMが飽和。 |
2.8 M3-VOS: Multi-Phase, Multi-Transition, and Multi-Scenery VOS
| 項目 | 内容 | | paper title | M3-VOS: Multi-Phase, Multi-Transition, and Multi-Scenery Video Object Segmentation |
| paper link | https://arxiv.org/abs/2412.13803 (CVPR 2025) |
| tags | CVPR 2025, Phase Transition, Novel Benchmark, Physical Dynamics |
| summary | オブジェクトの相転移(氷→水、裁断など)を伴う新しいVOSベンチマークを提案。479本の高解像度動画、10以上のシナリオで、相転移とインスタンスマスクを密にアノテーション。ReVOS(反転精緻化)モデルで、エントロピー増大過程を反転によるエントロピー減少で補正する新アプローチ。 |
| key idea | 相転移概念をVOSに導入。反転精緻化(Reversal Refinement)で動的変化をモデル化。 |
| comments / limitation | 新しいタスク設定が現実世界のロボット応用に直結。既存の外観ベースアプローチの限界を明確に示した。→ ベンチマーク規模はまだ小さい。相転移の物理モデルは明示的に組み込まれていない。 |
2.9 HQ-SMem: High Quality VOS using Smart Memory
| 項目 | 内容 | | paper title | HQ-SMem: Video Segmentation and Tracking Using Memory Efficient Object Embedding With Selective Update and Self-Supervised Distillation Feedback |
| paper link | https://arxiv.org/abs/2507.18921 |
| tags | 2025, SAM-HQ, Smart Memory, Long Video, High Quality |
| summary | SAM-HQを活用して粗いセグメンテーションマスクを精緻化。動的スマートメモリで関連キーフレームのみを選択的保持し、長期動画でのメモリ効率を最適化。外観モデルの動的更新でトポロジー変化とドリフトを抑制。 |
| key idea | SAM-HQによる境界品質向上+スマートメモリ選択。動的外観更新。 |
| comments / limitation | VOTS2024/VOTSt2024で常に上位2位以内。長期動画・複雑マルチオブジェクトで強い。→ SAM-HQの推論コストは増加。メモリ選択戦略の最適化は課題。 |
2.10 VOTS2025 Challenge Results
| 項目 | 内容 | | paper title | The Third Visual Object Tracking Segmentation VOTS2025 Challenge Results |
| paper link | https://openaccess.thecvf.com/content/ICCV2025W/VOTS2025/html/Kristan_The_Third_Visual_Object_Tracking_Segmentation_VOTS2025_Challenge_Results_ICCVW_2025_paper.html |
| tags | ICCV 2025 Workshop, Benchmark, Tracking, Segmentation, Survey |
| summary | VOTS2025チャレンジの結果報告。VOTS2025/VOTS-RT2025/VOTSt2025の3つのサブチャレンジ。SAM2ベースのトラッカーが80%を占める。優勝はS3-DAM4SAM。リアルタイム部門ではSV-DAM4SAMが優勝。適応的融合戦略による性能向上を確認。 |
| key idea | SAM2.1が現代トラッキングに巨大な影響。DAM4SAMの拡張が主流。リアルタイム制約下でも堅牢性維持。 |
| comments / limitation | 動画セグメンテーションの最新動向を網羅的に把握できる重要なサーベイ。すべての15提出がベースラインを上回る好結果。→ トポロジー変化を伴うVOTStは依然として困難。SAM2の制限がそのまま反映。 |
3. 工業データセット・セグメンテーション
3.1 Real-IAD: A Real-World Multi-View Dataset for Industrial Anomaly Detection
| 項目 | 内容 | | paper title | Real-IAD: A Real-World Multi-View Dataset for Benchmarking Versatile Industrial Anomaly Detection |
| paper link | https://openaccess.thecvf.com/content/CVPR2024/papers/Wang_Real-IAD_A_Real-World_Multi-View_Dataset_for_Benchmarking_Versatile_Industrial_Anomaly_Detection_CVPR_2024_paper.pdf |
| tags | CVPR 2024, Industrial Dataset, Multi-view, Anomaly Detection, Large-scale |
| summary | 151,050枚の実世界工業画像を含む大規模異常検出データセット。30クラスの実製品、複数視点・複数照明条件で撮影。異常はピクセルレベルでセグメンテーションアノテーション付き。既存のMVTec AD(5,354枚)と比較して約28倍の規模。 |
| key idea | 実世界の多様な製品・視点・照明を網羅。30クラス×複数視点×大規模アノテーション。 |
| comments / limitation | 現在の標準ベンチマーク: 工業異常検出の標準ベンチマークとして急速に普及。Real-IADを使った論文は信頼性が高い。→ すべてのクラスが均等に難しいわけではない。一部クラスは比較的簡単。3D情報は限定的。 |
3.2 MANTA: Multi-View and Visual-Text Anomaly Detection for Tiny Objects
| 項目 | 内容 | | paper title | MANTA: A Large-Scale Multi-View and Visual-Text Anomaly Detection Dataset for Tiny Objects |
| paper link | https://cvpr.thecvf.com/virtual/2025/poster/34486 |
| tags | CVPR 2025, Tiny Object, Multimodal, Visual-Text, Industrial |
| summary | 微細オブジェクトの異常検出に特化した大規模データセット。38クラス、686,690枚の画像、マルチビュー・ビジュアルテキストアノテーション付き。微細な欠陥の検出・説明が可能。テキストによる異常の言語的記述も提供。 |
| key idea | 微細オブジェクト専用の大規模データセット。画像+テキストのマルチモーダルアノテーション。 |
| comments / limitation | 微細欠陥検出という重要な実用タスクに対応。Vision-Languageモデルとの組み合わせに最適。→ データ収集コストが高い。一部カテゴリは限定的。 |
3.3 Kaputt: A Large-Scale Dataset for Visual Defect Detection
| 項目 | 内容 | | paper title | Kaputt: A Large-Scale Dataset for Visual Defect Detection |
| paper link | https://openaccess.thecvf.com/content/ICCV2025/papers/Hofer_Kaputt_A_Large-Scale_Dataset_for_Visual_Defect_Detection_ICCV_2025_paper.pdf |
| tags | ICCV 2025, Defect Detection, Large-scale, Visual Inspection |
| summary | 大規模視覚的欠陥検出データセット。既存データセットの課題を克服するため、多様な製品カテゴリ・欠陥タイプ・撮影条件を網羅。実世界の検査ラインに近い設定。 |
| key idea | 実世界の検査環境に近い大規模データセット構築。欠陥の多様性と撮影条件の現実性。 |
| comments / limitation | ICCV 2025で発表された注目のデータセット。工業応用への実用性が高い。→ 詳細な統計情報は論文に記載の通り。一部特殊な欠陥タイプは未カバー。 |
3.4 3CAD: 3C Product Dataset for Unsupervised Anomaly Detection
| 項目 | 内容 | | paper title | 3CAD: A Large-Scale Real-World 3C Product Dataset for Unsupervised Anomaly Detection |
| paper link | https://github.com/M-3LAB/awesome-industrial-anomaly-detection |
| tags | AAAI 2025, 3C Product, Unsupervised, Real-world |
| summary | 27,039枚の実世界3C製品(PC・スマートフォン・タブレット等)異常検出データセット。8クラス、15,577正常・11,462異常サンプル。ピクセルレベルのセグメンテーションマスク付き。 |
| key idea | 3C製品に特化した大規模実世界データセット。オープンセット設定。 |
| comments / limitation | 電子機器製造業での応用に直結。Real-IADと並んで工業異常検出の重要ベンチマーク。→ 3C製品に限定。他の製造業分野への汎用性は不明。 |
3.5 Real-IAD D3: 2D/Pseudo-3D/3D Dataset for Industrial Anomaly Detection
| 項目 | 内容 | | paper title | Real-IAD D3: A Real-World 2D/Pseudo-3D/3D Dataset for Industrial Anomaly Detection |
| paper link | CVPR 2025 |
| tags | CVPR 2025, 3D Anomaly Detection, Multi-modal, Industrial |
| summary | Real-IADの拡張版で、2D画像・疑似3D・本格3Dの3つのモダリティを提供。20クラス、8,450サンプル。工業検査における3D幾何情報の重要性を検証可能。 |
| key idea | 2D+3Dのマルチモーダル工業異常検出データセット。実世界の3D検査環境を反映。 |
| comments / limitation | 3D情報を活用した異常検出研究の推進に寄与。Real-IADブランドの信頼性。→ 3Dデータの取得コストが高い。データセット規模は2D版より小さい。 |
3.6 MulSenAD: Multi-Sensor Object Anomaly Detection
| 項目 | 内容 | | paper title | MulSenAD: Multi-Sensor Object Anomaly Detection |
| paper link | CVPR 2025 |
| tags | CVPR 2025, Multi-Sensor, RGB-D-IR, Industrial |
| summary | RGB・Depth・IRの3つのセンサーを統合したマルチモーダル異常検出データセット。15クラス、2,035サンプル。外観・形状・内部特性の統一的な異常検出を可能にする。 |
| key idea | 外観・幾何・内部特性を統合したマルチセンサー異常検出。 |
| comments / limitation | 工業検査における非破壊検査に近い設定。マルチモーダル学習の重要性を示唆。→ データセット規模は比較的小さい。センサーの校正が必要。 |
4. 医用データセット・セグメンテーション
4.1 nnU-Net Revisited: A Call for Rigorous Validation
| 項目 | 内容 | | paper title | nnU-Net Revisited: A Call for Rigorous Validation in 3D Medical Image Segmentation |
| paper link | https://papers.miccai.org/miccai-2024/paper/2847_paper.pdf |
| tags | MICCAI 2024, Benchmark, nnU-Net, Validation, CNN vs Transformer |
| summary | 3D医用画像セグメンテーションにおける厳格な検証の重要性を訴求。CNNベースのnnU-Netが、TransformerやMambaベースの最新手法と同等以上の性能を持つことを包括的ベンチマークで実証。不十分なベースライン・少ないデータセット・無視された計算資源などの検証上の問題を指摘。 |
| key idea | SOTA達成のレシピは 1) CNNベースU-Net(ResNet/ConvNeXt)、2) nnU-Netフレームワーク、3) 現代ハードウェアへのスケーリング。 |
| comments / limitation | 最も影響力のある研究の一つ: nnU-Netが未だに最強という衝撃的な結果。新アーキテクタの性能評価では必ずnnU-Netを含めるべき。MICCAI 2024でオーラル発表。→ 特定のタスク(長距離依存性重視)ではTransformerの優位性が残る。 |
4.2 SegVol: Universal and Interactive Volumetric Medical Image Segmentation
| 項目 | 内容 | | paper title | SegVol: Universal and Interactive Volumetric Medical Image Segmentation |
| paper link | https://proceedings.neurips.cc/paper_files/paper/2024/hash/c7c7cf10082e454b9662a686ce6f1b6f-Abstract-Conference.html |
| tags | NeurIPS 2024 Spotlight, Foundation Model, 3D Medical, Universal, Interactive |
| summary | 90K未ラベルCTボリュームと6Kラベル付きCTで学習した3D医用画像セグメンテーション基盤モデル。200以上の解剖学的カテゴリのセグメンテーションをサポート。点・ボックス・テキストプロンプトに対応。Zoom-out-zoom-in機構で効率的かつ高精度な推論。22のセグメンテーションタスクのうち19でSOTA。 |
| key idea | 医用画像SAMの3D版。Semantic・Spatialプロンプト両対応。Zoom-out-zoom-inで効率化。 |
| comments / limitation | 3D医用SAMの双璧: 3D医用画像セグメンテーションの基盤モデルとして広く引用。NeurIPS 2024 Spotlight。90Kボリュームの大規模事前学習が強力。→ CTに特化(MRIへの汎化は限定的)。推論コストは高い。超細部構造の精度には課題。 |
4.3 SAM-Med3D-MoE: Segment Anything Model for 3D Medical Images
| 項目 | 内容 | | paper title | SAM-Med3D-MoE: Towards a Non-Forgetting Segment Anything Model via Mixture of Experts for 3D Medical Image Segmentation |
| paper link | MICCAI 2024 Proceedings |
| tags | MICCAI 2024, SAM, 3D Medical, Mixture of Experts, Continual Learning |
| summary | SAMを3D医用画像に拡張し、MoE(Mixture of Experts)でカタストロフィック忘却を防止。複数の医用データセットで学習しながら、過去の知識を忘却しない。3D医用画像セグメンテーションで強力な性能と継続学習能力の両立を実現。 |
| key idea | MoEアーキテクチャで知識の選択的活用。カタストロフィック忘却の防止。 |
| comments / limitation | 継続学習の観点から重要。臨床現場での逐次学習シナリオに対応可能。→ MoEの計算コスト増加。専門家の数は固定。 |
4.4 MedDINOv3: Adapting Vision Foundation Models for Medical Segmentation
| 項目 | 内容 | | paper title | MedDINOv3: How to adapt vision foundation models for medical image segmentation? |
| paper link | https://arxiv.org/abs/2509.02379 |
| tags | 2025, DINOv3, Foundation Model, CT Segmentation, Self-Supervised |
| summary | DINOv3を医用画像セグメンテーションに適応。Plain ViTを再検討し、マルチスケールトークン集約と高解像度訓練でViT-BのAMOS22 DSCを78.39%→85.51%に向上。CT-3M(387万軸位CTスライス)でドメイン適応事前学習。4つのベンチマークでSOTA同等以上。 |
| key idea | マルチスケールトークン集約+高解像度訓練でViTの局所性バイアスを強化。3段階ドメイン適応事前学習。 |
| comments / limitation | nnU-Netを超えた少数のViT手法: nnU-Netを超える初めてのViTベース手法の一つ。特にOARセグメンテーションで強い(AMOS22 +2.6%、BTCV +5.5%)。コード公開済み。→ 主にCTに特化(MRIは未検証)。事前学習コストは非常に高い。 |
4.5 Swin-UMamba: Mamba-based UNet with ImageNet Pretraining
| 項目 | 内容 | | paper title | Swin-UMamba: Mamba-based UNet with ImageNet-Based Pretraining |
| paper link | https://papers.miccai.org/miccai-2024/paper/1627_paper.pdf |
| tags | MICCAI 2024, Mamba, ImageNet Pretraining, Medical, Efficient |
| summary | ImageNet事前学習を活用したMambaベースの医用画像セグメンテーションモデル。既存のMambaモデルがスクラッチから学習する傾向に対し、ImageNet事前学習の有効性を実証。AbdomenMRI・Endoscopy・MicroscopyでU-Mambaを平均2.72%上回る。 |
| key idea | Mambaアーキテクチャ+ImageNet事前学習の組み合わせ。VMamba-Tinyエンコーダー+医用特化デコーダー。 |
| comments / limitation | Mamba医用の先駆的研究: Mambaが医用画像で有効なことを示した先駆的研究。ImageNet事前学習がMambaでも有効という重要な知見。→ ImageNetと医用画像のドメインギャップは残る。3Dデータには未対応。 |
4.6 HybridMamba: A Dual-domain Mamba for 3D Medical Image Segmentation
| 項目 | 内容 | | paper title | HybridMamba: A Dual-domain Mamba for 3D Medical Image Segmentation |
| paper link | https://papers.miccai.org/miccai-2025/paper/2815_paper.pdf |
| tags | MICCAI 2025, Mamba, 3D, Frequency Domain, Brain Tumor |
| summary | 3D医用画像セグメンテーションのための空間-周波数双領域Mamba。S-LMamba(スライス内局所窓)とLoMamba(スライス間長距離依存)の2つのモジュールで、局所病変領域と大域的構造の両方を捕捉。周波数ゲーティングモジュール(FGM)で多スケール特徴を融合。 |
| key idea | 空間・周波数の双領域特徴学習。S-LMamba+LoMambaの相補的設計。 |
| comments / limitation | MICCAI 2025の注目論文。BraTS2023と独自の肺癌データセットでSOTA。特に小さな腫瘍領域の検出に強い。→ 2つのMambaモジュールの計算コストは増加。最適な窓サイズはデータ依存。 |
4.7 Tri-Plane Mamba: Adapting SAM for 3D Medical Images
| 項目 | 内容 | | paper title | Tri-Plane Mamba: Efficiently Adapting Segment Anything Model for 3D Medical Images |
| paper link | MICCAI 2024 Proceedings |
| tags | MICCAI 2024, SAM, 3D, Mamba, Tri-plane |
| summary | SAMを3D医用画像に効率的に適応。3つの直交平面(coronal, sagittal, axial)でMambaを適用し、3D情報を保持しつつ計算効率を最適化。SAMの2D事前学習知識を3Dに効果的に転移。 |
| key idea | Tri-plane表現で3D情報を2Dマンバで効率的に処理。SAMの知識転移。 |
| comments / limitation | 3D医用SAMの効率的実装の一つ。計算コストと性能の良いトレードオフ。→ 3つの平面の情報融合は完全ではない。複雑な3D形状には課題。 |
4.8 SAM Guided Enhanced Nuclei Segmentation
| 項目 | 内容 | | paper title | SAM Guided Enhanced Nuclei Segmentation |
| paper link | MICCAI 2024 Proceedings |
| tags | MICCAI 2024, SAM, Nuclei Segmentation, Pathology, Zero-shot |
| summary | SAMを病理画像の核セグメンテーションに適応。SAMの強力なゼロショットセグメンテーション能力を活用し、細胞核の正確な輪郭抽出を実現。病理画像特有の細密な構造に対するSAMの限界を改善。 |
| key idea | SAMのプロンプト可能なセグメンテーションを病理画像に拡張。核検出の精度向上。 |
| comments / limitation | 病理画像解析でのSAM適用の一例。細胞レベルのセグメンテーションに有効。→ 密集した細胞群での境界曖昧性。特殊な染色条件への頑健性。 |
4.9 SegMamba: Long-range Dependency for 3D Medical Image Segmentation
| 項目 | 内容 | | paper title | SegMamba: Long-range Dependency Modeling for 3D Medical Image Segmentation |
| paper link | MICCAI 2024関連 |
| tags | 2024, Mamba, 3D, Long-range, Efficient |
| summary | 3D医用画像セグメンテーションのための純粋なMambaベースアーキテクチャ。自己注意機構の2次計算量を回避しつつ、長距離依存性を効率的にモデル化。複数の3D医用画像データセットで強力な性能。 |
| key idea | Mambaの線形時間複雑性を3Dセグメンテーションに活用。長距離依存性の効率的学習。 |
| comments / limitation | Mambaが医用画像で有効なことを示した先駆的研究の一つ。計算効率と性能の良いトレードオフ。→ ImageNet事前学習の恩恵を受けにくい。純粋Mambaの表現力には限界。 |
4.10 MetaUNETR: Universal Medical Image Segmentation
| 項目 | 内容 | | paper title | MetaUNETR: Universal Medical Image Segmentation |
| paper link | MICCAI 2024 Proceedings |
| tags | MICCAI 2024, Universal, Meta-learning, Transformer, Few-shot |
| summary | メタ学習ベースの汎用医用画像セグメンテーションモデル。異なるタスクやモダリティ間で知識を共有し、少数サンプルでの適応を可能にする。UNETRアーキテクチャをベースに、タスクに依存しないメタ表現を学習。 |
| key idea | メタ学習によるタスク汎用性。少数ショット適応能力。 |
| comments / limitation | MICCAI 2024のユニバーサルセグメンテーションに関する重要研究。臨床現場での適応性に注目。→ メタ学習の計算コスト。複雑なタスク分布での収束。 |
5. 総合分析と推奨事項
5.1 主要トレンド
| 分野 | 主要トレンド | 代表論文 | | 2D統合セグメンテーション | 複数タスク(画像/動画/オープンボキャブラリー/インタラクティブ)を1モデルで統合する流れが加速 | OMG-Seg, QueryMeldNet |
| 動画セグメンテーション | SAM2が事実上の標準に。Linear Attentionによる軽量化・高解像度化が次の波 | SAM 2, LiVOS, OASIS |
| 医用セグメンテーション | nnU-Netが依然最強だが、大規模事前学習+ViTの組み合わせが限定的に優位性を示し始めた | nnU-Net Revisited, MedDINOv3, SegVol |
| 工業異常検出 | 大規模実世界データセット(Real-IAD系列)の整備が進み、3D・マルチモーダル化がトレンド | Real-IAD, MANTA, Real-IAD D3 |
5.2 研究を進める上での推奨
ベースラインの選定: 医用画像ではnnU-Netを必ず含める。2D統合ではOMG-Seg、動画ではSAM2/Cutieをベースラインとして推奨
新アーキテクチャの検証: nnWNetが示したように、厳格な検証(十分なデータセット・強力なベースライン・適切な計算資源)が不可欠
データセットの活用: 工業ではReal-IADが標準。医用ではFLAREやBraTSチャレンジのデータが有用
SAM2の活用: 動画セグメンテーションではSAM2をベースにした拡張(DAM4SAMのようなメモリ設計の改良)が最も効率的なアプローチ
Mambaの位置づけ: Mambaは計算効率で優位だが、nnU-Net同等以上の性能を出すにはImageNet事前学習や巧妙な設計が必要
参考文献一覧
本レポートは以下の検索ソースに基づいて作成されました。
- CVPR 2024/2025 Open Access Repository (thecvf.com)
- ICCV 2025 Open Access Repository (thecvf.com)
- NeurIPS 2024 Proceedings (neurips.cc)
- MICCAI 2024/2025 Papers (papers.miccai.org)
- arXiv preprint server (arxiv.org)
- VOTS2025 Challenge Official Page (votchallenge.net)
- Awesome-MICCAI-2024 GitHub Repository
- Awesome-Industrial-Anomaly-Detection GitHub Repository
- Awesome-Video-Object-Segmentation GitHub Repository
レポート作成日: 2026年5月24日 調査対象期間: 2024年1月 〜 2026年5月 対象カンファレンス: CVPR, ICCV, ECCV, NeurIPS, ICLR, MICCAI, AAAI