セグメンテーション関連トップカンファレンス論文調査(2024-2026)

調査対象: CVPR, ICCV, ECCV, NeurIPS, ICLR, MICCAI 等のトップカンファレンスにおける、セグメンテーションに関連する最新研究（2024年〜2026年） 調査分野: (1) 2D画像セグメンテーションの新アーキテクチャ, (2) 動画Tracking & Segmentation, (3) 工業用データセット, (4) 医用データセット・医用セグメンテーション

1. 2D画像セグメンテーション：新アーキテクチャ

1.1 OMG-Seg: Is One Model Good Enough For All Segmentation?

項目	内容
paper title	OMG-Seg: Is One Model Good Enough For All Segmentation?
paper link	https://openaccess.thecvf.com/content/CVPR2024/papers/Li_OMG-Seg_Is_One_Model_Good_Enough_For_All_Segmentation_CVPR_2024_paper.pdf
tags	CVPR 2024, Unified Segmentation, Multi-task, Transformer, Open-Vocabulary
summary	画像・動画・オープンボキャブラリー・インタラクティブセグメンテーションを1つのモデルで統一。Mask2Formerベースのエンコーダ・デコーダアーキテクチャで、10種類以上のセグメンテーションタスクを1つの共有モデルで処理。CLIPテキストエンコーダも活用し、タスク間でパラメータを共有することで計算コストと専用設計の必要性を大幅に削減。
key idea	すべてのセグメンテーションタスクの出力を統一クエリ表現としてモデル化。1つのクエリがマスクラベル、画像/チューブマスク、ユニークID、ビジュアルプロンプトを表現可能。
comments / limitation	重要なベースライン: 初めて4つの異なるセグメンテーション設定を1モデルで実現。パラメータ数はわずか70Mでタスク特化モデルと同等性能。後続の統合セグメンテーション研究に大きな影響。→ 各タスクの最上位性能を超える設計ではなく、"good enough"な統一性能が目標。動画と画像の同時学習による干渉は完全には解消されていない。

1.2 QueryMeldNet: Scaling up Image Segmentation across Data and Tasks

項目	内容
paper title	QueryMeldNet: Scaling up Image Segmentation across Data and Tasks
paper link	https://openaccess.thecvf.com/content/CVPR2025/html/Wang_Scaling_up_Image_Segmentation_across_Data_and_Tasks_CVPR_2025_paper.html
tags	CVPR 2025, Scalable Segmentation, Open-set, Query-based, Synthetic Data
summary	複数のデータセットとタスクを同時に学習することでセグメンテーションの汎化性を向上させるスケーラブルフレームワーク。"query meld"機構により異なるタイプのクエリをクロスアテンションで融合し、インスタンスレベルとスタッフレベルのセグメンテーションをバランス良く処理。合成データ生成も活用し、オープンセットセグメンテーションでSeginWベンチマークを7ポイント向上。
key idea	クエリ融合（query meld）メカニズムで異なるクエリタイプを動的に統合。データ規模とタスク多様性の両方でスケール可能な設計。
comments / limitation	マルチタスク学習による相乗効果を明確に実証。特にオープンセット設定での汎化性能向上が顕著。→ 合成データの品質が最終性能に大きく影響。クエリ融合の計算コストはやや増加。

1.3 S4M: Boosting Semi-Supervised Instance Segmentation with SAM

項目	内容
paper title	S4M: Boosting Semi-Supervised Instance Segmentation with SAM
paper link	https://openaccess.thecvf.com/content/ICCV2025/html/Yoon_S4M_Boosting_Semi-Supervised_Instance_Segmentation_with_SAM_ICCV_2025_paper.html
tags	ICCV 2025, Semi-Supervised Learning, SAM, Instance Segmentation, Knowledge Distillation
summary	ラベル付きデータが限られた状況でのインスタンスセグメンテーションを、SAMを活用して大幅に改善。Teacher-StudentフレームワークにSAMを統合し、構造蒸留・疑似ラベル精緻化・専用データ拡張の3つのアプローチでSAMの強力なセグメンテーション能力を効果的に転移。Cityscapes 5%ラベルでAP 30.1、COCO 1%ラベルでAP 24.2というSOTA性能。
key idea	SAMをそのまま使うのではなく、自己類似性行列の蒸留で構造的情報を転移。過分割/欠分割を避けつつSAMの局在化能力を獲得。
comments / limitation	現在のSOTA: 半教師あり設定でのSOTAを達成。特にラベルが極端に少ない状況（1-5%）で強い。SAMのclass-agnostic性をうまく回避。→ SAMへの依存度が高く、SAMの性能が上限に影響。計算コストはSAMの推論分増加。

1.4 v-CLR: View-Consistent Learning for Open-World Instance Segmentation

項目	内容
paper title	v-CLR: View-Consistent Learning for Open-World Instance Segmentation
paper link	CVPR 2025 (Proceedings)
tags	CVPR 2025, Open-World, Instance Segmentation, View Consistency, Self-Supervised
summary	オープンワールドインスタンスセグメンテーションのために、外観に不変な表現学習を実現。テクスチャを変更した構造保存ビューを生成し、異なるビュー間で特徴の一貫性を強制することで、見た目に頼らない堅牢な特徴を学習。未見オブジェクトの発見・セグメンテーション能力を大幅に向上。
key idea	テクスチャ変更ビュー生成+特徴一貫性正則化。外観不変な表現の学習。
comments / limitation	テクスチャバイアス問題に対する新しいアプローチ。ゼロショット/フューショット設定で有効。→ ビュー生成の品質が性能に影響。計算コスト増加。

1.5 CALICO: Part-Focused Semantic Co-Segmentation with Large Vision-Language Models

項目	内容
paper title	CALICO: Part-Focused Semantic Co-Segmentation with Large Vision-Language Models
paper link	CVPR 2025 (Proceedings)
tags	CVPR 2025, Part Segmentation, Vision-Language Model, Co-Segmentation, LVLM
summary	複数画像にまたがるパーツレベルの意味的共セグメンテーションを初めて扱う。LVLMをベースに、Correspondence Extraction Moduleでパーツレベルの意味的類似性を抽出し、パラメータ効率の良い適応で詳細なオブジェクト・パーツ分析を実現。
key idea	パーツレベルの意味的対応を抽出する新しいモジュール。LVLMの強力な表現力をパーツ分割に活用。
comments / limitation	新しいタスク設定を提案。オブジェクトの細部理解が必要な応用に有効。→ パーツアノテーションが必要でデータ収集コストは高い。複雑なパーツ階層には未対応。

1.6 MI-DETR: An Object Detection Model with Multi-time Inquiries Mechanism

項目	内容
paper title	MI-DETR: An Object Detection Model with Multi-time Inquiries Mechanism
paper link	CVPR 2025 (Proceedings)
tags	CVPR 2025, DETR, Object Detection, Transformer, Parallel Queries
summary	DETR系モデルの連続的デコーダの限界を克服するため、並列マルチタイム照会（MI）機構を提案。オブジェクトクエリが画像特徴に対して複数の並列照会を実行でき、小さな物体や遮蔽された物体の検出性能を大幅に向上。
key idea	カスケードデコーダを並列化し、各クエリが複数回のクロスアテンションでricher特徴を収集。
comments / limitation	COCOベンチマークで既存DETRモデルを上回る性能。小物体検出の改善が特に顕著。→ 計算コストは増加。セグメンテーションタスクへの拡張は未検証。

1.7 Unified Anomaly Segmentation

項目	内容
paper title	Towards Accurate Unified Anomaly Segmentation
paper link	https://ieeexplore.ieee.org/abstract/document/10943629/ (CVPR 2025 Workshop)
tags	CVPR 2025 Workshop, Anomaly Segmentation, Unified, Industrial, CNN+Transformer
summary	未解決であった統一異常セグメンテーションタスクを正式に定義・導入。軽量CNNとTransformerの統合により、効率的な異常領域のセグメンテーションを実現。複数の工業データセットで包括的評価。
key idea	異常セグメンテーションの統一フレームワーク。CNN+Transformerのハイブリッド設計。
comments / limitation	異常セグメンテーションを体系的に扱った重要な研究。工業応用への実用性が高い。→ 異常の多様性カバレッジは限定的。

1.8 nnWNet: Rethinking the Use of Transformers in Biomedical Image Segmentation

項目	内容
paper title	nnWNet: Rethinking the Use of Transformers in Biomedical Image Segmentation
paper link	https://openaccess.thecvf.com/content/CVPR2025/html/Zhou_nnWNet_Rethinking_the_Use_of_Transformers_in_Biomedical_Image_Segmentation_CVPR_2025_paper.html
tags	CVPR 2025, Benchmark, nnU-Net, Validation, Medical Segmentation
summary	3D医用画像セグメンテーションにおける厳格な検証の重要性を訴求。CNNベースのnnU-Netが、TransformerやMambaベースの最新手法と同等以上の性能を持つことを包括的ベンチマークで実証。不十分なベースライン・少ないデータセット・無視された計算資源などの検証上の問題を指摘。
key idea	厳格な検証基準による包括的ベンチマーク。アーキテクチャの革新よりも、スケーリングと適切な設定が重要。
comments / limitation	最も重要な反論研究: 医用画像セグメンテーション分野で最も影響力のある論文の一つ。Transformer/Mamba優位説を再検討させる。新アーキテクチャの性能評価では必ずnnU-Netを含めるべき。→ 特定のタスク（長距離依存性が重要な場合）ではTransformerの優位性が残る。

2. 動画Tracking & Segmentation

2.1 SAM 2: Segment Anything in Images and Videos

項目	内容
paper title	SAM 2: Segment Anything in Images and Videos
paper link	https://arxiv.org/abs/2408.00714 (ICLR 2025)
tags	ICLR 2025, Foundation Model, Video Segmentation, SAM, Streaming Architecture
summary	SAMを動画領域に拡張。Promptable Visual Segmentation (PVS) タスクを定義し、画像・動画の両方でセグメンテーションを実現。ストリーミングアーキテクチャで1フレームずつ処理し、メモリアテンションモジュールで過去のオブジェクト記憶にアクセス。SA-Vデータセット（35.5Mマスク、50.9K動画）で学習。17個の動画・37個の画像ベンチマークでゼロショット評価。
key idea	動画のためのストリーミングアーキテクチャ。メモリエンコーダ・メモリバンク・オブジェクトポインタで時空間一貫性を保持。
comments / limitation	現代の標準: 動画セグメンテーションの事実上の標準。VOTS2025で80%の提出がSAM2ベース。後続のDAM4SAM, HQ-SMemなどの基盤。3x少ないインタラクションで従来より高精度。→ ショット変更・群集シーン・長期遮蔽で性能低下。非常に細い構造の追跡は困難。複数オブジェクト間の通信がない。

2.2 Cutie: Putting the Object Back into Video Object Segmentation

項目	内容
paper title	Cutie: Putting the Object Back into Video Object Segmentation
paper link	https://openaccess.thecvf.com/content/CVPR2024/papers/Cheng_Putting_the_Object_Back_into_Video_Object_Segmentation_CVPR_2024_paper.pdf
tags	CVPR 2024 Highlight, Video Object Segmentation, Object Memory, Object Transformer
summary	近年のVOSがボトムアップのピクセルレベルメモリ読み出しに依存し、ノイズに弱い問題を解決。トップダウンのオブジェクトレベルメモリ読み出しを導入し、オブジェクトクエリを用いて高レベルセマンティクスと高解像度特徴マップを統合。前景-背景マスクアテンションでオブジェクトを明確に分離。
key idea	オブジェクトメモリSとオブジェクトトランスフォーマーによるtop-down読み出し。前景-背景マスクドアテンションでノイズ抑制。
comments / limitation	CVPR 2024 Highlight: MOSEでXMemより+8.7 J&F、DeAOTより+4.2 J&Fかつ3倍高速。後続のOASIS, LiVOSなどに大きな影響。現在のVOS研究の重要ベースライン。→ 複雑なオブジェクト間相互作用には依然として課題。長期動画でのドリフトは完全に抑制されていない。

2.3 RMem: Restricted Memory Banks Improve Video Object Segmentation

項目	内容
paper title	RMem: Restricted Memory Banks Improve Video Object Segmentation
paper link	https://openaccess.thecvf.com/content/CVPR2024/html/Zhou_RMem_Restricted_Memory_Banks_Improve_Video_Object_Segmentation_CVPR_2024_paper.html
tags	CVPR 2024, Memory Bank, Long Video, VOST, State Changes
summary	VOSにおいてメモリバンクのサイズを制限することで、かえって性能が向上するという逆説的な発見。メモリ拡大は冗長情報による混乱を増大させ、関連特徴のデコードを困難にする。制限メモリで重要性と新鮮さのバランスを取り、訓練-推論間の不一致も縮小。時間的位置埋め込みも新たに導入。
key idea	メモリバンクを制限することでVOSモジュールのデコード能力が向上。UCBアルゴリズムに着想を得たフレーム選択戦略。
comments / limitation	長期動画でSOTA: 非常にシンプルながら強力なアプローチ。VOST（オブジェクト状態変化）とLong VideosデータセットでSOTA。RMemの考え方はLiVOSなど後続研究にも影響。→ 最適なメモリサイズはデータセット依存。極端に短い動画では恩恵は限定的。

2.4 OneVOS: Unifying Video Object Segmentation with All-in-One Transformer

項目	内容
paper title	OneVOS: Unifying Video Object Segmentation with All-in-One Transformer
paper link	https://arxiv.org/abs/2403.08682 (ECCV 2024)
tags	ECCV 2024, Unified VOS, Transformer, Multi-object, Dynamic Token Selection
summary	VOSの主要コンポーネント（特徴抽出・マッチング・メモリ管理）を1つのTransformerで統合。フレーム・マスク・メモリのすべての特徴をトランスフォーマートークンとしてモデル化。Uni-directional Hybrid Attentionで意味的エラーを修正。Dynamic Token Selectorで効率的な推論を実現。
key idea	VOSの全モジュールを1つのTransformerに統合。動的トークン選択で計算効率と性能の両立。
comments / limitation	7つのデータセットでSOTA、特に複雑なLVOS（70.1% J&F）とMOSE（66.4% J&F）で大幅に既存手法を上回る。→ Transformerの計算量は依然として大きい。極長期動画でのスケーラビリティは未検証。

2.5 LiVOS: Light Video Object Segmentation with Gated Linear Matching

項目	内容
paper title	LiVOS: Light Video Object Segmentation with Gated Linear Matching
paper link	https://openaccess.thecvf.com/content/CVPR2025/papers/Liu_LiVOS_Light_Video_Object_Segmentation_with_Gated_Linear_Matching_CVPR_2025_paper.pdf
tags	CVPR 2025, Lightweight, Linear Attention, High Resolution, Real-time
summary	STMネットワークのsoftmaxアテンションの2次計算量を、線形アテンションで定数サイズの状態行列に置き換え。ゲート行列で情報の選択的保持・破棄を制御。32GB GPUで4096p高解像度推論が可能。長期動画で53%少ないGPUメモリでSTMベース手法と同等性能。
key idea	Softmax matchingをgated linear matchingに置き換え。定数サイズの状態行列で時空間に依存しない2D状態を維持。
comments / limitation	高解像度VOSの革新: 非STM手法として最高性能。32GB GPUで4096p推論は画期的。長期・高解像度動画VOSの実用性を大きく向上。→ MOSEなど複雑なマルチオブジェクトシーンではSTMベース（Cutie）にやや劣る。線形アテンションの近似誤差。

2.6 OASIS: Structure Matters in Video Object Segmentation

項目	内容
paper title	OASIS: Structure Matters: Revisiting Boundary Refinement in Video Object Segmentation
paper link	https://openaccess.thecvf.com/content/ICCV2025/papers/Qin_Structure_Matters_Revisiting_Boundary_Refinement_in_Video_Object_Segmentation_ICCV_2025_paper.pdf
tags	ICCV 2025, Boundary Refinement, Real-time, Evidential Learning, Canny Edge
summary	メモリベースVOSの境界精度を向上させる軽量構造精緻化モジュール。Cannyエッジ検出器で粗いエッジ事前情報を抽出し、オブジェクトメモリと融合して構造マップを生成。証拠学習（Evidential Learning）で不確実性を定量化し、遮蔽領域のセグメンテーション精度を向上。48FPSでリアルタイム処理。
key idea	Cannyエッジ+オブジェクトメモリ融合による構造精緻化。証拠学習による不確実性推定。
comments / limitation	DAVIS-17 valでF値91.6（vs Cutie 89.7）、YouTubeVOS 2019 valでG値86.6。外科手術ビデオでもゼロショットで良好な性能。→ Cannyエッジの感度はパラメータに依存。複雑なテクスチャ背景では偽陽性が増加。

2.7 DAM4SAM: Distractor-Aware Memory for SAM2

項目	内容
paper title	DAM4SAM: Distractor-Aware Memory for SAM2
paper link	https://www.votchallenge.net/vots2025/
tags	VOTS2025, SAM2, Distractor-aware, Dual Memory, Tracking
summary	SAM2の拡張として、干渉物（distractor）に対応した双メモリアーキテクチャを提案。Recent Appearance Memory（RAM）で短期追跡精度を維持し、Distractor Resolving Memory（DRM）でターゲットと類似オブジェクトを区別。SAM2の複数出力マスク間の不一致を利用して干渉物検出・DRM選択的更新を実現。
key idea	双メモリ（RAM+DRM）アーキテクチャ。マスク間不一致による干渉物自動検出。
comments / limitation	VOTS2025の支配的ベースライン: VOTS2025で80%以上の提出がSAM2ベース、その多くがDAM4SAMを拡張。S3-DAM4SAM（DAM4SAM+Cutie統合）が優勝。類似オブジェクトが多いシーンでの性能向上が顕著。→ SAM2の基本制限を引き継ぐ。干渉物が極端に多い場合はDRMが飽和。

2.8 M3-VOS: Multi-Phase, Multi-Transition, and Multi-Scenery VOS

項目	内容
paper title	M3-VOS: Multi-Phase, Multi-Transition, and Multi-Scenery Video Object Segmentation
paper link	https://arxiv.org/abs/2412.13803 (CVPR 2025)
tags	CVPR 2025, Phase Transition, Novel Benchmark, Physical Dynamics
summary	オブジェクトの相転移（氷→水、裁断など）を伴う新しいVOSベンチマークを提案。479本の高解像度動画、10以上のシナリオで、相転移とインスタンスマスクを密にアノテーション。ReVOS（反転精緻化）モデルで、エントロピー増大過程を反転によるエントロピー減少で補正する新アプローチ。
key idea	相転移概念をVOSに導入。反転精緻化（Reversal Refinement）で動的変化をモデル化。
comments / limitation	新しいタスク設定が現実世界のロボット応用に直結。既存の外観ベースアプローチの限界を明確に示した。→ ベンチマーク規模はまだ小さい。相転移の物理モデルは明示的に組み込まれていない。

2.9 HQ-SMem: High Quality VOS using Smart Memory

項目	内容
paper title	HQ-SMem: Video Segmentation and Tracking Using Memory Efficient Object Embedding With Selective Update and Self-Supervised Distillation Feedback
paper link	https://arxiv.org/abs/2507.18921
tags	2025, SAM-HQ, Smart Memory, Long Video, High Quality
summary	SAM-HQを活用して粗いセグメンテーションマスクを精緻化。動的スマートメモリで関連キーフレームのみを選択的保持し、長期動画でのメモリ効率を最適化。外観モデルの動的更新でトポロジー変化とドリフトを抑制。
key idea	SAM-HQによる境界品質向上+スマートメモリ選択。動的外観更新。
comments / limitation	VOTS2024/VOTSt2024で常に上位2位以内。長期動画・複雑マルチオブジェクトで強い。→ SAM-HQの推論コストは増加。メモリ選択戦略の最適化は課題。

2.10 VOTS2025 Challenge Results

項目	内容
paper title	The Third Visual Object Tracking Segmentation VOTS2025 Challenge Results
paper link	https://openaccess.thecvf.com/content/ICCV2025W/VOTS2025/html/Kristan_The_Third_Visual_Object_Tracking_Segmentation_VOTS2025_Challenge_Results_ICCVW_2025_paper.html
tags	ICCV 2025 Workshop, Benchmark, Tracking, Segmentation, Survey
summary	VOTS2025チャレンジの結果報告。VOTS2025/VOTS-RT2025/VOTSt2025の3つのサブチャレンジ。SAM2ベースのトラッカーが80%を占める。優勝はS3-DAM4SAM。リアルタイム部門ではSV-DAM4SAMが優勝。適応的融合戦略による性能向上を確認。
key idea	SAM2.1が現代トラッキングに巨大な影響。DAM4SAMの拡張が主流。リアルタイム制約下でも堅牢性維持。
comments / limitation	動画セグメンテーションの最新動向を網羅的に把握できる重要なサーベイ。すべての15提出がベースラインを上回る好結果。→ トポロジー変化を伴うVOTStは依然として困難。SAM2の制限がそのまま反映。

3. 工業データセット・セグメンテーション

3.1 Real-IAD: A Real-World Multi-View Dataset for Industrial Anomaly Detection

項目	内容
paper title	Real-IAD: A Real-World Multi-View Dataset for Benchmarking Versatile Industrial Anomaly Detection
paper link	https://openaccess.thecvf.com/content/CVPR2024/papers/Wang_Real-IAD_A_Real-World_Multi-View_Dataset_for_Benchmarking_Versatile_Industrial_Anomaly_Detection_CVPR_2024_paper.pdf
tags	CVPR 2024, Industrial Dataset, Multi-view, Anomaly Detection, Large-scale
summary	151,050枚の実世界工業画像を含む大規模異常検出データセット。30クラスの実製品、複数視点・複数照明条件で撮影。異常はピクセルレベルでセグメンテーションアノテーション付き。既存のMVTec AD（5,354枚）と比較して約28倍の規模。
key idea	実世界の多様な製品・視点・照明を網羅。30クラス×複数視点×大規模アノテーション。
comments / limitation	現在の標準ベンチマーク: 工業異常検出の標準ベンチマークとして急速に普及。Real-IADを使った論文は信頼性が高い。→ すべてのクラスが均等に難しいわけではない。一部クラスは比較的簡単。3D情報は限定的。

3.2 MANTA: Multi-View and Visual-Text Anomaly Detection for Tiny Objects

項目	内容
paper title	MANTA: A Large-Scale Multi-View and Visual-Text Anomaly Detection Dataset for Tiny Objects
paper link	https://cvpr.thecvf.com/virtual/2025/poster/34486
tags	CVPR 2025, Tiny Object, Multimodal, Visual-Text, Industrial
summary	微細オブジェクトの異常検出に特化した大規模データセット。38クラス、686,690枚の画像、マルチビュー・ビジュアルテキストアノテーション付き。微細な欠陥の検出・説明が可能。テキストによる異常の言語的記述も提供。
key idea	微細オブジェクト専用の大規模データセット。画像+テキストのマルチモーダルアノテーション。
comments / limitation	微細欠陥検出という重要な実用タスクに対応。Vision-Languageモデルとの組み合わせに最適。→ データ収集コストが高い。一部カテゴリは限定的。

3.3 Kaputt: A Large-Scale Dataset for Visual Defect Detection

項目	内容
paper title	Kaputt: A Large-Scale Dataset for Visual Defect Detection
paper link	https://openaccess.thecvf.com/content/ICCV2025/papers/Hofer_Kaputt_A_Large-Scale_Dataset_for_Visual_Defect_Detection_ICCV_2025_paper.pdf
tags	ICCV 2025, Defect Detection, Large-scale, Visual Inspection
summary	大規模視覚的欠陥検出データセット。既存データセットの課題を克服するため、多様な製品カテゴリ・欠陥タイプ・撮影条件を網羅。実世界の検査ラインに近い設定。
key idea	実世界の検査環境に近い大規模データセット構築。欠陥の多様性と撮影条件の現実性。
comments / limitation	ICCV 2025で発表された注目のデータセット。工業応用への実用性が高い。→ 詳細な統計情報は論文に記載の通り。一部特殊な欠陥タイプは未カバー。

3.4 3CAD: 3C Product Dataset for Unsupervised Anomaly Detection

項目	内容
paper title	3CAD: A Large-Scale Real-World 3C Product Dataset for Unsupervised Anomaly Detection
paper link	https://github.com/M-3LAB/awesome-industrial-anomaly-detection
tags	AAAI 2025, 3C Product, Unsupervised, Real-world
summary	27,039枚の実世界3C製品（PC・スマートフォン・タブレット等）異常検出データセット。8クラス、15,577正常・11,462異常サンプル。ピクセルレベルのセグメンテーションマスク付き。
key idea	3C製品に特化した大規模実世界データセット。オープンセット設定。
comments / limitation	電子機器製造業での応用に直結。Real-IADと並んで工業異常検出の重要ベンチマーク。→ 3C製品に限定。他の製造業分野への汎用性は不明。

3.5 Real-IAD D3: 2D/Pseudo-3D/3D Dataset for Industrial Anomaly Detection

項目	内容
paper title	Real-IAD D3: A Real-World 2D/Pseudo-3D/3D Dataset for Industrial Anomaly Detection
paper link	CVPR 2025
tags	CVPR 2025, 3D Anomaly Detection, Multi-modal, Industrial
summary	Real-IADの拡張版で、2D画像・疑似3D・本格3Dの3つのモダリティを提供。20クラス、8,450サンプル。工業検査における3D幾何情報の重要性を検証可能。
key idea	2D+3Dのマルチモーダル工業異常検出データセット。実世界の3D検査環境を反映。
comments / limitation	3D情報を活用した異常検出研究の推進に寄与。Real-IADブランドの信頼性。→ 3Dデータの取得コストが高い。データセット規模は2D版より小さい。

3.6 MulSenAD: Multi-Sensor Object Anomaly Detection

項目	内容
paper title	MulSenAD: Multi-Sensor Object Anomaly Detection
paper link	CVPR 2025
tags	CVPR 2025, Multi-Sensor, RGB-D-IR, Industrial
summary	RGB・Depth・IRの3つのセンサーを統合したマルチモーダル異常検出データセット。15クラス、2,035サンプル。外観・形状・内部特性の統一的な異常検出を可能にする。
key idea	外観・幾何・内部特性を統合したマルチセンサー異常検出。
comments / limitation	工業検査における非破壊検査に近い設定。マルチモーダル学習の重要性を示唆。→ データセット規模は比較的小さい。センサーの校正が必要。

4. 医用データセット・セグメンテーション

4.1 nnU-Net Revisited: A Call for Rigorous Validation

項目	内容
paper title	nnU-Net Revisited: A Call for Rigorous Validation in 3D Medical Image Segmentation
paper link	https://papers.miccai.org/miccai-2024/paper/2847_paper.pdf
tags	MICCAI 2024, Benchmark, nnU-Net, Validation, CNN vs Transformer
summary	3D医用画像セグメンテーションにおける厳格な検証の重要性を訴求。CNNベースのnnU-Netが、TransformerやMambaベースの最新手法と同等以上の性能を持つことを包括的ベンチマークで実証。不十分なベースライン・少ないデータセット・無視された計算資源などの検証上の問題を指摘。
key idea	SOTA達成のレシピは 1) CNNベースU-Net（ResNet/ConvNeXt）、2) nnU-Netフレームワーク、3) 現代ハードウェアへのスケーリング。
comments / limitation	最も影響力のある研究の一つ: nnU-Netが未だに最強という衝撃的な結果。新アーキテクタの性能評価では必ずnnU-Netを含めるべき。MICCAI 2024でオーラル発表。→ 特定のタスク（長距離依存性重視）ではTransformerの優位性が残る。

4.2 SegVol: Universal and Interactive Volumetric Medical Image Segmentation

項目	内容
paper title	SegVol: Universal and Interactive Volumetric Medical Image Segmentation
paper link	https://proceedings.neurips.cc/paper_files/paper/2024/hash/c7c7cf10082e454b9662a686ce6f1b6f-Abstract-Conference.html
tags	NeurIPS 2024 Spotlight, Foundation Model, 3D Medical, Universal, Interactive
summary	90K未ラベルCTボリュームと6Kラベル付きCTで学習した3D医用画像セグメンテーション基盤モデル。200以上の解剖学的カテゴリのセグメンテーションをサポート。点・ボックス・テキストプロンプトに対応。Zoom-out-zoom-in機構で効率的かつ高精度な推論。22のセグメンテーションタスクのうち19でSOTA。
key idea	医用画像SAMの3D版。Semantic・Spatialプロンプト両対応。Zoom-out-zoom-inで効率化。
comments / limitation	3D医用SAMの双璧: 3D医用画像セグメンテーションの基盤モデルとして広く引用。NeurIPS 2024 Spotlight。90Kボリュームの大規模事前学習が強力。→ CTに特化（MRIへの汎化は限定的）。推論コストは高い。超細部構造の精度には課題。

4.3 SAM-Med3D-MoE: Segment Anything Model for 3D Medical Images

項目	内容
paper title	SAM-Med3D-MoE: Towards a Non-Forgetting Segment Anything Model via Mixture of Experts for 3D Medical Image Segmentation
paper link	MICCAI 2024 Proceedings
tags	MICCAI 2024, SAM, 3D Medical, Mixture of Experts, Continual Learning
summary	SAMを3D医用画像に拡張し、MoE（Mixture of Experts）でカタストロフィック忘却を防止。複数の医用データセットで学習しながら、過去の知識を忘却しない。3D医用画像セグメンテーションで強力な性能と継続学習能力の両立を実現。
key idea	MoEアーキテクチャで知識の選択的活用。カタストロフィック忘却の防止。
comments / limitation	継続学習の観点から重要。臨床現場での逐次学習シナリオに対応可能。→ MoEの計算コスト増加。専門家の数は固定。

4.4 MedDINOv3: Adapting Vision Foundation Models for Medical Segmentation

項目	内容
paper title	MedDINOv3: How to adapt vision foundation models for medical image segmentation?
paper link	https://arxiv.org/abs/2509.02379
tags	2025, DINOv3, Foundation Model, CT Segmentation, Self-Supervised
summary	DINOv3を医用画像セグメンテーションに適応。Plain ViTを再検討し、マルチスケールトークン集約と高解像度訓練でViT-BのAMOS22 DSCを78.39%→85.51%に向上。CT-3M（387万軸位CTスライス）でドメイン適応事前学習。4つのベンチマークでSOTA同等以上。
key idea	マルチスケールトークン集約+高解像度訓練でViTの局所性バイアスを強化。3段階ドメイン適応事前学習。
comments / limitation	nnU-Netを超えた少数のViT手法: nnU-Netを超える初めてのViTベース手法の一つ。特にOARセグメンテーションで強い（AMOS22 +2.6%、BTCV +5.5%）。コード公開済み。→ 主にCTに特化（MRIは未検証）。事前学習コストは非常に高い。

4.5 Swin-UMamba: Mamba-based UNet with ImageNet Pretraining

項目	内容
paper title	Swin-UMamba: Mamba-based UNet with ImageNet-Based Pretraining
paper link	https://papers.miccai.org/miccai-2024/paper/1627_paper.pdf
tags	MICCAI 2024, Mamba, ImageNet Pretraining, Medical, Efficient
summary	ImageNet事前学習を活用したMambaベースの医用画像セグメンテーションモデル。既存のMambaモデルがスクラッチから学習する傾向に対し、ImageNet事前学習の有効性を実証。AbdomenMRI・Endoscopy・MicroscopyでU-Mambaを平均2.72%上回る。
key idea	Mambaアーキテクチャ+ImageNet事前学習の組み合わせ。VMamba-Tinyエンコーダー+医用特化デコーダー。
comments / limitation	Mamba医用の先駆的研究: Mambaが医用画像で有効なことを示した先駆的研究。ImageNet事前学習がMambaでも有効という重要な知見。→ ImageNetと医用画像のドメインギャップは残る。3Dデータには未対応。

4.6 HybridMamba: A Dual-domain Mamba for 3D Medical Image Segmentation

項目	内容
paper title	HybridMamba: A Dual-domain Mamba for 3D Medical Image Segmentation
paper link	https://papers.miccai.org/miccai-2025/paper/2815_paper.pdf
tags	MICCAI 2025, Mamba, 3D, Frequency Domain, Brain Tumor
summary	3D医用画像セグメンテーションのための空間-周波数双領域Mamba。S-LMamba（スライス内局所窓）とLoMamba（スライス間長距離依存）の2つのモジュールで、局所病変領域と大域的構造の両方を捕捉。周波数ゲーティングモジュール（FGM）で多スケール特徴を融合。
key idea	空間・周波数の双領域特徴学習。S-LMamba+LoMambaの相補的設計。
comments / limitation	MICCAI 2025の注目論文。BraTS2023と独自の肺癌データセットでSOTA。特に小さな腫瘍領域の検出に強い。→ 2つのMambaモジュールの計算コストは増加。最適な窓サイズはデータ依存。

4.7 Tri-Plane Mamba: Adapting SAM for 3D Medical Images

項目	内容
paper title	Tri-Plane Mamba: Efficiently Adapting Segment Anything Model for 3D Medical Images
paper link	MICCAI 2024 Proceedings
tags	MICCAI 2024, SAM, 3D, Mamba, Tri-plane
summary	SAMを3D医用画像に効率的に適応。3つの直交平面（coronal, sagittal, axial）でMambaを適用し、3D情報を保持しつつ計算効率を最適化。SAMの2D事前学習知識を3Dに効果的に転移。
key idea	Tri-plane表現で3D情報を2Dマンバで効率的に処理。SAMの知識転移。
comments / limitation	3D医用SAMの効率的実装の一つ。計算コストと性能の良いトレードオフ。→ 3つの平面の情報融合は完全ではない。複雑な3D形状には課題。

4.8 SAM Guided Enhanced Nuclei Segmentation

項目	内容
paper title	SAM Guided Enhanced Nuclei Segmentation
paper link	MICCAI 2024 Proceedings
tags	MICCAI 2024, SAM, Nuclei Segmentation, Pathology, Zero-shot
summary	SAMを病理画像の核セグメンテーションに適応。SAMの強力なゼロショットセグメンテーション能力を活用し、細胞核の正確な輪郭抽出を実現。病理画像特有の細密な構造に対するSAMの限界を改善。
key idea	SAMのプロンプト可能なセグメンテーションを病理画像に拡張。核検出の精度向上。
comments / limitation	病理画像解析でのSAM適用の一例。細胞レベルのセグメンテーションに有効。→ 密集した細胞群での境界曖昧性。特殊な染色条件への頑健性。

4.9 SegMamba: Long-range Dependency for 3D Medical Image Segmentation

項目	内容
paper title	SegMamba: Long-range Dependency Modeling for 3D Medical Image Segmentation
paper link	MICCAI 2024関連
tags	2024, Mamba, 3D, Long-range, Efficient
summary	3D医用画像セグメンテーションのための純粋なMambaベースアーキテクチャ。自己注意機構の2次計算量を回避しつつ、長距離依存性を効率的にモデル化。複数の3D医用画像データセットで強力な性能。
key idea	Mambaの線形時間複雑性を3Dセグメンテーションに活用。長距離依存性の効率的学習。
comments / limitation	Mambaが医用画像で有効なことを示した先駆的研究の一つ。計算効率と性能の良いトレードオフ。→ ImageNet事前学習の恩恵を受けにくい。純粋Mambaの表現力には限界。

4.10 MetaUNETR: Universal Medical Image Segmentation

項目	内容
paper title	MetaUNETR: Universal Medical Image Segmentation
paper link	MICCAI 2024 Proceedings
tags	MICCAI 2024, Universal, Meta-learning, Transformer, Few-shot
summary	メタ学習ベースの汎用医用画像セグメンテーションモデル。異なるタスクやモダリティ間で知識を共有し、少数サンプルでの適応を可能にする。UNETRアーキテクチャをベースに、タスクに依存しないメタ表現を学習。
key idea	メタ学習によるタスク汎用性。少数ショット適応能力。
comments / limitation	MICCAI 2024のユニバーサルセグメンテーションに関する重要研究。臨床現場での適応性に注目。→ メタ学習の計算コスト。複雑なタスク分布での収束。

5. 総合分析と推奨事項

5.1 主要トレンド

分野	主要トレンド	代表論文
2D統合セグメンテーション	複数タスク（画像/動画/オープンボキャブラリー/インタラクティブ）を1モデルで統合する流れが加速	OMG-Seg, QueryMeldNet
動画セグメンテーション	SAM2が事実上の標準に。Linear Attentionによる軽量化・高解像度化が次の波	SAM 2, LiVOS, OASIS
医用セグメンテーション	nnU-Netが依然最強だが、大規模事前学習+ViTの組み合わせが限定的に優位性を示し始めた	nnU-Net Revisited, MedDINOv3, SegVol
工業異常検出	大規模実世界データセット（Real-IAD系列）の整備が進み、3D・マルチモーダル化がトレンド	Real-IAD, MANTA, Real-IAD D3

5.2 研究を進める上での推奨

ベースラインの選定: 医用画像ではnnU-Netを必ず含める。2D統合ではOMG-Seg、動画ではSAM2/Cutieをベースラインとして推奨
新アーキテクチャの検証: nnWNetが示したように、厳格な検証（十分なデータセット・強力なベースライン・適切な計算資源）が不可欠
データセットの活用: 工業ではReal-IADが標準。医用ではFLAREやBraTSチャレンジのデータが有用
SAM2の活用: 動画セグメンテーションではSAM2をベースにした拡張（DAM4SAMのようなメモリ設計の改良）が最も効率的なアプローチ
Mambaの位置づけ: Mambaは計算効率で優位だが、nnU-Net同等以上の性能を出すにはImageNet事前学習や巧妙な設計が必要

参考文献一覧

本レポートは以下の検索ソースに基づいて作成されました。

CVPR 2024/2025 Open Access Repository (thecvf.com)
ICCV 2025 Open Access Repository (thecvf.com)
NeurIPS 2024 Proceedings (neurips.cc)
MICCAI 2024/2025 Papers (papers.miccai.org)
arXiv preprint server (arxiv.org)
VOTS2025 Challenge Official Page (votchallenge.net)
Awesome-MICCAI-2024 GitHub Repository
Awesome-Industrial-Anomaly-Detection GitHub Repository
Awesome-Video-Object-Segmentation GitHub Repository

レポート作成日: 2026年5月24日 調査対象期間: 2024年1月〜 2026年5月 対象カンファレンス: CVPR, ICCV, ECCV, NeurIPS, ICLR, MICCAI, AAAI

目次

1. 2D画像セグメンテーション：新アーキテクチャ

1.1 OMG-Seg: Is One Model Good Enough For All Segmentation?

1.2 QueryMeldNet: Scaling up Image Segmentation across Data and Tasks

1.3 S4M: Boosting Semi-Supervised Instance Segmentation with SAM

1.4 v-CLR: View-Consistent Learning for Open-World Instance Segmentation

1.5 CALICO: Part-Focused Semantic Co-Segmentation with Large Vision-Language Models

1.6 MI-DETR: An Object Detection Model with Multi-time Inquiries Mechanism

1.7 Unified Anomaly Segmentation

1.8 nnWNet: Rethinking the Use of Transformers in Biomedical Image Segmentation

2. 動画Tracking & Segmentation

2.1 SAM 2: Segment Anything in Images and Videos

2.2 Cutie: Putting the Object Back into Video Object Segmentation

2.3 RMem: Restricted Memory Banks Improve Video Object Segmentation

2.4 OneVOS: Unifying Video Object Segmentation with All-in-One Transformer

2.5 LiVOS: Light Video Object Segmentation with Gated Linear Matching

2.6 OASIS: Structure Matters in Video Object Segmentation

2.7 DAM4SAM: Distractor-Aware Memory for SAM2

2.8 M3-VOS: Multi-Phase, Multi-Transition, and Multi-Scenery VOS

2.9 HQ-SMem: High Quality VOS using Smart Memory

2.10 VOTS2025 Challenge Results

3. 工業データセット・セグメンテーション

3.1 Real-IAD: A Real-World Multi-View Dataset for Industrial Anomaly Detection

3.2 MANTA: Multi-View and Visual-Text Anomaly Detection for Tiny Objects

3.3 Kaputt: A Large-Scale Dataset for Visual Defect Detection

3.4 3CAD: 3C Product Dataset for Unsupervised Anomaly Detection

3.5 Real-IAD D3: 2D/Pseudo-3D/3D Dataset for Industrial Anomaly Detection

3.6 MulSenAD: Multi-Sensor Object Anomaly Detection

4. 医用データセット・セグメンテーション

4.1 nnU-Net Revisited: A Call for Rigorous Validation

4.2 SegVol: Universal and Interactive Volumetric Medical Image Segmentation

4.3 SAM-Med3D-MoE: Segment Anything Model for 3D Medical Images

4.4 MedDINOv3: Adapting Vision Foundation Models for Medical Segmentation

4.5 Swin-UMamba: Mamba-based UNet with ImageNet Pretraining

4.6 HybridMamba: A Dual-domain Mamba for 3D Medical Image Segmentation

4.7 Tri-Plane Mamba: Adapting SAM for 3D Medical Images

4.8 SAM Guided Enhanced Nuclei Segmentation

4.9 SegMamba: Long-range Dependency for 3D Medical Image Segmentation

4.10 MetaUNETR: Universal Medical Image Segmentation

5. 総合分析と推奨事項

5.1 主要トレンド

5.2 研究を進める上での推奨

参考文献一覧