Segmentation全体としての分野

セグメンテーション全体は入力データの種類タスクの種類で大きく2つの軸に分けられる

第1軸: タスクの種類による分類[1]

taskdefinitionoutput formatmain approach
Semantic Segmentation各ピクセルにクラスラベルを付与。同一クラスの複数インスタンスは区別しないピクセル単位のクラスマップFCN, U-Net, DeepLab, PSPNet, SegFormer
Instance Segmentation各インスタンス(個体)をクラスラベル付きで分離。重なりを許容マスク + クラス + インスタンスIDMask R-CNN, YOLACT, SOLO, Mask2Former, DETR
Panoptic SegmentationSemantic + Instance。全ピクセルにクラスラベルとインスタンスIDを付与。重なりなし統合マップ(PQで評価)Panoptic-DeepLab, Mask2Former, VPSNet
Video Object Segmentation動画中の特定オブジェクトをフレーム間で追跡しマスク化時系列マスクXMem, STCN, SAM 2/3 Video
Video Semantic/Instance/Panoptic動画版の各種セグメンテーション。時間的一貫性が要件時系列マップVSS, VIS, VPS(Video Scene Parsing)
セグメンテーション
├── 2D自然画像・一般物体
│   ├── Semantic
│   ├── Instance
│   ├── Panoptic
│   └── Interactive / Referring(対話型・言語参照)
├── Video Scene Parsing (VSP)
│   ├── Semantic (VSS)
│   │   ├── テンポラルコンシステンシ重視
│   │   └── 代表: STM, TempNet, Video DeepLab
│   ├── Instance (VIS)
│   │   ├── Online(逐次処理): MaskTrack R-CNN, SipMask
│   │   └── Offline(全フレーム利用): STMask, IFC
│   ├── Panoptic (VPS)
│   │   ├── Dual-branch(Semantic + Instanceを分離統合): Panoptic-DeepLab, VPSNet
│   │   └── Depth-aware(深度推論と統合): ViP-DeepLab, PolyphonicFormer
│   ├── Tracking & Segmentation (VTS)
│   │   ├── VOS(1次参照): XMem, STCN, SAM 2/3 Video
│   │   └── RVOS(言語参照動画): MTTR, SeC (ICLR 2026)
│   └── Open-Vocabulary (OVVS)
│       └── テキスト/画像クエリによるゼロショット動画セグメンテーション
├── 3D・点群
│   ├── Semantic Segmentation(屋外・屋内シーン)
│   ├── Instance Segmentation
│   └── Part Segmentation(部品レベル)
└── 特殊ドメイン
    ├── 医療画像
    │   ├── 2D / 2.5D(RGB-D, CT image)
    │   ├── 3D体積(Volume)
    │   └── 細胞・組織レベル(Instance)
    ├── リモートセンシング・衛星画像
    ├── 自動運転(LiDAR + RGB fusion)
    └── 極限環境(悪天候・低照度)
セグメンテーション
├── 2D自然画像・一般物体
│   ├── Semantic
│   ├── Instance
│   ├── Panoptic
│   └── Interactive / Referring(対話型・言語参照)
├── Video Scene Parsing (VSP)
│   ├── Semantic (VSS)
│   │   ├── テンポラルコンシステンシ重視
│   │   └── 代表: STM, TempNet, Video DeepLab
│   ├── Instance (VIS)
│   │   ├── Online(逐次処理): MaskTrack R-CNN, SipMask
│   │   └── Offline(全フレーム利用): STMask, IFC
│   ├── Panoptic (VPS)
│   │   ├── Dual-branch(Semantic + Instanceを分離統合): Panoptic-DeepLab, VPSNet
│   │   └── Depth-aware(深度推論と統合): ViP-DeepLab, PolyphonicFormer
│   ├── Tracking & Segmentation (VTS)
│   │   ├── VOS(1次参照): XMem, STCN, SAM 2/3 Video
│   │   └── RVOS(言語参照動画): MTTR, SeC (ICLR 2026)
│   └── Open-Vocabulary (OVVS)
│       └── テキスト/画像クエリによるゼロショット動画セグメンテーション
├── 3D・点群
│   ├── Semantic Segmentation(屋外・屋内シーン)
│   ├── Instance Segmentation
│   └── Part Segmentation(部品レベル)
└── 特殊ドメイン
    ├── 医療画像
    │   ├── 2D / 2.5D(RGB-D, CT image)
    │   ├── 3D体積(Volume)
    │   └── 細胞・組織レベル(Instance)
    ├── リモートセンシング・衛星画像
    ├── 自動運転(LiDAR + RGB fusion)
    └── 極限環境(悪天候・低照度)

第2軸: 入力データの種類

セグメンテーション
├── 2D自然画像・一般物体
│   ├── RGB
│   ├── マルチスペクトル
├── 動画
│   ├── 時系列2D (VSS)
├── 3D
│   ├── 点群
│   ├── ボクセル
│   └── メッシュ
└── 特殊ドメイン
    ├── 医療画像
    │   ├── CT
    │   ├── MRI
    │   ├── 内視鏡
    │   └── 病理
    ├── リモートセンシング
    │   ├── 衛星写真
    │   └── 航空写真
    ├── 自動運転
    │   ├── LIDAR+RGB
    │   └── レーダー
    ├── 工場・製造
    └── 極限環境(悪天候・低照度)

セグメンテーション
├── 2D自然画像・一般物体
│   ├── RGB
│   ├── マルチスペクトル
├── 動画
│   ├── 時系列2D (VSS)
├── 3D
│   ├── 点群
│   ├── ボクセル
│   └── メッシュ
└── 特殊ドメイン
    ├── 医療画像
    │   ├── CT
    │   ├── MRI
    │   ├── 内視鏡
    │   └── 病理
    ├── リモートセンシング
    │   ├── 衛星写真
    │   └── 航空写真
    ├── 自動運転
    │   ├── LIDAR+RGB
    │   └── レーダー
    ├── 工場・製造
    └── 極限環境(悪天候・低照度)

データセット

2D自然画像・一般物体

データセット規模・特徴対応タスク備考
PASCAL VOC 2012~11,500画像, 20クラスSemantic, Instance古典的ベンチマーク
PASCAL Context10,103画像, 540ラベルSemantic高密度注釈。
MS COCO330K画像, 80 thing + 91 stuffInstance, Panoptic, Semanticインスタンス分割のデファクトスタンダード。
ADE20K25K画像, 150クラス(100 thing + 50 stuff)Semantic, Panopticシーン理解の高密度注釈。
Cityscapes5,000画像(2,975 train, 500 val, 1,525 test), 19クラスSemantic, Instance, Panoptic自動運転向け。97%ピクセルカバレッジ。
Mapillary Vistas25K画像, 65クラス(37 thing + 28 stuff)Semantic, Panoptic, Instanceグローバルな街並み。98%カバレッジ。
BDD100K100K動画, 10タスクSemantic, Instance, 動画多様な天候・時間帯。
KITTI自動運転センサーデータSemanticLiDAR + RGB。
BSDS5001,000画像 × 30人の注釈古典的分割・境界検出人間の多様性を含む。

Video Scene Parsing (VSP)

データセット規模・特徴対応タスク
DAVIS高品質な動画オブジェクトセグメンテーションVOS
YouTube-VOS大規模動画インスタンスセグメンテーションVIS, VOS
VIPSeg動画パノプティックセグメンテーションVPS
Cityscapes-VPSCityscapesの動画版VPS, VSS
BDD100K動画セマンティックセグメンテーションVSS
MOSE / MOSE v2動画オブジェクトセグメンテーションVOS(困難シーン)
Long-RVOS長期間リファリング動画セグメンテーションRVOS

3D・点群

データセット規模・特徴対応タスク
ModelNet4040カテゴリ, CADモデルClassification, Part Seg
ShapeNet55カテゴリ, 51,300モデルPart Segmentation
S3DIS屋内シーン, 6領域, 13クラスSemantic Seg
ScanNet1,500屋内シーン, 40クラスSemantic, Instance
ScanNet200ScanNetの200クラス拡張Semantic(細粒度)
SemanticKITTI自動運転LiDAR, 22シーケンス, 19クラスSemantic Seg
nuScenes自動運転, 360°カメラ + LiDAR + レーダーSemantic, Panoptic, 3D Detection

医療画像

データセットモダリティ対象
BraTSMRI(FLAIR, T1, T1ce, T2)脳腫瘍
LiTSCT肝臓・肝がん
ACDCMRI心臓
Kvasir-SEG内視鏡画像消化管
MoNuSegH&E染色組織病理画像細胞核
TNBC三重陰性乳がん病理画像細胞
BTCVCT腹部臓器
TotalSegmentatorCT104解剖学的構造

評価指標

Semantic Segmentation

指標定義特徴
Pixel Accuracy正しく分類されたピクセル / 全ピクセルクラス不均衡に弱い
Mean Accuracy各クラスのAccuracyの平均不均衡にやや強い
Mean IoU (mIoU / Jaccard Index)各クラスのIoU \(\frac{TP}{TP + FP + FN}\) の平均最も標準的。PASCAL VOCで普及。
Frequency Weighted IoUクラス出現頻度で重み付けしたIoU頻出クラスを重視
Dice Coefficient (F1-score)\(\frac{2\text{TP}}{2\text{TP} + \text{FP} + \text{FN}}\)医療画像で多用。境界の重複を重視。

Instance Segmentation

指標定義特徴
Average Precision (AP)IoU閾値(通常0.5)でのPrecision-Recall曲線下面積COCOの標準。Confidence scoreを必要とする。
AP@0.5 (AP50)IoU > 0.5 でのAP緩い評価
AP@0.75 (AP75)IoU > 0.75 でのAP厳しい評価
AP@[.5:.95]IoU 0.5〜0.95で平均したAPCOCOの主要メトリクス
mAP複数クラスでのAP平均

Panoptic Segmentation

指標定義特徴
Panoptic Quality (\(PQ\))\(PQ = SQ \times RQ\)統一指標。StuffとThingsを等しく扱う。
Segmentation Quality (\(SQ\))マッチしたセグメントの平均IoU分割の精密さ
Recognition Quality (\(RQ\))マッチしたセグメントのF1-score検出・認識の精度
Weighted PQ (wPQ)クラス頻度で重み付けした \(PQ\)URVIS 2026などで採用

動画

指標適用タスク定義
Region Similarity (J / IoU)VOSフレーム間マスクのIoU平均
Contour Accuracy (F)VOS境界のF-measure
Temporal Stability (T)VOS時間的な揺らぎの少なさ
Video Panoptic Quality (VPQ)VPS動画版PQ。時間軸での一貫性を含む
MOTA / MOTP\(\frac{\text{VOS}}{\text{VIS}}\)追跡性能(Multiple Object Tracking)

3D点群

指標定義
Overall Accuracy (OA)全点の正解率
Mean IoU (mIoU)クラスごとのIoU平均(2Dと同様)
Mean Class Accuracyクラスごとの正解率平均

医療画像

指標用途
Hausdorff Distance (HD)予測境界とGT境界の最大距離。境界の外れを厳しく評価。
Average Surface Distance (ASD)境界間の平均距離。
Sensitivity / Specificity病変検出の漏れ・過検出のバランス。
Dice Score体積の重なり。医療で最も一般的。

Open-Vocablary segmentationサーベイでの分類

  • Training Free Open-Vocabulary Semantic Segmentation
    • CLIP-Based Approaches
      • Purely CLIP-based
        • Refine Inter-token Mixing
        • Leverage Intermediate Layers
        • Leverage Non-ML obtained Masks
        • Others
      • VFM-s alongside CLIP
        • Refine Inter-token Mixing with VFMs
        • Leverage VFMs for Maskpooling
      • Generative Methods Alongside CLIP