Open-Vocabulary Detection 深掘り
2026-04-05
以下の組み合わせからなる
- 強いVLMの知識
- 領域レベルへの適応
- 疑似ラベル生成
- 大規模弱教師データ
代表論文がしていること
- ViLD
事前学習済みのオープン語彙分類モデルを教師にして、その知識を2段階検出器へ蒸留する枠組みです。要するに「分類モデルが持つ言語知識を検出器へ移す」アプローチで、OVDの出発点として非常に重要です(ViLD)。Open-vocabulary Object Detection via Vision and Language Knowledge Distillation - RegionCLIP
CLIPは画像全体と文を対応づけるので、物体領域単位では弱いという問題に対して、領域とテキストを直接そろえる事前…