GLA-CLIP
2026-04-06
GLA-CLIP
要点
GLA-CLIPは、training-freeなOpen-Vocabulary Semantic Segmentation (OVSS)において、高解像度画像をsliding-windowで推論する際に生じるwindow間の不整合を、追加学習なしで軽減する手法です。論文の主張は明快であり、既存手法の精度低下は「モデルが十分に学習されていないから」ではなく、「推論時に参照できる文脈がwindow内に制限されているから」起きるというものです。
この問題に対し、GLA-CLIPはlocal queryを維持したままglobalなkey/valueを参照させ、さらにquery側のwindow…