GLA-CLIP

要点

GLA-CLIPは、training-freeなOpen-Vocabulary Semantic Segmentation (OVSS)において、高解像度画像をsliding-windowで推論する際に生じるwindow間の不整合を、追加学習なしで軽減する手法です。論文の主張は明快であり、既存手法の精度低下は「モデルが十分に学習されていないから」ではなく、「推論時に参照できる文脈がwindow内に制限されているから」起きるというものです。

この問題に対し、GLA-CLIPはlocal queryを維持したままglobalなkey/valueを参照させ、さらにquery側のwindow biasをproxy anchorで補正し、小物体と大物体のスケール差をdynamic normalizationによって吸収します。要するに、学習済みCLIP系モデルの重みには触れず、推論時のattentionの設計のみを作り替えている点が中核となっています。

背景

CLIPはもともと低解像度の画像分類タスクを中心に事前学習されているため、高解像度画像に対するdense predictionをそのまま行うのは困難です。そのため、training-free OVSSでは画像をoverlapping sliding-windowで切り出し、各windowを独立して処理した後にマージするアプローチがよく用いられます。

しかしこの手法では、各windowが画像全体を見渡すことができません。同一の物体が複数windowにまたがる場合、それぞれの部分が異なる文脈で解釈され、ラベルの不一致が生じやすくなります。特に大きな物体（large object）や背景クラス（stuff category）ではその影響が顕著であり、window境界に沿ってグリッド状のアーティファクト（grid artifact）が発生しやすくなります。論文ではこの不整合を[[Boundary Error Rate (BER)]]として定量化し、単なる見た目の問題ではなく構造的なエラーとして扱っています。

ここで重要なのは、重なり部分を平均化しても根本的な原因は解消されないということです。マージ処理は境界のlogitを滑らかにするだけであり、各windowが元々別々の意味解釈を行っているならば、そのズレ自体は残ってしまいます。著者らは、この問題の本質はtext-image alignmentの弱さにあるのではなく、attentionのqueryが局所的なwindowの特徴からしか生成されていない点にあると整理しています。

手法の構成

GLA-CLIPの構成要素は以下の3つであり、それぞれの役割分担が明確にされています。

1. Key-Value Extension

最初の拡張は、queryを現在のlocal windowから生成した状態に保ちつつ、参照先のkeyとvalueを画像全体のすべてのwindowに広げることです。数式としては以下のようになります。

\[ A_{\mathrm{ext}} = Q K_{\mathrm{global}}^T \]

\[ F_{\mathrm{visual}} = \mathrm{Proj}(A_{\mathrm{ext}} V_{\mathrm{global}}) \]

ここでの狙いは明確で、query自体を再構築するのではなく、推論時にreceptive field（受容野）のみを拡大することです。これにより、局所的なwindowのqueryからでも、画像全体に散らばるtokenを参照できるようになります。大きな物体や背景クラスを複数windowにまたがって扱えるようになるため、global contextを推論時に回復させることができます。

ただし、この段階ではまだ課題が残ります。query自体はlocalな特徴に由来しているため、attentionは依然として「現在のwindow内で似ているtoken」を過大評価しやすく、inner-window biasを払拭できません。

2. Proxy Anchor

そこで2つ目の工夫として、各queryをそのまま使用するのではなく、画像全体において意味的に安定したproxy anchorへと近づけます。具体的には、あるqueryに対して画像全体からコサイン類似度の高いtokenを集め、その平均を計算することでqueryの代表点を更新する反復処理を行います。

\[ P_i^{(0)} = \{ j \mid Q_i^{(0)} K_j^T > \rho \} \]

\[ Q_i^{(t)} = \frac{1}{|P_i^{(t-1)}|} \sum_{j \in P_i^{(t-1)}} K_j \]

最初の式では「このqueryと十分に似ているglobal tokenの集合」を取得しています。次の式では、その集合の平均を新しいqueryとして使用する更新を行っています。こうして得られたproxy anchorは、空間的に近いから似ているtokenではなく、画像全体で意味的に似ているtokenを代表する方向に寄っていきます。結果として、window内にたまたま存在する局所的なパターンに引っ張られにくくなります。

3. Dynamic Normalization

global tokenを大量に参照できるようにすると、大物体には有利に働く一方で、小物体には逆効果となる可能性があります。小物体はポジティブなtokenの数が少なく、globalなノイズに埋もれやすいためです。そこでGLA-CLIPは、queryごとにattentionの閾値とスケールを動的に調整するdynamic normalizationを導入します。

\[ \mathrm{Attn}_i = \mathbf{w}_i \left(\mathbf{S}_{\mathrm{proxy}} - \frac{\mathbf{u}}{N L} \sum_{j=1}^{N L} [\mathbf{S}_{\mathrm{proxy}}]_{ij}\right) \]

\[ \mathbf{u} = 1 + \lambda_1 \log(1 + L) \]

\[ \mathbf{w}_i = 1 + \frac{\lambda_2}{|P_i|} \]

\(u\)はwindow数\(L\)に応じて閾値を引き上げる項であり、global tokenが増えるほどノイズが混入しやすくなる問題に対処します。\(w_i\)はqueryごとのスケーリングであり、信頼度の高いtokenの数 \(|P_i|\) が少ないほど値が大きくなります。つまり、小物体のように手掛かりが少ないqueryほど相対的に保護される設計となっています。

これら3つの要素は、Key-Value Extensionがコンテキストの拡張、Proxy Anchorがバイアスの補正、Dynamic Normalizationがスケールの補正をそれぞれ担当していると捉えると理解しやすいです。

実験結果

論文では8つのsemantic segmentationベンチマークで評価を行っており、重みを固定したCLIP ViT-B/16およびDINO ViT-B/8を使用しています。結果として、GLA-CLIPは複数の既存training-free OVSS手法に対して一貫した精度向上をもたらしています。

CLIP-DINOiserベースで平均 +1.6 mIoU
ClearCLIPへの統合で +1.2 mIoU
ProxyCLIPへの統合で +0.6 mIoU
SCLIPへの統合で +1.6 mIoU

手動チューニングなしで平均44.0 mIoU、データセット特化のチューニングありで44.3 mIoUを達成しており、既存パイプラインへの後付けモジュールとして非常に強力です。重要なのは、特定の1手法専用ではなく、既存手法に横断的に組み込める点です。

定性的な比較においても、Pascal VOC、COCO-Stuff、Cityscapesのいずれにおいてもwindowを跨いだ同一領域により一貫したラベルが付与されており、ProxyCLIPやCASSと比較しても境界の段差（アーティファクト）が減少しています。mIoUの向上だけでなく、視覚的な一貫性の改善がはっきりと確認できる点は、この論文の説得力を高めています。

Ablationから分かること

Ablation studyでは、ベースラインが30.8 mIoUであるのに対し、Key-Value ExtensionとDynamic Normalizationを追加した時点で43.1 mIoU、Full modelで44.0 mIoUまで向上しています。この結果から、改善の主な要因はまずglobal contextの導入にあり、その上でProxy AnchorとDynamic Normalizationが細かな不安定さを解消していると解釈するのが自然です。

特にKey-Value Extensionの寄与が大きいため、著者らの問題設定である「高解像度OVSSでは推論時の受容野の不足が本質的な課題である」という仮説は強く支持されています。一方で、Full modelが最も高い性能を示していることから、単にglobal contextを追加するだけでは不十分であり、local queryのバイアスや物体スケールの差異まで適切に処理しなければ性能を最大限に引き出せないことも示されています。

この論文の見どころ

この論文の優れた点は、単にCLIPの能力不足を指摘するのではなく、「training-free OVSSにおいてsliding-windowを用いる限り、推論時のattention設計そのものに構造的な欠陥がある」と問題を明確に切り分けたことです。学習を増やす方向ではなく、推論時に「どこを参照し、どのqueryを信用し、スケール差をどう扱うか」に焦点を絞っているため、問題の定義が非常に洗練されています。

また、既存手法のマージ処理では問題が解決できない理由も納得しやすいものです。境界付近の予測を後段で平均化するのではなく、そもそもwindowごとのattention計算の段階でglobalな整合性を持たせなければ、意味解釈のズレは残ってしまいます。GLA-CLIPはまさにその根本部分に手を入れています。

限界

弱点も明確であり、すべてのwindowのtokenを参照する以上、計算量とメモリコストは増加します。training-freeではあるものの、推論コストまで無料になるわけではありません。今後の課題は、すべてのglobal tokenを読み込むのではなく、有用なtokenのみを効率的に選別しながら同等の整合性を維持できるかという点にあると考えられます。

用語メモ

sliding-window inference strategy

高解像度画像をそのまま1回で処理せず、重なりを持たせた小さなcrop（領域）に分割して個別に推論し、最後に結果を統合する推論戦略です。CLIP系モデルは高解像度でのdense predictionを苦手とするため、OVSSにおいては実用上ほぼ必須の手法となっています。

training-free

追加の再学習やファインチューニングを行わず、既存の学習済みモデルの重みを固定したまま性能を向上させるアプローチです。GLA-CLIPでは、CLIPや周辺モデルのパラメータは凍結し、推論時のattention構成のみを変更しています。

CLIP

Contrastive Language-Image Pretrainingの略で、画像とテキストを同じ埋め込み空間に整列させるvision-language modelです。語彙の一般化には優れている一方で、ピクセルレベルの局所化や高解像度dense taskは得意ではないため、OVSSではその弱点を補う工夫が必要となります。