備忘録 機械学習,コンピュータビジョン,時々物理

Detecting Everything in the Open World: Towards Universal Object Detection

語彙の制限なく何でも検知できる物体検知器を(ラベル空間が非一様な)多数のデータセットから学習する普遍的(universal)物体検知問題を定式化,そのための手法UniDetectorを提案.

基本情報

@InProceedings{Wang_2023_CVPR,
    author    = {Wang, Zhenyu and Li, Yali and Chen, Xi and Lim, Ser-Nam and Torralba, Antonio and Zhao, Hengshuang and Wang, Shengjin},
    title     = {Detecting Everything in the Open World: Towards Universal Object Detection},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2023},
    pages     = {11433-11443}
}

論文リンク

arXiv / CVPR / GitHub

著者・所属

Zhenyu Wang, Yali Li, Xi Chen, Ser-Nam Lim, Antonio Torralba, Hengshuang Zhao, Shengjin Wang (Tsinghua, BNRist, UHK, Meta AI, MIT)

新規性

非一様なラベル空間を持つ複数のデータセットから学習し,学習時に見ていない新規クラスの物体を検知する普遍的物体検知問題を定式化し,そのためのアルゴリズムUniDetectorを提案した.

手法

  1. RegionCLIPによる大規模画像・テキスト事前学習
  2. 非一様なラベル空間を持つ複数データセットで物体検知を学習
    • RPNとRoI分類器の学習をデカップル
    • クラス不可知局在化ネットワーク (CLN) によりクラスに依らず物体位置を特定する
  3. オープン・ワールド推論
    • 予測がベースクラスに寄りやすい傾向を補正する確率較正

結果

主に学習ではCOCO, Objects 365, OpenImages, 推論にはLVIS, ImageNetBoxes, VisualGenomeを使用.オープン・ワールド,クローズド・ワールド,ODiWで評価.

議論・コメント

  • Universal ODに要求される能力
    • 非一様なラベル空間を持つ複数のデータセットから学習できる
    • オープン・ワールドへの汎化性:未知クラスの識別能力
  • Zero-shot/open-vocabulary/open-world/universalの違いは?
    • Universalはゼロショット性や無制限の語彙だけでなく,多データセットの活用により多様なシーン,ドメインに対応することを目指す
    • ゼロショット物体検知と違い,open-vocabulary物体検知ではベースクラスのデータセット(普通の物体検知用データセット)に加えて持つ画像・キャプションペアのデータセットを使い,大規模な語彙に対応した視覚的・意味的特徴空間を獲得できる

関連文献

Tags

vision&language, object detection