備忘録 機械学習,コンピュータビジョン,時々物理

Segment Anything

領域分割向けの基盤モデルの構築を目指し,プロンプト可能領域分割タスクを提案.このタスクを学習したモデルは,プロンプト・エンジニアリングによって様々な種類の領域分割タスクをゼロショットで解けると期待される.また,このタスク向けのモデルとデータセットを構築し,その性能を評価した.

A Comprehensive Survey on Segment Anything Model for Vision and Beyond

Segment Anything (SAM) が公開されて1ヶ月余り,早くも関連研究のサーベイ論文が登場.分野の進展が早すぎる…

BEVT: BERT Pretraining of Video Transformers

BERT型マスク付き動画モデリングに基づく事前学習を動画データに適用した初期の論文.基本的な構成は静止画用のBEiTを参考にしているが,動的性質と静的性質を切り分けて学習するために重みを共有する動画用エンコーダと静止画用エンコーダを同時に学習するのが特徴.

Masked Autoencoders Are Scalable Vision Learners

昨今流行している画像データ向けの自己教師あり学習のアルゴリズム,マスク付き自己符号化器の元祖.マスク画像を使った自己符号化器のアイデア自体は古くからあるが,自然言語処理の類例をベースに,言語と画像の違いに関する考察に基づき詳細を設計してSOTAな自己教師ありアルゴリズムに仕上げたことに意義がある.

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Transformerベースの言語モデルを教師なしで言語エンコーダを事前学習そしてファインチューニングする手法の論文.マスク付き言語モデルを流行らせた原典.モデリング面では,先行するGPTが生成タスクを用いるため自己回帰的なTransformerを用いているのに対して,BERTはエンコーダのみで事前学習するため双方向Transformerを用いることが特徴.

BEiT: BERT Pre-Training of Image Transformers

MAEに先んじてマスク付き画像モデリングによる画像エンコーダの事前学習方法を提案した論文.

Masked Autoencoders As Spatiotemporal Learners

ViT系モデル向けの自己教師あり学習であるmasked autoencoderを動画向けに拡張した論文.動画は静止画よりも情報の冗長性が高いことを反映して,90%という高いマスク率を必要とすることを示した(静止画では75%程度が良い).同じNeurIPS2022で発表されたVideoMAEと違って時空間的にランダムなマスクが良いと主張している.

VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training

(主にViT系モデル向けの)自己教師あり学習の手法であるmasked autoencoderを動画向けに拡張したVideoMAEを提案.動画においては,時間方向に伸びるチューブ状のマスクを使うこと,高いマスク率を用いることを提案.比較的小規模なデータセットでもそのデータセットでVideoMAEによる事前学習をした後に教師あり学習することで,スクラッチから学習するよりも高い精度が出ることを示した.

InternVideo: General Video Foundation Models via Generative and Discriminative Learning

動画データ向け基盤モデル InternVideo の論文.生成的自己教師あり学習(マスク動画モデリング)と識別的自己教師あり学習(CLIPに似た対照学習)でそれぞれ学習した2つのエンコーダをクロス・モデル・アテンションにより統合する.行動認識,動画・言語タスク,オープン・ワールド動画理解など各種の動画タスクで2023年4月現在Paper With Codeの上位にランクインする.