16 May 2023 [foundation models,
instance segmentation,
promptable vision models]
領域分割向けの基盤モデルの構築を目指し,プロンプト可能領域分割タスクを提案.このタスクを学習したモデルは,プロンプト・エンジニアリングによって様々な種類の領域分割タスクをゼロショットで解けると期待される.また,このタスク向けのモデルとデータセットを構築し,その性能を評価した.
16 May 2023 [foundation models,
image,
promptable vision models,
survey]
Segment Anything (SAM) が公開されて1ヶ月余り,早くも関連研究のサーベイ論文が登場.分野の進展が早すぎる…
14 May 2023 [video,
self-supervised learning]
BERT型マスク付き動画モデリングに基づく事前学習を動画データに適用した初期の論文.基本的な構成は静止画用のBEiTを参考にしているが,動的性質と静的性質を切り分けて学習するために重みを共有する動画用エンコーダと静止画用エンコーダを同時に学習するのが特徴.
05 May 2023 [foundation models,
self-supervised learning,
image]
昨今流行している画像データ向けの自己教師あり学習のアルゴリズム,マスク付き自己符号化器の元祖.マスク画像を使った自己符号化器のアイデア自体は古くからあるが,自然言語処理の類例をベースに,言語と画像の違いに関する考察に基づき詳細を設計してSOTAな自己教師ありアルゴリズムに仕上げたことに意義がある.
05 May 2023 [self-supervised learning,
language]
Transformerベースの言語モデルを教師なしで言語エンコーダを事前学習そしてファインチューニングする手法の論文.マスク付き言語モデルを流行らせた原典.モデリング面では,先行するGPTが生成タスクを用いるため自己回帰的なTransformerを用いているのに対して,BERTはエンコーダのみで事前学習するため双方向Transformerを用いることが特徴.
05 May 2023 [self-supervised learning,
image]
MAEに先んじてマスク付き画像モデリングによる画像エンコーダの事前学習方法を提案した論文.
01 May 2023 [foundation models,
video,
self-supervised learning]
ViT系モデル向けの自己教師あり学習であるmasked autoencoderを動画向けに拡張した論文.動画は静止画よりも情報の冗長性が高いことを反映して,90%という高いマスク率を必要とすることを示した(静止画では75%程度が良い).同じNeurIPS2022で発表されたVideoMAEと違って時空間的にランダムなマスクが良いと主張している.
30 Apr 2023 [foundation models,
video,
self-supervised learning]
(主にViT系モデル向けの)自己教師あり学習の手法であるmasked autoencoderを動画向けに拡張したVideoMAEを提案.動画においては,時間方向に伸びるチューブ状のマスクを使うこと,高いマスク率を用いることを提案.比較的小規模なデータセットでもそのデータセットでVideoMAEによる事前学習をした後に教師あり学習することで,スクラッチから学習するよりも高い精度が出ることを示した.
29 Apr 2023 [foundation models,
video,
vision&language,
self-supervised learning]
動画データ向け基盤モデル InternVideo の論文.生成的自己教師あり学習(マスク動画モデリング)と識別的自己教師あり学習(CLIPに似た対照学習)でそれぞれ学習した2つのエンコーダをクロス・モデル・アテンションにより統合する.行動認識,動画・言語タスク,オープン・ワールド動画理解など各種の動画タスクで2023年4月現在Paper With Codeの上位にランクインする.