11 Feb 2024 [optimizer,
convergence theory]
非凸な目的関数の最適化において,Adamの収束性を従来よりも緩やかな条件で示した.具体的には,損失関数のL-smoothnessの代わりにより弱い(𝐿0,𝐿𝑞)--smoothnessを仮定すること,勾配の有界性などを仮定せず勾配ノイズとしてアフィン分散ノイズを仮定すること,が特徴.また,ステップサイズを適切に選ぶとSGDにマッチする収束レートを実現する.
08 Feb 2024 [video,
temporal action localization]
時系列行動検出をend-to-endで学習する方法の提案.E2Eな手法としては初めて特徴量ベースの(=バックボーンの事前学習済み特徴抽出器を固定して使う)手法を超える性能を叩き出した.
07 Feb 2024 [foundation models,
video,
image,
semantic segmentation,
feature learning]
領域ベースの特徴表現に関する研究.深層学習を使った画像の特徴抽出ではピクセルベースやパッチベースの方法が主流だが,領域分割の基盤モデルが容易に利用可能になっていることから,これら基盤モデルを使って画像を領域の集合ととらえ,領域単位の特徴表現を使って画像認識する方法を検討した.
07 Feb 2024 [foundation models,
semantic segmentation]
Segment Anything Model (SAM) をファインチューニングし地理画像の意味的領域分割に適応させる.SAMをベースに,マスク・デコーダのファインチューニングによって意味的領域分割を解かせる.マスク・デコーダへ入力するプロンプトを事前学習済みのCNNベース意味的領域分割器とSAMから自動生成する方法がこの研究の肝となる.
20 Jul 2023 [self-supervised learning,
deep learning dynamics,
double descent]
教師なし学習(autoencoder)では,モデル複雑度を大きくするとテスト損失がピークを持つ二重降下現象が生じないことを実験的に示した.Autoencoderとしては,encoderとdecoderが1層の隠れ層を持つ場合と,線形の場合を検証.隠れ層の幅や潜在変数の次元についてテスト損失が単調に減少することを実験的に示した.
19 Jul 2023 [video,
diffusion models,
generative models,
temporal action localization]
時間的行動検知を拡散モデルで解いた論文(ICCV2023).時間的行動検知を動画エンコーダが出力する特徴量で条件づけられた生成タスクとみなす.ノイズの乗った行動区間候補をデノイズ(逆拡散)して行動区間を予測する,という形で拡散モデルの定式化に乗せる.ActivityNetとTHUMOSによる評価で従来法を上回る.
17 Jul 2023 [video,
video object segmentation,
noisy labels]
医療動画の領域分割におけるラベルノイズ対策.従来の医療画像領域分割が単一画像の情報しか使ってこなかったのに対して,動画の連続性を考慮することでより高い精度を目指す.連続するフレームで同クラス・異クラスピクセル同士の特徴量の類似性に基づいて与えられたラベルの正確性を判定し,ラベル誤りを修正.また,その過程で得られる各ピクセルの「信頼度」に基づいてフレーム単位,動画単位の信頼度を計算.これらの信頼度によって損失関数を重み付する.
ラベル信頼度計算に用いる「類似度」を同一フレーム内や任意フレーム間のピクセルで評価するのと比較して,隣接フレームを使うことの効果が大きい=動画の時間的な連続性を使うことは有用.
17 Jul 2023 [video,
active learning]
動画分類向け能動学習の論文.ラベル付けするべき動画を選択するだけでなく,典型的な少数のフレームを選択し提示することでラベル付け作業者の負荷を軽減する.
16 Jul 2023 [probability theory,
neural tangent kernel,
Gaussian process]
無限幅NNがガウス過程であることはよく知られている.この論文では,有限幅のNNとガウス過程とのズレをさまざまな尺度で評価している.多くの類似研究が隠れ1層を扱うのに対し,この論文の結果は多層NNにも適用できる点が新しい.またこの論文の結果を隠れ1層NNに適用すると従来の結果よりもタイトな制約を与える場合もある.多層NNに適用できる(著者らが知る限り)唯一の先行研究 [BGRS23] とは適用できる条件が違うらしい.
15 Jul 2023 [implicit regularization,
deep learning dynamics]
SGDのステップ幅(学習率)が有限であることの暗黙的な正則化効果について議論する.この筋の研究の中で,後方誤差解析によって勾配降下法を修正勾配流で近似するものは損失関数がステップごとに変わらないことを仮定しており,SGDには適用できなかった.本論文は,後方誤差解析を複数ステップのSGDに拡張した.その結果,$O(h^3)$ までの誤差で,従来から知られていた暗黙的勾配正則化項に加え,異なる時刻の勾配の内積を最大化するような項(gradient alignment)を持つ修正勾配流が得られた.また,この結果をGANなどの2プレイヤーゲームに拡張した.
14 Jul 2023 [feature learning,
object-centric learning]
人物や物体で構成されたシーン画像のように,多くのデータは構成要素の組合せからなる.構成的汎化は,訓練データには含まれない組合せに汎化する能力である(構成要素は訓練時と評価時で変わらない).本論文ではこのようなデータが,構成要素を生成する関数と,生成された構成要素を組合わせる関数との合成関数として表現できると仮定し(構成的表現),このような関数を学習できるためにデータ分布が満たすべき条件を導出.大雑把には訓練データが全ての構成要素をカバーしていることと,構成要素の生成関数を学習するのに十分大きな台を持っていれば良い.
13 Jul 2023 [semi-supervised learning,
noisy labels]
ラベル誤りを含むデータセットから学習する方法に関する論文.従来研究で様々なアルゴリズムが提案されてきたが,単純な正則化の組み合わせ(学習率の階段型減衰,強・弱データ拡張,重みの指数移動平均)により従来法と同程度かそれ以上の精度を達成できることを示した.
13 Jul 2023 [implicit regularization,
deep learning dynamics,
expressivity,
depth separation]
ReLU NNの暗黙的バイアスに関する研究.SGDで到達できる解の滑らかさを評価した.さらに,普遍近似定理を解の安定性の観点から議論,勾配法の安定解となり得る1隠れ層NNでは近似できないが,2隠れ層NNなら近似できる関数が存在すること(深さ分離)を示した.一方,ソボレフな関数に限れば,1隠れ層NNの安定解が任意の関数を近似できることを示した.
13 Jul 2023 [implicit regularization]
バッチ正規化の暗黙的バイアスについて.バッチ正規化付き線形モデルは,最大マージン解ではなく一様マージン解に収束する.一様マージンが最大マージンよりも有利である問題設定があることを議論.タイトルを見てBNは「暗黙的」ではないバイアスではないかと考えてしまったが,BNがあっても仮説空間は変わらない(線形モデルは線形モデルのまま)なのでやはり「暗黙的」なのか.
13 Jul 2023 [video,
self-supervised learning,
test-time training]
評価時に評価用のデータ(ラベル無し)を使って訓練することで精度を上げる評価時訓練の論文.評価データがバッチで,またはiidなサンプリングによって得られることを前提とする従来研究に対し,本論文では動画が1フレームずつ時系列で与えられる状況に拡張.提案手法Online TTT-MAEは,評価データの時間的滑らかさを利用し,直近のフレームとモデルパラメータから記憶を引き継いでバックボーンを更新する.
13 Jul 2023 [video,
action recognition,
spatio-temporal action localization,
dataset,
tracking]
複雑なシーンにおける人物行動解析のためのベンチマークデータセット.多数の姿勢(>1M)や行動(>56k)のアノテーションを含み,平均長480フレーム以上である人物軌跡の数も最大級.Project Pageにて公開.
13 Jul 2023 [implicit regularization,
deep learning dynamics]
勾配流が持つ保存則の理論解析.多項式的な保存量を列挙するアルゴリズムを提案.また,(多項式に限らない)全ての独立な保存量の数を計算する方法を導出.これを用いて,行列分解の場合に既知の保存量の保存量が存在しないことを示した.
12 Jul 2023 [implicit regularization,
deep learning dynamics,
edge of stability]
最適化ダイナミクスにおけるedge of stability現象の理論解析.著者らが正準再パラメータ化と呼ぶ「良い」座標で見ると,EoS領域での最適化の軌跡が力学系における分岐図に沿って動くtrajectory alignmentを示した.
12 Jul 2023 [foundation models,
language,
in-context learning]
一層の線形自己注意NNにおいて,in-context learningが1ステップの勾配降下を実現していることを示した.入力データの共分散は勾配法の前処理行列に影響する一方,ターゲットの非線形性はアルゴリズムを変えないことを示した.Ahn et al 2023やZhang et al 2023も参照.
12 Jul 2023 [generative models,
object-centric learning]
教師なし表現学習の一種である物体中心表現学習は自己符号化器の構造をしており,従来は軽量なデコーダを利用することが主流であったが,近年,Transformer等の大規模なデコーダを使うことの有用性が明らかになってきた.本研究ではdiffusionモデルをデコーダとしたSlot Diffusionを提案.
12 Jul 2023 [mean-field theory,
neural tangent kernel,
effective field theory]
物理におけるファインマン図を用いDNNの非ガウス性を系統的に取り扱う方法を論じる.非ガウス性の起源として有限サイズ補正と「独立性の破れ」を指摘.特に通常はガウス過程になると考えられている無限サイズで非ガウス性を理解することの重要性を議論している.
11 Jul 2023 [deep learning dynamics,
statistical mechanics,
neural tangent kernel]
Les Houches Summer Schoolは歴史ある物理のサマースクール.去年のテーマが統計力学と機械学習で,そこで開講されたNTKのレクチャーの講義録.NTKの基礎からスペクトル・バイアス,データ蒸留,敵対的頑健性への応用まで,簡潔にまとめられたノート.他のレクチャーのスライドも公式サイトで公開されている.
11 Jul 2023 [semi-supervised learning,
class imbalance]
クラスインバランスを持つデータ向けの半教師あり学習.FixMatchなど既存の半教師アルゴにグラフ・ベースの分類ヘッド,クラスに依存した特徴量のmixup,適応的な閾値調整をアドオンして,クラスインバランスへの頑健性を向上させる.直近の困りごとと関連しているので文献探索用にメモ.
11 Jul 2023 [foundation models,
instance segmentation,
semantic segmentation]
Segment Anything Model (SAM)を蒸留により軽量化するMobileSAMの提案.SAM全体を一度に蒸留するのではなく,画像エンコーダとマスクデコーダに分けて蒸留を行う(後者はオプション).精度を維持しつつ推論時間を1/50以下にした.
10 Jul 2023 [scaling laws,
random matrix theory]
データそのものに内在するスケール則とその普遍性を論じる.データの送還行列の固有値分布がスケール則に従うこと,そのスケール則が長距離相関を持つノイズで再現されることを示した.また,ランダム行列理論におけるGOE普遍類と整合することを示した.
10 Jul 2023 [deep learning dynamics,
mean-field theory]
NTKに対する深層学習の優位性を示す先行研究では何らかの修正をしたSGDを解析しているのに対して,本研究ではSGDそのものの解析を行い,4次活性関数を持つ2層NNがNTKよりも優位な標本複雑度を持つことを示した.
07 Jul 2023 [statistical mechanics,
mean-field theory]
深層NNにおける秩序・カオス転移を吸収相転移と結びつけ,この相転移が持つ普遍的なスケーリング則を議論した.先行研究はDNNの構造などミクロな情報からボトムアップに相転移を議論するのに対して,秩序変数などマクロな量に関する現象論に基づいたトップダウンアプローチが特徴.
06 Jul 2023 [expressivity]
スキップ接続を持つ深層NNの表現力を,理論限界の導出,浅いNNでは表現できない関数の具体的構成,関数空間の解析を通じて調べた.スキップ接続があると単純な順伝播型NNよりも複雑な関数を表現できることを明らかにした.
05 Jul 2023 [foundation models,
vision&language,
object detection]
文中の句と画像中の物体との対応を推定するphrase groundingタスクの大規模事前学習GLIPを提案.Groundingの教師あり学習した教師モデルでcaptioningのデータセットにボックスの疑似ラベルを付与し,疑似大規模データを生成,それを使った自己学習が効果的.
05 Jul 2023 [vision&language,
object detection,
contrastive learning,
image captioning]
根拠推定による事前学習で局在化の精度向上を示したGLIPを拡張し,VQA,captioning等の理解タスクにも適応させたGLIPv2を提案.v2ではある画像中の物体領域と別の画像のキャプションとの間で対照学習を行うinter-image region-word contrastive learningを導入.単一のGLIPv2モデルが多くのタスクでSoTAに近い性能を達成した.
27 Jun 2023 [implicit regularization,
optimizer]
モメンタム(S)GDは学習率が小さい場合に,元の損失関数とは異なる修正損失関数の勾配流で近似できることを理論的に証明した.修正損失関数と元の損失関数の差は暗黙的正則化と捉えられるが,これがモメンタム無しの(S)GDよりも大きいことからモメンタムには暗黙的正則化を強める働きがある.
19 Jun 2023 [instance segmentation,
object detection]
語彙を制限しない物体検知の研究.先行研究ではボックス/マスクの推定に物体クラスに依存しないモデルを用いたのに対し,この回帰にも意味情報を活用するためのヘッド CondHead を提案.ヘッドのパラメータを意味埋め込みから動的に決定する.従来法のヘッドに採用することで物体検知と実体領域分割の精度を向上.
19 Jun 2023 [temporal action localization,
weakly supervised temporal action localization]
動画単位に行動ラベルが付いたデータから行動区間予測を学習する弱教師あり時間的行動局在の手法.従来法では行動区間の疑似ラベルを生成する際にNMSで冗長な疑似ラベルを消去したのに対して,提案法では疑似ラベルをガウス分布でモデル化し複数の疑似ラベルを統合することで,より高品質な疑似ラベルを生成する.
18 Jun 2023 [foundation models,
vision&language,
instance segmentation,
video object segmentation,
object detection,
semantic segmentation]
物体検知,個体領域分割など著者らが「実体知覚」と呼ぶ10のタスクを,クエリに応じて物体を発見・検索するタスクとして統一的に扱うモデルUNINEXTを提案.10のタスク・20のベンチマークで評価し,同じパラメータの単一モデルで従来法を上回る精度を達成.
18 Jun 2023 [foundation models,
video,
vision&language,
instance segmentation,
image,
object detection,
semantic segmentation]
マスク付き画像モデリングを10億級大規模モデル・約千万の画像データにスケールさせる研究.予測対象の離散トークン化は不要で,マスクで隠されたCLIP特徴量を可視パッチから予測するだけで良いことを示した.
16 Jun 2023 [vision&language,
object detection]
語彙を限定しない物体検知に向けた事前学習方法としてCLIP型のテキスト・画像対照学習アルゴリズム RO-ViT を提案.画像単位でキャプションが付いているデータで画像に局在する物体の表現を学習するため,位置埋め込みをクロップして足し合わせる.
16 Jun 2023 [vision&language,
object detection]
語彙の制限なく何でも検知できる物体検知器を(ラベル空間が非一様な)多数のデータセットから学習する普遍的(universal)物体検知問題を定式化,そのための手法UniDetectorを提案.
13 Jun 2023 [foundation models,
vision&language]
画像とテキストを使った事前学習BLIPの論文.従来法が生成タスクと認識タスクの一方に強く他方に弱い点を改善するNNアーキテクチャと,学習したフィルターによってノイジーなキャプション情報を除去しクリーンなデータを学習する機構を導入.
10 Jun 2023 [foundation models,
vision&language,
contrastive learning]
CLIPの原論文.画像・テキストペアを用い,画像とテキストの埋め込みの間で対照学習を行う.類似の先行研究と比較して,4億の画像・テキストペアという大規模データにスケールさせる設計と,ゼロショット転移でタスクによっては教師あり学習に匹敵する性能を実現した点が貢献.
05 Jun 2023 [implicit regularization,
deep learning dynamics,
optimizer]
深層線形モデルによる行列補完の学習において,モデルの「深さ」が持つご利益を明示的な正則化で代替可能であることを示した.この効果はAdam系の最適化アルゴリズムを用いた時のみ現れる点で,明示的正則化とアルゴリズムの暗黙的との相互作用の起結であると言える.
02 Jun 2023 [deep learning dynamics,
feature learning]
2層NNの表現学習に関する理論研究.大バッチサイズ・少ステップでの表現学習を解析.勾配法1ステップで学習できる部分空間とそのために必要(十分)なバッチサイズをデータ分布のパラメータで特徴づけた.また1ステップごとに1次元ずつ部分空間を学習すると予想.
01 Jun 2023 [foundation models,
image,
promptable vision models,
semantic segmentation]
領域分割向け基盤モデルSEEMの論文.同時期に公開されたSAMと同様に多種のプロンプトを入力としそれに対応する領域のマスクを出力する.領域のクラスを予測できるため,学習にはクラス分類の正解を必要とする.
01 Jun 2023 [foundation models,
image,
semantic segmentation]
SAMを領域分割の弱教師あり学習(WSSS)に用いた論文.WSSSでは画像分類を学習し,CAMに後処理を施して擬似ラベルとする手法が主流である.提案手法では擬似ラベルをプロンプトとしてSAMでマスクを生成し擬似ラベルとする.
01 Jun 2023 [foundation models,
image,
semantic segmentation]
弱教師あり学習領域分割向けにSAMで疑似ラベルを生成する.同時期に同じテーマに取り組んだChen, et al.は画像単位のクラスラベルに焦点を当てていたのに対し,他の弱い教師(点,スクリブル,バウンディングボックス)についても検討している.
31 May 2023 [self-supervised learning,
contrastive learning]
対照学習とある種の正則化に基づく非対照学習とを統一的に理解できることを示した.具体的には,両者の損失関数が埋め込みベクトルの正規化に依存する項を除いて一致することを証明.実験的にも,両者を十分にチューニングすれば両手法の性能差が無くなることを示した.
30 May 2023 [video,
domain adaptation,
source-free domain adaptation]
ターゲットデータによる一貫性学習による動画向けのソース・フリーな教師なしドメイン適応.先行研究ATCoNと比較して,フレームごとのデータ拡張を用いる点,同一動画からサンプルしたクリップ間の一貫性をメモリーで効率的に実装した点が新しい.
28 May 2023 [object detection]
YOLOシリーズよりも低レイテンシーで高精度なTransformerベースの物体検知アルゴリズムを提案.エンコーダーの軽量化について丁寧に書かれており参考になる.序盤に本題と関係ないNMSの分析にスペースを割いていてしんどい.
25 May 2023 [foundation models,
video,
video object segmentation]
Segment Anything Model (SAM) を使って物体領域追跡問題を解く論文.物体領域追跡では初期マスクを与えるが,SAMによって少数のクリックで高品質な初期マスクを与えられる他,領域マスクの自動補正や人間による途中介入が可能になる.
25 May 2023 [foundation models,
video,
vision&language,
video object segmentation]
Track Anything (TAM)の2週間後に出たSAM x 物体領域追跡の論文.初期マスクをSAMで,追跡は既存追跡器でという構成はTAM同様.自然言語によるプロンプティングができること,新物体を自動追加できることが新しい.
17 May 2023 [implicit regularization,
loss landscape]
深層学習の汎化性を説明する「暗黙的正則化」の起源に関する論文.従来は確率的勾配降下法などの最適化アルゴリズムがその起源であると考えられてきたが,本論文ではアルゴリズムに依らず損失関数の形状に起因する効果であると主張する.