End-to-End Temporal Action Detection with 1B Parameters Across 1000 Frames. (arXiv:2311.17241v1 [cs.CV])

08 Feb 2024

時系列行動検出をend-to-endで学習する方法の提案．E2Eな手法としては初めて特徴量ベースの（＝バックボーンの事前学習済み特徴抽出器を固定して使う）手法を超える性能を叩き出した．

基本情報

フレーム・ベースの特徴抽出：従来は動画を16フレームのスニペット単位で特徴抽出する方法が主流であった．これに対して，メモリー効率を考慮してスニペットに区切らないフレーム・ベースの方法を採用（単に一つ付きのフレーム系列として3D-CNNなどに入力するということ）．
時間的情報アダプター：全体をファインチューニングするのではなく軽量なアダプターモジュールを導入しそのパラメータのみを最適化する．Point-wiseのボトルネック構造が，その中間に時間方向のdepth-wise convとpoint convを挟む形．
アダプターの配置：メモリー効率を改善しモデルを大規模化するために，勾配がバックボーンの内部を逆伝播しないようアダプターをバックボーンの外部に配置するネットワーク構造を提案．