ディープラーニングモデルの普及により、その堅牢性が要求されます。この論文では、畳み込みニューラルネットワークによって抽出された個々のフレームの空間的特徴と、リカレントニューラルネットワークによってキャプチャされた隣接フレーム間の時間ダイナミクスの両方を含む、ビデオのディープニューラルネットワークの堅牢性について検討します。ロバスト性を測定するために、最大安全半径問題を検討します。これは、特定の入力から得られたオプティカルフローシーケンスから、入力の近傍の敵対的な例のオプティカルフローシーケンスまでの最小距離を計算します。リプシッツの連続性の仮定の下で、問題はオプティカルフロースペースを離散化することにより有限最適化を使用して近似でき、近似には証明可能な保証があることを示します。次に、最初のプレーヤーがオプティカルフローを選択し、2番目のプレーヤーが選択したフローで操作する次元を決定する協調設定で、2プレーヤーのターンベースのゲームを利用することで有限最適化問題を解決できることを示します。上限と下限を単調に改善することによってゲームの価値を概算するという意味で、ゲームを解決するためにいつでもアプローチを採用しています。勾配ベースの検索アルゴリズムを利用して上限を計算し、許容可能なA *アルゴリズムを利用して下限を更新します。最後に、UCF101ビデオデータセットでフレームワークを評価します。
The widespread adoption of deep learning models places demands on their robustness. In this paper, we consider the robustness of deep neural networks on videos, which comprise both the spatial features of individual frames extracted by a convolutional neural network and the temporal dynamics between adjacent frames captured by a recurrent neural network. To measure robustness, we study the maximum safe radius problem, which computes the minimum distance from the optical flow sequence obtained from a given input to that of an adversarial example in the neighbourhood of the input. We demonstrate that, under the assumption of Lipschitz continuity, the problem can be approximated using finite optimisation via discretising the optical flow space, and the approximation has provable guarantees. We then show that the finite optimisation problem can be solved by utilising a two-player turn-based game in a cooperative setting, where the first player selects the optical flows and the second player determines the dimensions to be manipulated in the chosen flow. We employ an anytime approach to solve the game, in the sense of approximating the value of the game by monotonically improving its upper and lower bounds. We exploit a gradient-based search algorithm to compute the upper bounds, and the admissible A* algorithm to update the lower bounds. Finally, we evaluate our framework on the UCF101 video dataset.