一時的な畳み込みネットワーク-時系列の世界に革命を起こす

記事の翻訳は、コース「ディープラーニング」の開始前夜に作成されました基本 "










この記事では、最新の革新的なTCNソリューションについて説明します。まず、モーションディテクタの例を使用して、Temporal Convolutional Networksのアーキテクチャと、Convolutional Neural Networks(CNN)やRecurrent Neural Networks(RNN)などの従来のアプローチに対するそれらの利点について検討します。次に、改善されたトラフィック予測、サウンドローカライザーと検出器、確率的予測など、TCNアプリケーションの最近の例について説明します。



TCNの概要



Lea et al。(2016)の基本的な作業は、ビデオベースのアクションをセグメント化するための時間的畳み込みネットワークの使用を開拓しました。通常、プロセスは2つの段階に分けられます。1つは、時空間情報をエンコードする(ほとんどの場合)CNNを使用した低レベルの特徴の計算、もう1つは、(ほとんどの場合)を使用して高レベルの時間情報を受け取る分類子への低レベルの特徴の入力です。 )RNN。このアプローチの主な欠点は、2つの別々のモデルが必要なことです。 TCNは、階層的な方法で両方のレベルの情報をカバーするための統一されたアプローチを提供します。



次の図は、エンコーダ-デコーダの構造を示しています。アーキテクチャに関する情報は、記事の最後にある最初の2つのリンクにあります。最も重要な質問は次のように解決されます。TCNは一連の任意の長さを取り、出力で同じ長さを取得できます。カジュアルコンボリューションは、完全にコンボリューションする1次元ネットワークアーキテクチャがある場合に使用されます。主な特徴は、時刻tの出力値が、それより前の時刻に発生した項目でのみ折りたたまれていることです。







TCNを取り巻く話題は、天気予報でのTCNの使用に関するJan et al。(2020)の最近の出版物で、Natureにまで及んでいます。彼らの研究では、著者らはTCNとLSTMを比較する実験を実施しました。結果の1つは、TCNが時系列の予測に優れているという結論でした。







次のセクションでは、従来のTCNの実装と拡張について説明します。



より良いトラフィック予測



ライドシェアリングとオンラインナビゲーションサービスは、交通予測を改善し、道路体験を改善することができます。交通渋滞の緩和、汚染の削減、安全かつ迅速な運転は、交通予測を改善することで達成できる目標のほんの一部です。この問題はリアルタイムデータに基づいているため、累積トラフィックデータを使用する必要があります。このため、Dai et al。(2020)は最近、ハイブリッド時空間グラフ畳み込みネットワーク(H-STGCN)を導入しました。基本的な考え方は、ピースワイズ線形スライディングフロー密度比を利用して、今後のトラフィック量をそれに相当するトラフィック時間に変換することです。彼らが彼らの仕事で使用した最も興味深いアプローチの1つは、時間依存性を得るためのグラフ畳み込みです。複合隣接行列は、トラフィック近似の固有の特性を反映しています(詳細については、Leeの2017年の記事を参照してください)。次のアーキテクチャは、予測プロセス全体を記述するための4つのモジュールを提供します。







サウンドイベントのローカリゼーションと検出



オーディオのローカリゼーションと検出(SELF)の分野は成長を続けています。自律航法では、環境を理解することが大きな役割を果たします。Girjis et al。(2020)は最近、新しいSELF-TCNオーディオイベントアーキテクチャを提案しました。研究者のグループは、彼らのフレームワークがこの分野の現在のソリューションよりも優れており、トレーニング時間を短縮していると主張しています。彼らのSELDnet(アーキテクチャは以下に示されています)では、44.1 kHzでサンプリングされたマルチチャネルオーディオは、短期フーリエ変換を使用して位相とスペクトルの大きさを抽出し、それらを個別の入力フィーチャとして抽出します。次に、畳み込みブロックと反復ブロック(双方向GRU)が接続され、完全に接続されたブロックが作成されます。SELDnetを終了すると、オーディオイベントの検出とオーディオの発信元を取得できます。







また、既存のソリューションよりも優れたパフォーマンスを発揮するために、著者はSELD-TCNを導入しました。







拡張コンボリューションによりネットワークがさまざまな入力を処理できるため、より深いネットワークが必要になる場合があります(エラーの逆伝播中の不安定な勾配の影響を受けます)。この研究の著者は、WaveNetアーキテクチャを採用することでこの問題を解決することができました(Dario et al。、2017)。彼らは、SELDタスクに繰り返しレイヤーが必要ないことを示し、アクティブなサウンドイベントの開始時間と終了時間を決定することができました。



確率的予測



Chen et al。(2020)によって開発された新しいフレームワークを適用して、確率密度を推定することができます。時系列予測は、多くのビジネス決定シナリオ(たとえば、リソース管理)を改善します。確率的予測により、履歴データから情報を抽出し、将来のイベントの不確実性を最小限に抑えることができます。予測タスクが(小売業のように)何百万もの関連する時系列を予測することである場合、パラメーターを推定するために法外な労力と計算リソースが必要です。これらの問題を解決するために、著者らはCNNベースの密度推定および予測システムを提案しました。それらの構造は、シリーズ間の隠れた相関関係を学習できます。彼らの研究における科学的な目新しさは、彼らのアーキテクチャで表される、提案された深いTCNにあります。







エンコーダ-デコーダモジュールの実装は、大規模なアプリケーションの開発に役立ちます。



結論



この記事では、時系列の問題を解決する上で、従来のCNNおよびRNNアプローチよりも何らかの点で優れている時間的畳み込みネットワークに関連する最新の作業をレビューしました。



ソース



  • リー、コリン、他。「時間的畳み込みネットワーク:アクションセグメンテーションへの統一されたアプローチ。」コンピュータビジョンに関する欧州会議。Springer、Cham、2016年。
  • リー、コリン、他。「アクションのセグメンテーションと検出のための一時的な畳み込みネットワーク。」コンピュータビジョンとパターン認識に関するIEEE会議の議事録。2017年。
  • Yan、Jining、etal。「enSoの事前予測のための時間的畳み込みネットワーク。」Scientific Reports 10.1(2020):1-15。
  • Li, Yaguang, et al. “Diffusion convolutional recurrent neural network: Data-driven traffic forecasting.” arXiv preprint arXiv:1707.01926 (2017).
  • Rethage, Dario, Jordi Pons, and Xavier Serra. “A wavenet for speech denoising.” 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.
  • Chen, Yitian, et al. “Probabilistic forecasting with temporal convolutional neural network.” Neurocomputing (2020).
  • Guirguis, Karim, et al. “SELD-TCN: Sound Event Localization & Detection via Temporal Convolutional Networks.” arXiv preprint arXiv:2003.01609 (2020).








:






All Articles