🤛🏿 📂 ⏺️ GoogleCloudとアームベースのRaspberryPiを使用した犬の気分検出器の作成 🏇🏿 ❎ ⏬

ボブ主演のKDPV、デニスキンの歌

今日、スマートフォン、スマートウォッチ、フィットネストラッカーはいたるところにあります。それらは、私たち自身、私たちの周囲を監視するのに役立ち、通知を送信し、心房細動などの深刻な問題を検出することさえできます。そして、私たちはマイクロモニタリング運動の始まりに過ぎません。

この記事では、犬の気分検出器のアイデアを見ていきます。周囲の音を聞くデバイスを作成し、犬がいる場合は、犬がどのような音を出しているかを判断しようとします。友好的な吠え声、おびえた泣き声、攻撃的な唸り声などです。ユーザーの好みに応じて、犬をチェックする必要があると判断したときにデバイスが振動します。これは、飼い主が犬の耳が聞こえなくなったときに犬を追跡するのに役立つ可能性があります。もちろん、これは単なるプロトタイプであり、このアイデアの結果はまだ実際の条件でテストされていません。

ArmベースのRaspberryPiコンピューターを使用して、このデバイスのプロトタイプを作成します。これは、エンドユーザーデバイスに機械学習を実装するための優れたプラットフォームです。 Armプロセッサは、Raspberry Piで使用されるだけでなく、多くの携帯電話、モバイルゲームコンソール、およびその他の多くのデバイスでも動作します。これらのコンピューターのエネルギー効率の高いプロセッサーは十分な処理能力を備えており、どこでも手頃な価格で購入できます。

残念ながら、これまでのところ、小型デバイスの機能は、処理能力、インターネット接続の欠如、および原則として少量のデータストレージによって制限されることがよくあります。このようなデバイスは短時間で多くの観測を完了することができますが、ストレージの制限のためにインターネット接続がない場合、後で同期するためにすべての観測を保存することはしばしば不可能です。さらに、大量のデータをワイヤレスで送信すると、すでに少量のバッテリー電力も消費します。

記録された信号を最大限に活用するには、信号処理ステージをエンドユーザーのデバイス自体に移動することが不可欠です。

過去10年間、機械学習画像内のオブジェクト検出、ビデオジェスチャ認識、音声認識など、多くの信号処理タスクの精度が大幅に向上しました。今日、私たちは可能性の表面を引っ掻いているだけです。小さなデバイスでMLを使用すると、人々の生活を改善する他の無数の方法が提供されます。

開始

トレーニング用のGoogleAudioSetを見てみましょう。これは、YouTubeビデオからの10秒のオーディオクリップの最大のコレクションです。データは、YouTube-8Mスターターキットと互換性のある前処理された形式で提供されます。オーディオクリップを分類できるモデルをトレーニングするために使用されます。

このモデルのトレーニングには時間がかかる場合があるため、処理をGoogle CloudAIプラットフォームに移行します。完了したら、モデルをロードします。すべてのコンポーネントの準備ができたら、モデルをRaspberryPiに転送します。また、接続されたマイクからの入力をキャプチャし、識別された犬の音を1秒おきに予測するPythonスクリプトを作成します。

目的のモデルを作成する

まず、これから行うすべての作業用のフォルダーをどこかに作成しましょう。

モデルを作成するには、データセットをロードする必要があります。これは、「機能データセット」という見出しの下のリンクから入手できます。最も簡単な方法は、1つのgzipアーカイブアーカイブをローカルコンピューターにダウンロードすることです。

次に、それを解凍してファイルを抽出します。このパッケージには3つのフォルダーがあります。1つはバランスの取れたトレーニングセット、もう1つは評価セット、3つ目はアンバランスのトレーニングセットです。各フォルダには4000を超えるファイルが含まれています。

TFRecordファイルには、前処理されたタグが含まれています。ファイル名は、YouTubeビデオIDの最初の2文字で始まります。ビデオIDでは大文字と小文字が区別されるため、Windowsのようにローカルファイルシステムで大文字と小文字が区別されない場合は、ファイルを抽出するときに注意する必要があります。

役立つアドバイス！ 7zipプログラムは、このような特性ファイルを抽出するために使用されます。 7zipはコマンドラインオプションをサポートしています。これにより、既存のファイルの名前を自動的に変更して、ファイルが上書きされるのではなく名前が変更されるようにすることができます。

正しく抽出されたデータセットを受け取ったら、YouTube-8MGithubリポジトリのクローンを作成しますこれには、モデルをトレーニングするためのコードが含まれています。抽出されたデータセット用に作成されたフォルダーにクローンを作成することをお勧めします。

そして、更新readers.pyファイルの古いAudioSet TFRecordファイルをサポートするために、YouTubeの-8Mフォルダ内を。このプロセスには、次の2つの段階があります。

「id」のすべての出現箇所を「video_id」に変更します。
num_classesパラメーターのデフォルト値を527に変更します。この数値は、このオーディオデータセット内のさまざまなカテゴリの数に対応します。

識別子は5箇所で変更し、num_classesは2箇所で変更する必要があります。

このプログラムを実行するには、新しいPython 3.6以降の仮想環境をデプロイし、tensorflow == 1.14をインストールします。また、次のステップで作成する出力スクリプトの要件を設定すると便利です。バージョン番号はパッケージごとに異なりますが、唯一の難しい要件は、tensorflowバージョン1.14を使用することです。その他のパッケージについては、最新バージョンをインストールするだけです。

この時点で、モデルをトレーニングする準備が整いました。まず、トレーニングスクリプトをローカルで実行してテストします。バランスの取れたトレーニングセットでは、それほど時間はかかりません。コマンドプロンプトウィンドウを開き、このセクションの最初の手順で作成したフォルダーに移動して、次のコマンドを入力します（これはすべて1行であることに注意してください）。

python youtube-8m/train.py \ --train_data_pattern=./audioset_v1_embeddings/bal_train/*.tfrecord \
--num_epochs=100 \
--feature_names="audio_embedding" \
--feature_sizes="128" \
--frame_features \
--batch_size=512 \
--train_dir ./trained_models/yt8m \
--model=FrameLevelLogisticModel \
--start_new_model

また、改行文字\はLinuxシステムでは正常に機能しますが、Windowsでは^文字に置き換える必要があることにも注意してください。

100エポックの後、これは約ステップ8500に達するまで続きます。FrameLevelLogisticModelは約58〜59％の最大精度で動作します。私たちのテストシステムでは、プロセス全体に20分弱かかりました。

このスターターキットには、DbofModelやLstmModelなどの他のモデルが含まれています。これらはそれぞれ、トレーニングデータに対してほぼ完全な精度を提供しますが、スコアセットでテストすると、バランスの取れたトレーニングセットでは両方とも大幅に過剰適合します。

クラウドでモデルをトレーニングする

別の方法は、不均衡なデータセットを使用してサウンドのフルセットをトレーニングすることです。この場合、処理にははるかに時間がかかりますが、Google CloudAIプラットフォームに基づくGPUが非常に役立ちます。単純なロジスティックモデルは、不均衡なトレーニングセットで約88％の精度を達成します。

クラウドでこのプロセスを実行するには、Google Cloud AIプラットフォームアカウントにサインアップしてログインし、課金を有効にして、ここで詳しく説明されているコマンドラインツールをダウンロードします。

すべての設定が完了したら、クラウドコンソールに移動します、新しいプロジェクトと新しいストレージバスケットを作成します。ストレージバケット名はグローバルに一意である必要があります。ユーザーアカウントの名前が含まれていると最も簡単です。 audioset_v1_embeddingsフォルダーとyoutube-8mフォルダー全体をこのストレージバスケットにロードします。

正しく実行されれば、Google Cloud SDKシェルを開き、以下のコマンドを実行して開始できるはずです。 your-project-nameとyour-storage-bucket-nameを適切なアカウント値に置き換えてください。これはUnixベースのシステム用に書かれています。 Windowsシステムに適切な修正を加えます。

BUCKET_NAME=gs://${USER}_yt8m_train_bucket

gsutil mb -p your-project-name $BUCKET_NAME

JOB_NAME=yt8m_train_$(date +%Y%m%d_%H%M%S)

gcloud --verbosity=debug ml-engine jobs submit training $JOB_NAME 
--python-version 3.5  --package-path=youtube-8m --module-name=youtube-8m.train --staging-bucket=$BUCKET_NAME --region=us-east1 --config=youtube-8m/cloudml-gpu.yaml -- --train_data_pattern='gs://your-storage-bucket-name/audioset_v1_embeddings/unbal_train/*.tfrecord' --model=FrameLevelLogisticModel --train_dir=$BUCKET_NAME/yt8m_train_frame_level_logistic_model

繰り返しになりますが、gcloudの最後の呼び出しは、構成オプションを含む1つの長いコマンドであることに注意してください。

完了するまでに半日以上かかります。すべてが完了したら、クラウドストレージバケットからモデル出力をロードします。

$BUCKET_NAME/yt8m_train_frame_level_logistic_model

RaspberryPiでの実行

このアプリケーションは、Python3がインストールされたRaspbianOSを実行しているArmベースのRaspberryPi4コンピューターでデモンストレーションしています。このデバイスにPyAudioをインストールします。問題が発生した場合は、この回答が役立つはずです。

USBマイクを接続します（テスト用のオーディオ出力用のオプションのヘッドセット付き）。この時点で、マイクをデフォルトのデバイスとして構成するのが最も簡単です。 Raspianデスクトップに移動し、右上隅の時計の横にあるスピーカーアイコンをクリックして、使用するマイクを選択します。

最後の重要なステップは、AudioSetと同じ128D圧縮で生のオーディオを処理する楽器を入手することです。これに使用されるツールはに含まれています前述のTensorflowモデルのGithubリポジトリ。 Piでまったく同じインストール手順に従い、Python 3インスタンスにインストールすることを忘れないでください。また、このリポジトリを、YouTube-8Mデータセットとリポジトリを複製したのと同じフォルダに複製します。

vggish_smoke_test.pyスクリプトを実行して、すべてが正しくインストールされていることを確認します。

次に、Google Cloudプラットフォームからダウンロードしたモデルを、マイクリスニングスクリプトを使用してフォルダーにコピーします。

このスクリプトを実行します。デフォルトのデバイスでリッスンを開始し、予測をコンソールに書き込みます。

目的のデバイスをデフォルトのデバイスとして構成できない場合は、コマンド「python model-run.py list」を実行して、すべてのデバイスのリストをインデックス別に表示します。デバイスインデックスを見つけて、そのインデックスを使用してコマンドを再実行します。例えば：

python model-run.py 3

このフォルダーの内容全体をRaspberryPiにコピーし、コードを使用してスクリプトを再度実行します。1秒に1回、犬が発しているとデバイスが考えるノイズの量を予測する必要があります。撤退フェーズは、デバイスとターゲットユーザーに最も適したメカニズムに置き換えることができます。

結論

今日は、Armベースのモバイルデバイスでサポートされているサウンドベースの機械学習の1つの可能なアプリケーションを検討しました。この概念は、市場に出す前にさらに詳細にテストする必要がありますが、モバイルデバイスで任意のオーディオ検出モデルを実行する機能はすでに存在します。

AudioSetデータには、都市の音の堅牢なオントロジーを備えた527個のタグが含まれています。カクテルパーティーアルゴリズムを適用したり、各音源をvggishフィルターに通したりするなど、予測子に渡す前にサウンド処理を改善する可能性もあります。

Armマイクロプロセッサを搭載したRaspberryPiで犬の気分検出器を実行することは非常にエキサイティングです。これをさらに面白くするために、TensorFlowパッケージのツールを使用してモデルを変換およびデジタル化し、TensorFlowLiteマイクロコントローラーパッケージを使用して低コストで低電力のArmマイクロコントローラーで実行できます。

興味深いですね？このアプローチで解決できる問題を実験して見つけてください。あなたはあなたが誰かの人生にどれだけ影響を与えることができるかを決して知りません。そして、機械学習が右手で他に何ができるかを知るために、学びに来てください（もちろん、HABRプロモーションコードを忘れないでください）。

データサイエンティストの職業
データアナリストの職業

その他の職業やコース

職業

Java開発者の職業
JAVAQAエンジニア
フロントエンド開発者の職業
職業倫理的ハッカー
C ++開発者の職業
職業Unityゲーム開発者
職業Web開発者
ゼロからのiOS開発者の職業
ゼロからのAndroid開発者の職業

コース

機械学習コース
« Machine Learning Data Science»
«Machine Learning Deep Learning»
Data Engineering
«Python -»
« »
DevOps

GoogleCloudとアームベースのRaspberryPiを使用した犬の気分検出器の作成

開始

目的のモデルを作成する

クラウドでモデルをトレーニングする

RaspberryPiでの実行

結論

More articles: