オープンソースSOVAデータセット:音声認識と合成のためのオーディオ

みなさん、こんにちは!私たちはナノセマンティクスのチームであり、最近、SOVAプロジェクトを立ち上げました。このプロジェクトでは、ニューラルネットワークのトレーニングに使用するデータセットを収集し、人工知能に基づいて仮想アシスタントを作成しています。





音声認識エンジンをトレーニングするための大規模なデータセットを用意しました。これを共有して、企業がさまざまなビジネス上の問題を解決するために自国で実装できるようにしたいと考えています。データは新しいオイルであり、機械学習認識システムが進歩する最も重要な理由の1つは、タグ付きデータセットの存在です。音声分析の分野での研究開発に興味がある場合は、猫の下に行ってください。



2019年、NanosemanticsはRVC Foundationから助成金を受け取りました。その枠組みの中で、2022年末までにロシアで最大のオープンデータセットの1つを準備する必要があります。これは、本当に便利なデータセットを作成する絶好の機会です。歌詞付きの30,000時間のオーディオ録音、3つの言語(ロシア語、英語、中国語)、および膨大な数のスピーカーが含まれ、そこからのオーディオがデータセットで使用されます。データセットは段階的に(無料で)公開され、世界中の開発者がニューラルネットワークのトレーニング、人工知能を使用した独自の仮想アシスタントの作成、音声認識システムのトレーニングに使用できるようになります。 





データの操作とデータセットの作成を開始する前に、使用できるデータとそのようなデータの場所について、非常に明白な質問がありました。





私たちは自分たちのために4つの重要な決定をしました:





  1. データセットは最新かつ普遍的である必要があります。つまり、さまざまな最新の問題を解決するために必要なデータが含まれている必要があります。現在、データセットの英語の部分はオーディオブックで表されており、ロシア語の部分はテキストとライブスピーチを読むことで表されています。年末までにライブスピーチを大幅に増やす予定です。





  2. . , , - , . . . , . , , .









  3. . , .





, , —  .





, : - , - . , , , .









( ) – , - . , , , , , , , . . () Wikipedia





?





: , , , ,   .





« »: , . , , , 70 . , . , . , .





, , . , . , , .





, (, , . .), , , . , , , , . , " / ", " " . ., .





, ?





:





















:





  • -









  • Creative Commons Attribution – CC BY ( , )





  • Creative Commons Zero – CC0





  • WTFPL – Do What The Fuck You Want To Public License





, .





( )?





, .





5.1. 1235 , .





( )?





, - . .





, , , .





 





. , . 20 . , – - .





:













  • ,









, , . . , , , . , .





, : , , , .





– .









. , . 





:





  • , ,





  • , ,









  • , ,





:





  • .









, – . : , , . , , , . , , : , , , , . .





. , 20 . - , - . , , ; , , ? . .





:





  • .





  • .





  • , , .





  • , — .





  • ( ), , .





  • , , .





  • , .





, .





吹き替え録音ソフトウェア

.









, , , , . 





VoicyBot, «» . , , . , , . 





. , , — , . Open Source : . : , , , . , , , . . 





Youtube





. Youtube (), . , , .





. , (FEFU) , .





, , Creative Commons – CC BY. .





YouTube “ Creative Commons”. API Youtube. 





EngAudiobooksOriginal — , , .





EngAudiobooksNoisy — .





RuAudiobooksDevices — , , .





RuDevices — , .





オープンソースデータセットSOVA
Open Source SOVA

— , . .





CER — Char Error Rate. . , . 





CER — 5.





, , 95% - — .





, : 





すべてのオーディオ録音の標準設定

, , : -, .





.





: . , Youtube ( ), —  . .









, , .





—  forced alignment «» , . , , , . , , , . «» .   : NLab Speech «» . -.





, «», . , - .









, —  , . Voice Activity Detector — , . : 30 100 . - , 100 10 . —  , : .





: , , .





«», . , : , , .





/

. .





Common Voice. , . 7 335 60





Russian Speech Database (STC Russian). 1996-1998 89 . 5 . 15 1-3 . , 200 4000 EUR . . , 10-30 .





CSS10 Russian: Single Speaker Speech Dataset. CSS10 (A Collection of Single Speaker Speech Datasets for 10 Languages) 22 , LibriVox. CC0: Public Domain.





M-AILABS Speech Dataset. 46 , LibriVox. .





Russian LibriSpeech (RuLS). , LibriVox. 98 .





Russian Open Speech To Text (STT/ASR) Dataset, OpenSTT. , . 20000 ( 2,3 TB .wav). , , YouTube, , . . CC-BY-NC ( ).





, :





  • , OpenSTT, , ,





  • OpenSTT , . , .





  • OpenSTT : + .





, . , SOVA . , SOVA .





, ,  .





2021 SOVA Dataset 11,402 . 1,1 TB .wav. , .





Open Source CC-BY 4.0. , , .





SOVA Dataset GitHub.





, . .





2021 . 10000 , . , , Youtube .





, 2022 30000 .





SOVA Dataset – Open Source SOVA.ai: . . Open Source , , « ». , , - Open Source .





. , SOVA Dataset , . 





, . , , , partnership@sova.ai.








All Articles