アイデアはどのようにして生まれたのですか
それはすべて、Nvidiaからのビデオ通信をアップグレードするためのAIを備えた新しいMaxineプラットフォームについて見た投稿から始まりました。このプラットフォームの機能の1つは、タイトル形式の同時翻訳です。この機能は、Jarvisと呼ばれる同じNvidiaのフレームワークを使用して実装されます。このフレームワークは、マルチモーダルAI会話型サービス用に設計されており、リアルタイムのGPUパフォーマンスを提供します。私たちのオーディオおよびビデオ通信プラットフォームの基礎を形成するのは、この同時解釈の概念です。これは新しいプラットフォームであるため、他の同様のプラットフォームと比較して多くの機能を備えている必要があるため、これらのタイトルに音声を追加して、ユーザーの音声プロファイルを作成し、話す人の声の色調と色を考慮して音声を合成することにしました。
テキストへの音声または音声認識
Google、Yandex、Mozillaのどちらを使用するのが良いですか?
Googleは、Yandexと比較して認識精度が高く、Google APIを介して5つのテスト音声メッセージを実行しました。英語で3つ、ロシア語で2つで、認識精度は100%(5/5)、Yandex 60%(3/5)でした。Googleは125言語、Yandex-3言語をサポートしています。
Mozilla Deepspeechの利点は認識精度です。92.5%であるため、比較のために、人は94.2%の精度で認識します。したがって、テスト音声メッセージの認識精度は100%(5/5)であり、このエンジンの利点はGoogleやYandexとは異なり、オープンソース。このエンジンの欠点は、認識されている言語の数です-英語、ロシア語、フランス語。
その結果、言語数と認識精度の比率が原因で、Google Speech toTextが選択されました。
テキスト翻訳
この問題を解決するために最初に頭に浮かぶのは、GoogleまたはYandexの既製のAPIを使用することです。私たちが最初に遭遇した問題は、翻訳の不正確さでした。たとえば、「中国の人々は明らかに見えない」という文のロシア語から英語への翻訳。Yandex Translator:「中国の人々は明らかに見えない」そしてGoogle Translator:「中国にはたくさんの人々がいる」、この場合、Googleの方が優れていた。
現在、この問題を解決するための万能薬はありません。今日のこれらの翻訳者の主な仕事は、文/テキストの意味を理解するためのアルゴリズムを教えることです。アルゴリズムが理にかなっている場合、翻訳の品質ははるかに高くなります。
GoogleTranslateとYandexTranslatorを介したビジネストピックに関連する多数の文の翻訳は、Googleがより有能であることを示したので、GoogleTranslateを使用します。
音声プロファイルを分析して取得する
音声プロファイルを取得するには、いくつかのデータセットを収集する必要があります。タスクは話者のスピーチによって翻訳されたテキストを合成することなので、各ユーザーからデータセットを収集する必要があります。これは、必要な文字の組み合わせ、構文構造、および句読点のセットを含む特殊なテキストを読むことによって行われます。テキストの読み取り時間は約15分であるため、各ユーザーの頻度とイントネーション特性に関する十分な量の情報を取得できます。テキストの読み取りを繰り返して、最終結果を改善することができます。
音声プロファイルを考慮した音声の合成
彼が決して話さなかった言語で人のスピーチを合成することは簡単な仕事ではありません。これを行うには、専門のテキストを読み、次に別の言語で同様のテキストを読み、その後、データセットを拡張するための追加のテキストを読むバイリンガルの人々の助けを借りて、プライマリデータセットを収集する必要があります。このトレーニングと特定された関係に基づいて、別の言語でのユーザーのスピーチがその後生成されます。また、必要な規模の完全に独立したデータセットの収集は効果的でも現実的でもないように思われるため、さまざまな言語で音声を合成するための既存の自動化ソリューションがこのプロセスに役立ちます。
出力
音声プロファイルを別の言語に転送するのは簡単な作業ではなく、異なる言語のデータセットが2つしかないため、その方法を理解できるようにニューラルネットワークをトレーニングする必要があるため、現時点での主なタスクは音声プロファイルと音声合成を組み合わせることです。 ..。
プロジェクトの開発中に、より具体的なタスクとそれらを解決する方法に関連する出版物を作成します。