🦗 ⛹️ 🏥 <あなたのiOSアプリ>に話をさせましょう。Yandexレポート 🥫 👌🏼 🍴

iOSの音声認識とtext-to-speechの標準ライブラリは、多くの可能性を提供します。レポートからVolkovRoman最小限のコードでテキストの発音と音声動作のカスタマイズをアプリケーションに教える方法を学習します。Romaは、音声認識API、その制限と機能、認識要求のライフサイクル、およびオフラインモードでの作業方法を確認しました。UXの例、既存のバグの回避策、およびオーディオセッションでの作業の機能があなたを待っています。

-みなさん、こんにちは。私の名前はローマン・ヴォルコフです。今日は、モバイルアプリケーションにユーザーとの通信を教える方法について説明します。

始める前に、私について簡単に説明します。 iOSの開発前は、銀行部門の統合システムの開発と石油部門の分析システムの開発に携わっていました。 PCI DSS規格とは何か、たとえば、温度データのみに基づいて、エンジニアが掘削中に井戸で何が起こっているかをどのように理解するかを直接知っています。

2016年からiOS開発を行っています。私はフリーランスとリモートワークの両方の経験があり、いくつかのスタートアップの立ち上げに参加した経験があります。 RollsRoyceのブランドアプリケーションも作成しました。

2018年、私はPrismaチームに参加し、Prismaアプリを開発し、Lensa PhotoEditorの開発と立ち上げに参加しました。 2019年、私はiOS開発者としてYandexに移りました。 2020年以来、私はYandex.Translatorモバイル開発グループを率いています。 Translatorアプリは、テキストを操作するための単なるアプリケーションではなくなりました。写真の翻訳、ダイアログモード、音声入力、音声操作など、すばらしい機能がたくさんあります。

iOSでサウンドを操作するというトピックに飛び込み始めたばかりですが、オーディオセッション、合成、音声認識の操作を含むコンパクトな資料は見つかりませんでした。だから私はこの話をすることにしました。

それは4つの部分になります。最初に、オーディオセッションとは何か、オーディオセッションを正しく操作する方法、アプリケーションの動作にどのように影響するかについて説明します。次に、音声合成に移りましょう。電話で数行のコードで人々にテキストを音声で伝える方法を考えてみましょう。次に、音声認識に切り替えます。そして結論として、これらすべての可能性をオフラインモードでユーザーに提供する方法と、それが持つ機能を見てみましょう。

音声演技と音声認識を使用するためのかなりの数のオプションがあります。私のお気に入りは、他の人の音声メッセージをテキストに変換することです。そして、たとえば、Yandex.Messengerチームがそのような機能を作成してくれてうれしいです。うまくいけば、他のメッセンジャーが追いついて、家でもそれをするでしょう。

レポートの最初の部分、これはAVAudioSessionにスムーズに進んでいます。

オーディオセッションは、アプリケーションとオペレーティングシステムの間のレイヤーです。より正確には、アプリケーションとサウンドを操作するためのハードウェア（スピーカーとマイク）の間。 iOS、watchOS、およびtvOSでは、各アプリに事前構成されたデフォルトのオーディオセッションがあります。このプリセットはOSごとに異なります。

特にiOSについて言えば、オーディオセッションはデフォルトでオーディオ再生をサポートしますが、録音は禁止します。サイレントモードのスイッチが「サイレント」モードに設定されている場合、アプリケーション内のすべてのサウンドが完全にミュートされます。そして第3に、デバイスをロックすると、アプリケーション内のすべてのサウンドの再生が停止します。

オーディオセッションの設定は、3つのポイントで構成されています。これは、カテゴリ、モード、および追加オプションの選択です。それぞれのポイントを個別に見ていきます。

カテゴリから始めましょう。カテゴリは、オーディオセッションの基本的な動作の設定のセットです。カテゴリは、オペレーティングシステムが可能な限り一致することを可能にするパラメータのセットです。たとえば、このカテゴリの名前です。したがって、Appleは、使用可能なカテゴリにできるだけ近いアプリケーションのカテゴリを選択することをお勧めします。現在、iOS13では6つのカテゴリを利用できます。 7番目のカテゴリもありますが、非推奨としてマークされているため、使用しないでください。

この講演では、再生、録音、playAndRecordの3つのカテゴリについて説明します。一部のモードは特定のカテゴリでのみ使用できるため、このモードでは、設定されたカテゴリの機能を補足できます。

たとえば、スライドにはmoviePlaybackモードが表示されており、Playbackカテゴリにのみ設定できます。

moviePlaybackモードを設定すると、オーディオセッションで、内蔵スピーカーとヘッドフォンの再生音質が自動的に向上します。この講演では、「デフォルト」モードのみを使用します。ただし、互換性のないカテゴリとモードのペアを使用する場合は、デフォルトのモードが使用されることに注意してください。

3つ目は、オーディオセッションのオプションであるポイント設定です。たとえば、アプリの音声と他のアプリの音声の混合方法をカスタマイズしたり、音声セッションの適切な非アクティブ化を設定して、アプリが音声で終了したことを他のアプリが認識できるようにすることができます。

まず、再生のカテゴリ、つまり再生の設定について見ていきます。これは音声のみのカテゴリの1つです。設定されている場合、オーディオセッションをアクティブにすると、他のアプリケーションからのオーディオの再生などが中断されます。

ミュートスイッチがミュートに設定されている場合でも、オーディオが再生されることも重要です。

このカテゴリのバックグラウンド状態で再生するオプションもありますが、このためには、アプリケーションでオーディオ、AirPlay、およびPicture inPictureを有効にする必要があります。

スライドに表示されている2つのオプションを検討してください。 1つ目はmixWithOthersです。このオプションを使用してオーディオセッションをアクティブにすると、アプリケーション内でのサウンド再生は、現在再生中のサウンド（音楽など）と1つのボリュームレベルでミックスされます。ただし、現在の再生よりも音量の点でサウンドを優先させたい場合は、duckOthersオプションを使用できます。バックグラウンドで再生されるサウンドの音量を下げ、アプリケーション内で再生されるサウンドが終了すると元に戻します。

たとえば、これはナビゲーションアプリケーションで確認できます。ルートアナウンスの場合、現在聴いているものがミュートされ、アナウンスが再生されてから、すべてが元の状態に戻ります。

マイクからの認識のためにオーディオセッションを設定するオプションを考えてみましょう。レコードカテゴリは、このカテゴリのオーディオセッションがアプリケーションでアクティブな間、再生中のすべてのオーディオをミュートします。 Recordは、通話やアラームなどのシステムサウンドをミュートすることはできません。一般に、優先度の高い標準サウンドです。

allowBluetoothA2DPオプションを追加することもできます。これにより、AirPodsなどのヘッドセットを使用して、マイクからのサウンドを録音し、マイクでサウンドを再生できます。これには古いオプションがあり、allowBluetoothと同じように聞こえますが、音質が大幅に低下します。

以前は古いオプションを使用していましたが、アプリケーション内で再生および録音されたサウンドの品質に満足していないというユーザーからの苦情がありました。オプションを変更し、すべてが良くなりました。

音声認識と音声合成の両方を同時に使用する場合は、playAndRecordカテゴリを使用します。次に、アクティブ化されたオーディオセッション内で、サウンドの録音と再生の両方を使用できます。

notifyOthersOnDeactivationオプションは個別に検討する必要があります。これは、オーディオセッションをアクティブ化するためのメソッドで使用されます。なぜそんなに重要なのですか？

このオプションでオーディオセッションが非アクティブ化された場合、他のアプリケーションは、オーディオセッションの中断が終了したことを示すパラメーターを含むAVAudioSessionInterruptionTypeEndedパラメーターを含むAVAudioSessionInterruptionNotification IDを受け取り、中断される前に開始されたサウンドの操作を続行できます。

このシナリオは、mixWithOthersオプションのないアプリケーションで再生カテゴリを使用する場合に可能です。そうしないと、別のアプリケーションのサウンドが中断されず、オーディオが別のアプリケーションと単にミキシングされるためです。

このオプションを使用して変更を正しく処理することで、アプリケーションで作業するときにユーザーに快適なユーザーエクスペリエンスを提供できます。

スライドでは、オーディオセッション内でアプリケーションが別のアプリケーションによって中断されたという通知を適切に処理する方法の例と、中断が終了したときの状況を確認できます。つまり、特定の通知をサブスクライブします。おそらく、中断が開始されたときと終了したときの2つのタイプがあります。

前者の場合は状態を保存でき、後者の場合は別のアプリケーションによって中断されたサウンドの再生を続行できます。

これがどのように機能するかの例を次に示します。

^{_{ビデオは例が示されている瞬間から再生されます。}}

この例では、音楽は別のアプリケーション、つまりVLCで再生され、アプリケーション内で音声再生を開始しました。音楽が中断され、合成されたスピーチが再生された後、音楽は自動的に再生を再開しました。

すべてのアプリケーションがサウンドが中断されたときの状況を正しく処理できるわけではないことを指摘したいと思います。たとえば、人気のあるインスタントメッセンジャーの中にはオーディオの再生を再開しないものがあります。

まとめましょう。オーディオセッションの原理を分析しました。アプリケーションの要件に合わせてオーディオセッションを構成する可能性を検討し、ユーザーのオーディオセッションを便利にアクティブ化および非アクティブ化する方法を学びました。

進め。スピーチの合成。

スライドは、音声合成プロセスに関係するクラスの図を示しています。主なクラスは、AVSpeechSynthesiser、AVSpeechUtterance、およびAVSpeechSynthesisVoiceとその設定です。

これとは別に、リクエスト全体のライフサイクルに関する通知を受信できるAVSpeechSynthesizerDelegateがあることに注意してください。テキストのサウンドがサウンドを再生しているため、前述のAVAudioSessionはここでは暗黙の依存関係になります。

オーディオセッションを設定しなくても認識を要求できますが、プロダクションアプリケーションでは、設定方法を理解することが重要です。これについては前に話しました。

音声合成リクエストをすばやく行う方法の最短の例。 AVSpeechUtteranceクラスのオブジェクトを作成する必要があります。ここで、話したいテキスト、目的の音声、および言語を指定します。音声の作成時に言語ロケールを指定しない場合は、電話のデフォルトのロケールが使用されます。ただし、次のスライドでは、音声の選択とその操作方法について説明します。

次に、AVSpeechSynthesizerクラスのオブジェクトを作成し、speakメソッドを呼び出します。すべて。その後、テキストが合成されて再生され、結果が聞こえます。

しかし実際には、これはほんの始まりに過ぎません。音声合成にはさらに多くの可能性があります。これについては、これから説明します。

まず、音を受信するときの速度を設定できます。速度は、0から1の範囲の実数として指定されます。 rateプロパティを0から0.5の範囲に設定すると、実際のレートは0から1まで変化します。

レート値を0.5から1の範囲に設定すると、レートは1Xから4Xの値に比例して変化します。

スピードで作業する方法の例。

AVFoundationには、定数AVSpeechUtteranceDefaultがあります。これは実際には0.5であり、オーディオ再生の通常の速度に相当します。

通常の半分の速度を指定することもできます。0.25の値を指定する必要があります。0.75を指定すると、速度は通常の2.5倍になります。また、便宜上、最小速度と最大速度の定数があります。

ここで、いくつかの例を示します。

^{_{ビデオは、例}}

が^{_{示されている瞬間から再生されます。}}これは、MacintoshがAppleのプレゼンテーションで初めて自分の声で話している例です。そして、それは通常の合成音声速度の例でした。

これは2倍遅いです。

これは2.5倍高速です。

これとは別に、最後の行で、preUtteranceDelayプロパティとpostUtteranceDelayプロパティを引き出しました。これは、サウンドの再生が開始されるまでの遅延と、サウンドの再生が終了した後の遅延です。アプリケーションを他のアプリケーションのサウンドとミックスし、しばらくすると音量を下げて結果が失われる場合に使用すると便利です。その後、もう少し待ってから、別のアプリケーションのボリュームが元の位置に戻りました。

次のパラメータである音声選択を見てみましょう。音声合成の音声は、主にロケール、言語、品質によって分けられます。 AVFoundationは、AVSpeechSynthesisVoiceオブジェクトを作成または取得するためのいくつかの方法を提供します。 1つ目は音声IDによるものです。各音声には固有のIDがあり、SpeechVoice静的プロパティにアクセスすると、使用可能なすべての音声のリストを見つけることができます。このプロパティの取得にはいくつかの特徴がありますが、それらについてさらに説明します。

無効な識別子をコンストラクターに渡すと、コンストラクターは「no」を返すことに注意してください。

2番目のオプションは、言語またはロケールコードで取得することです。また、AppleはSiriの音声は利用できないと言っていますが、これは完全に真実ではありません。一部のデバイスでSiriで使用されている一部の音声のIDを取得できました。おそらくこれはバグです。

音声には、デフォルトと改善の2つの品質があります。一部のボイスについては、改善されたバージョンをダウンロードできます。これについては前のセクションで説明し、必要なボイスをダウンロードする方法について説明します。

特定の音声を選択する方法の例。 1つ目は特定の識別子、2つ目は言語コードを示す行、3つ目は特定のロケールです。

ここで、同じテキストを異なるロケールでダビングする2つの例を再生したいと思います。

^{_{ビデオは例が示されている瞬間から再生され}}

ます.2番目のオプションは、私にはロシアの発音に近いようです。

性別はiOS13にも登場しました。また、このプロパティはiOS 13以降でのみ使用でき、iOS 13で追加された音声に対してのみ機能します。したがって、Genderはenumとして設定され、Female、Male、Unspecifiedの3つのプロパティがあります。

私たちのアプリケーションでは、テキストを読む声の性別を選択できます。古い声については、自分でリストを作成し、アプリケーションに保存しました。システムがUnspecifiedを返す音声について、どの音声を男性と見なし、どの音声を女性と見なすかを分離します。

iOS 13.1では、投票のリストは最初の呼び出しで空のリストを返す場合があります。解決策：特定の秒数に1回、リスト全体を再クエリできます。空ではなく戻ってきたら、ようやく最新の投票リストを受け取ったと思います。

このバグはiOSの後続のバージョンで修正されていますが、アプリでこれが表示されても驚かないでください。

ドキュメントの調査中に遭遇した興味深い点は、静的プロパティAVSpeechSynthesisVoiceAlexIdentifierがあります。まず、すべてのデバイスがこの識別子で音声を作成できるわけではないため、これは非常に興味深い識別子です。第二に、なぜそれが別々に配置されているのか私にはわかりません。第三に、この識別子を持つ音声を取得した場合、この音声には一意の異なるクラスがあります。

同時に、フレームワークヘッダーの調査では、有用で興味深いものは何も得られませんでした。この識別子に関する情報を知っている場合は、なぜそれが必要なのか、なぜ表示されたのか、教えてください。私はこの質問に対する答えを見つけることができませんでした。

ここでは、ロケール、インターフェイスの性別に基づいて音声を選択する方法、および特定の言語で動作する音声の速度を指定する機能を提供する方法の例を見ることができます。

ラテン語に基づいて文字起こしを記録するための標識のシステムについて簡単に説明します。声の演技のためのテキストを与えるとき、あなたはその中の特定の単語の発音を指定することができます。 iOSでは、これは特別なキーを使用してNSAttributedStringを介して行われます。この発音の生成は、iOSデバイスの[アクセシビリティ]セクションで直接利用できます。しかし、大量の場合、これは非常に不便であるように思われ、他の方法で音声転写の生成を自動化できます。

たとえば、これは単語の相関関係と発音の大規模な辞書を持つ英語のリポジトリです。

スライドは、特定の単語の発音を1つのロケールに置き換える方法の例を示しています。この場合、それは| təˈmɑːtəʊ |、トマトです。

^_例

が^{_{示された瞬間からビデオが再生され}}ます^_。これで、属性を発音に設定するオプションとしないオプションが再生されました。

全体として、音声合成リクエストを作成する方法を検討しました。声を扱うことを学びました。遭遇する可能性のあるバグの1つに対する回避策を検討し、音声文字変換、その使用方法を検討しました。

音声認識に移りましょう。iOSではSpeechと呼ばれるフレームワークの形式で表示され、デバイス上で音声認識を行うことができます。

約50の言語と方言がサポートされており、iOS 10以降で利用できます。音声認識には通常、インターネット接続が必要です。ただし、一部のデバイスおよび一部の言語では、認識はオフラインで機能します。これについては、私の講演の第4部で説明します。

音声認識は、マイクとオーディオファイルの両方から利用できます。ユーザーにマイクからの音声を認識できるようにする場合、ユーザーは2つのアクセス許可を与える必要があります。 1つはマイクへのアクセス用で、もう1つは彼のスピーチが認識のためにAppleサーバーに送信されるという事実のためです。

残念ながら、オフライン認識しか使用できない場合、この許可を要求しないことは不可能です。とにかくリクエストする必要があります。

このリストは、AppleのWebサイトから取得したものです。これらは、音声認識に使用できる言語とロケールです。しかし実際には、これは標準のキーボードでディクテーションに使用できる言語とロケールのリストです。また、内部のSpeech Framework APIは、標準キーボードからのディクテーションの実装を指します。

開発者としての音声認識は無料ですが、使用制限があります。 1つ目は、1日あたりのデバイスとリクエストの制限です。 2つ目は、アプリケーションの合計制限です。そして第三に-あなたは最大1分を認識することができます。唯一の例外はオフラインモードです。その中で、長く録音されたオーディオメッセージの認識を行うことができます。

もちろん、Appleは制限について具体的な数値を述べていません。また、WWDCレポートに記載または記載されているように、エラーを処理し、たとえばこれらの制限に頻繁にぶつかった場合は、エラーを書き込む準備をする必要があります。しかし、そのような問題はありません。ロシア語の場合、音声認識エンジンとしてSpeechKitを使用します。また、ほとんどのユーザーはロシア語を話すため、制限に直面していません。

また、プライバシーについても必ず考えてください。データ（パスワード、クレジットカードデータ）に音声が作用することを許可しないでください。機密情報や個人情報を認識できるようにしないでください。

スライドでは、音声認識プロセスに関係するクラスの条件付き図を見ることができます。合成と同様に、認識の操作はオーディオアイアンの操作であるため、ここでもAVAudioSessionは明示的な依存関係です。

サポート。サポートされているすべてのロケールのセットを取得するには、supportedLocalesページプロパティにアクセスする必要があります。特定のロケールのサポートは、通常、そのロケールで音声認識が現在利用可能であることを保証するものではありません。たとえば、Appleサーバーへの永続的な接続が必要になる場合があります。

認識のロケールサポートは、iOSのキーボードでのディクテーションのロケールのリストと一致します。これが完全なリストです。特定のロケールを今すぐ処理できるようにするには、isAvailableプロパティを使用できます。

iOSの音声認識では、合成とは異なり、各言語にロケールの優先順位はありません。したがって、すべてのロケールのリストから特定の言語の最初のロケールを取得すると、最も人気のないロケールが存在する可能性があります。したがって、Translatorの一部の言語では、特定の言語の特定のロケールを優先します。

たとえば、英語の場合はen-USを使用します。ユーザーが初めて英語で何かを認識しようとするときは、アメリカのロケールを使用します。

ファイルからの認識要求。ここではすべてが簡単です。ファイルを取得してリンクし、使用するロケールを示すSFSpeechRecognizerオブジェクトを作成する必要があります。現時点で認識が可能であることを確認してください。ファイルパスを渡すコンストラクトを使用してSFSpeechURLRecognitionRequestを作成します。そして、認識タスクを開始します。

その結果、認識エラーまたは結果のいずれかを受け取ります。結果にはisFinalプロパティがあります。これは、この結果が最終的なものであり、さらに使用できることを意味します。

これはもう少し複雑な例です-マイクからの認識の要求。そのためには、マイクの操作を担当するAVAudioEngineオブジェクトも必要です。これがどのように機能するかについては詳しく説明しません。必要なカテゴリ（.recordまたは.playRecord）を設定します。オーディオセッションをオンにします。 AudioEngineを構成し、マイクからオーディオバッファーを受信するようにサブスクライブします。それらを認識要求に追加し、認識が完了したら、マイクを終了できます。

一時的な認識結果の発行を担当するshouldReportPartialResultsプロパティがtrueに設定されていることは注目に値します。オプションを見てみましょう。shouldReportPartialResultsフラグがある場合とない場合のアプリケーションの外観です。

^{_{ビデオは、例が示されている瞬間から再生されます。}}

左の例では、音に対するマイクの応答を残して、音量を変更しています。私が何かを言っていることがわかります。しかし、私が話し終えるまで、あなたは何も見えません。ユーザーが口述した結果を得るには長い時間がかかります。

shouldReportPartialResultsをtrueに設定して正しく処理すると、ユーザーは話しているときに自分が言っていることを確認できます。これは非常に便利で、ディクテーションの観点からインターフェイスを実行する正しい方法です。

これは、オーディオセッションでの作業の処理方法の例です。 Translatorの内部では、作成したサウンドだけでなく、オーディオセッションで何かを実行できる他のフレームワークも使用します。

まず、設定、カテゴリが必要なものであることを確認するコントローラを作成しました。次に、オーディオセッションを常にオン/オフにする機能を実行しません。

対話モード、音声入力、ダビングが開発される前から、私たちはオーディオセッションのオンとオフを切り替えていました。対話モードを作り始めたとき、これらのオンオフモードは、あなたが何かを言ってから声が出るまでの間に余分な遅延を追加することがわかりました。

音声認識クエリの場合、ヒント（認識される音声のタイプ）を指定できます。指定できない場合もあれば、口述、検索、または簡単な確認の場合もあります。多くの場合、ユーザーが長いことを言う場合は、口述の方が適しています。

iOS 13以降、オーディオ分析を利用できます。スライドは、認識された音声の結果として取得できるパラメーターを示しています。つまり、結果として、ユーザーが言ったことだけでなく、ユーザーが言った声も受け取ることになります。

私たちはこれに長い間こだわるつもりはありません。これは、認識されたテキストの結果として分析を取得する方法の例です。

全体として、音声認識のための音声フレームワークの機能を研究し、音声認識のヒントを与える方法を学び、分析の機能をすばやく調べました。

そして最後に重要なのは、オフライン作業です。私が最初に話したいのは、音声合成のためのオフライン言語のリストです。ドキュメントのどこにも、オフラインで作業するために音声を明示的にダウンロードする方法についての言及は見つかりませんでした。レポートとドキュメントの両方で、これらの音声はダウンロードできると書かれていますが、書かれていません。

システムを検索したところ、[設定]、[アクセシビリティ]セクション、[口頭コンテンツ]、[音声]の順に移動すると、最初に、使用可能な言語のリストが表示されることがわかりました。次に、特定の言語に切り替えることで、新しい音声をダウンロードできます。

そして、そのリストは、AVSpeechSynthesisVoice.speechVoicesがアプリケーション内で返すものと明確に一致します。これは、ユーザーがテキストツースピーチをオフラインで使用するために必要な言語をダウンロードできることをユーザーに教えることができることを意味します。

認識のためのオフライン言語のリスト。ドキュメントのどこにも明示的に示されていませんが、さまざまなフォーラムと私たちが遭遇したものから判断すると、これはインターネットにアクセスせずにオフラインで作業できる言語とロケールのリストです。

オフライン認識は、A9チップ以前のデバイスで使用できることに注意してください。

今、楽しい部分が来ます。音声認識用のオフライン言語のリスト。合成とは異なり、一般的に自分で言語を明示的にダウンロードする方法はありません。標準キーボードに言語を追加すると、その言語のオフラインパッケージをダウンロードできます。残念ながら、これは決定論的ではありません。 [設定]> [一般]> [キーボード]> [ディクテーション]に移動しましょう。たとえば、スペイン語を追加しました。その後、「ディクテーション」の下に、これらの言語でディクテーションが利用できる可能性があるという小さなヒントが表示されます。そこにスペイン語が登場しました。

それから私は私たちのアプリケーションに行き、インターネットをオフにしました、そして私のスペイン語でのオフライン認識がうまくいきました。

残念ながら、これは間接的にしか影響を受けません。唯一の方法は、標準のキーボードに言語を追加することです。ただし、これはオフライン認識パッケージがダウンロードされることを保証するものではありません。

iOSでは、電話でインターネットにアクセスできる場合でも、もちろん、認識が可能な場合は、デバイスの電源を入れて音声認識を行うことができます。

supportOnDeviceRecognitionプロパティがあり、iOS 13以降で使用できます。ただし、このプロパティは正しく機能しません。右下にエラーのスクリーンショットを示しました。バグは13.2でのみ修正されました。プロパティは、最初の要求で常にfalseを返します。 Appleによると、数秒後に正しい値が返されます。

さらに、このプロパティはfalseを与える可能性がありますが、同時にrequiresOnDeviceRecognitionフラグをtrueに設定すると正常に機能します。これは、このテストフラグがfalseを返した場合でも、認識がデバイス上で完全に機能することを意味します。

ここにはいくつかの解決策があるかもしれません。まず、iOS13.2でのみオフライン認識を行うことができます。次に、特定の秒数を選択して、このプロパティを再要求し、ユーザーインターフェイスを更新できます。そして第三に、このプロパティを忘れることができます。オフラインで音声を認識してみてください。エラーが発生した場合は、ユーザーに表示してください。

オフライン音声合成パッケージを明示的にダウンロードする方法を検討し、iOSにオフライン音声認識パッケージをダウンロードさせる方法を見つけました。

これで、音声の合成と認識をアプリケーションにすばやく追加する方法がわかりました。私はすべてを持っています、あなたの注意に感謝します。

<あなたのiOSアプリ>に話をさせましょう。Yandexレポート

More articles: