前書き
チャットボットと仮想アシスタントサービスを研究しているアナリストは、少なくとも年間30%の市場成長を約束しています。絶対的には、2019年の時点で、市場は年間20億ドル以上と評価されていました。事実上すべての世界をリードするIT企業が仮想音声アシスタントをリリースしており、Apple、Google、Amazonはすでにその普及の大部分を行っています。
ロシア市場にも、この分野で独自のリーダーがいます。 Yandexは、ロシアで独自の音声アシスタントを立ち上げた最初の主要プレーヤーになりました。同社が公式に発表したデータによると、アリスは月に4,500万人のユーザーに使用されており、アシスタントへの月間リクエスト数は10億を超えています。専門家によると、2020年は音声アシスタント市場のターニングポイントになる可能性があります。プラットフォームとブランド間の競争により、アシスタントの認知度が高まります。 ..。
一般的に、音声アシスタント市場が興味深いニッチであることは間違いありません。そして、頭に浮かぶ最初のアイデアは、利用可能なASR(自動音声認識)およびTTS(テキストから音声)サービスのいずれかを取得し、NLU(自然言語理解)をサポートするボットコンストラクターにリンクすることです。これで完了です。さらに、これはすべて、TwilioやVoxImplantなどのクラウドプラットフォームに非常に簡単かつ迅速に実装できます。
唯一の問題は、結果が非常に平凡になることです。これの理由は何ですか?まず、かなり優れたテクノロジーを組み合わせて、このような平凡な結果が得られる理由を理解してみましょう。これは重要です。実生活では、クライアントは常に、音声サービスが他のサービスよりも便利で、面白く、スマートで、高速なサービスを優先します。
典型的な音声アシスタントのしくみ
まず第一に、私たちのスピーチは一連の音であることに注意してください。次に、音は、さまざまな周波数の音の振動(波)の重ね合わせです。物理学からわかるように、波は2つの属性(振幅と周波数)によって特徴付けられます。
音声信号
アシスタントの作業アルゴリズム:
- , , – . , «», .. .
, , , - . ( ), «» . , , — , — . , , . , , , , .
, , , , . , ASR .
, – . , .
, . - 最初の段階で取得された音声アシスタントの作業の結果は、インテント、エンティティの識別、スロットの充填、および応答テキストの形成をNLUでサポートして、ボットに送信されます。
その結果、出力で、応答フレーズのテストプレゼンテーションが得られます。これは、受信した要求に対する音声アシスタントの反応です。 - 音声アシスタントの応答は音声合成サービスに送信され、音声合成サービスはその後その人に音声で送信されます。
新たな問題
実装されたアプローチの明白な正しさにもかかわらず、音声アシスタントの場合、それは多くの問題を抱えています。主なものは次のとおりです。
- 遅延
- 遅延
-
. , , 500 , .
, 1 . - « » : «!» « ?». , , , , -, .
, :
- . – « »: , , .
- .
- .
- .
!
- . , .. . . , , , .. .
- . , . , , – .
- – . . , .
:
— ?
— . , ? ?
– « » : « » « ». « » , « » « ». - -. .
:
— ---… ---…
— , , … --…
— , , --… , …
, .. , , . .. , . - , TTS-.
?
まず、音声アシスタントを実装するときは、対話者が「耳を傾ける」ことを確認する必要があります。仮想アシスタント自身が発信メッセージを発声する瞬間に。聞くか応答するかの選択は非常に貧弱な実装であり、実際には避ける必要があります。
次に、すべてのシステムコンポーネントの速度を最適化する必要があります。ただし、ある時点で、待ち時間の短縮と自然言語処理シナリオの複雑化の限界に確実に遭遇するでしょう。したがって、音声サービスの実装方法を根本的に変える必要があることを理解しています。
新しいアプローチの背後にある主なアイデアは、人間の脳によって実装されたプロセスから例をとることです。人が会話の過程で、対話者が言ったメッセージを、完全に終了した瞬間ではなく、ほとんどすぐに、その音の最初の段階で分析し始め、新しい単語ごとに明確になっていることに気づきましたか?このため、対話者がメッセージを終える前であっても、私たちはしばしば答えを出す準備ができています。
音声仮想アシスタントが実装する必要のあるアルゴリズムに戻ると、次のようになります(説明のために、「最寄りのATMはどこですか?」という質問を検討してください)。
- ASR , . .
:
a) «»
b) «»
c) «»
d) «» - , ,
:
a) «»
b) « »
c) « »
d) « » - , NLU, .
:
a) : «». :
b) : « ». : « » 50%, « » 50%
c) : « ». : « » 50%, « » 50%, « » = « »
d) : « ». : « » 100%, « » = « »
- , 1 , , , , :
- ;
- ;
- , .. 3.
, , ( – = 0%).
, . , , , , , . - ユーザーがメッセージを終了したことが明らかになると(入力ストリームの遅延によって決定されます)、検出された可能性が最も高いインテントに対応する応答を出力バッファーにダンプします。さらに良いことに、速度を最適化するには、応答のテキスト表現ではなく、TTSから受信したオーディオフラグメントをすぐに出力バッファに保持して、応答オーディオメッセージのフルバージョンを蓄積します。
- 出力バッファの内容をユーザーに通知します。
アシスタントの仕事の質を向上させる方法
音声仮想アシスタントの品質をさらに向上させるために利用できる方法を見てみましょう。
-
. , . , (/ , ..) . - «»
«» , , . , «» .
, «» , , . -
, , . .. , , , . , , , . , .. -
, -. .
, , « ». – , . , , . -
, . , .. . -
, , . , , , . , .
. online.
-
これまで、仮想音声アシスタントの実装の技術的機能のみを検討してきました。しかし、成功は必ずしも技術的な実装の完成度だけに依存するわけではないことを理解する必要があります。すでに検討した例を分析してみましょう:「最寄りのATMはどこですか?」音声インターフェイスでの実装の特徴を理解します。
ご存知のとおり、セールスマネージャーには「電話で販売できないものは電話で販売してはならない」というルールがあります。このため、「最寄りのATMは...にあります」というフォームの回答は、人にとって有益ではありません。彼が今いる地域をよく知っていれば、つまり彼が近くのすべての通りの名前と家の番号を知っていれば、おそらく彼は最寄りのATMがどこにあるかを知っていただろう。したがって、そのような答えは、おそらくすぐに別の質問の形成を引き起こすでしょう:「それでは、アドレスはどこに名前が付けられているのですか?」より有益な答えは、「最寄りのATMは、南東方向にあなたから約100メートルのところにあります」というオプションです。さらに良いのは、YandexやGoogleの地図上の場所のようなメッセージを人に送信することです。
ここでの普遍的なルールはこれです-情報をさらに使用するために別の知覚チャネルに転送する必要がある場合、このオプションは、音声インターフェイスのフレームワーク内で直接実装するための残念な選択です。答えを聞き取りやすい形に作り直す必要があります。
多くのサービスでは、音声アシスタントのフレームワーク内での実装が一般的に最も成功したソリューションです。たとえば、ストレスの多い状況にある場合、原則として、チャットのテキストで問題を集中してすばやく説明することは困難であり、彼は常にすべてを音声で表現することを好みます。これは、仮想音声アシスタント内で実装するビジネスケースを選択する際の重要な基準になる可能性があります。
「音声」を実装する場合の2番目の明白な選択は、このスコアに法的な制限がある場合(たとえば、車の運転中、テキスト通信を実行することは禁止されている)、または他の通信チャネルを使用することが単に不便な場合(たとえば、作業中)にそれらを使用する必要があることです。または人の手が単に忙しいときにスポーツをする)。
完璧さの境界はありません
ユーザーが非常に特定のタスクを解決するために非常に特定の機能を必要とする場合、音声は他のどのインターフェースよりも便利です。何故ですか?非常に簡単です。このような状況では、サイトが読み込まれるのを待つ、ページをスクロールする、アプリケーションメニューを検索する、ボタンを押すなどの必要があります。すばやく話す音声コマンドよりも常に不便です。ウェブサイトとアプリケーションは多機能です。そして、これは同時に彼らの長所と短所です。音声スキルは、「今ここ」の機能に合わせて調整する必要があります。
音声コマンドに他のインターフェイスでの追加のアクションを伴う必要がある状況は避ける必要があることを覚えておくことが重要です。そうしないと、音声チャネルが機能しなくなります。読む必要があるため、アイフリーの原則に違反します。それでも何かをクランプする必要がある場合は、ハンズフリーです。
もう1つの重要な推奨事項は、人に話すことを教えようとしないことです。彼は私たちがいなくても完璧にそれを行うことができます言語はすでに馴染みのある理解しやすいインターフェースです。悪いスタイルの実例:「このメッセージをもう一度聞くには、もう一度聞いてください」と言います。あなたと私は普通の生活ではそのように話しません。そうじゃない? 「メッセージをもう一度聞くのか、それとも次のメッセージに行くのか」と尋ねたほうがよいでしょう。
自由回答形式の質問を完全に回避するために、音声起動の仮想アシスタントを実装することをお勧めします。対話者に特定のアクションを指示することをお勧めします。アシスタントがナビゲーターまたは推奨システムとして機能する場合に特に役立ちます。音声アシスタントは、人にあまり多くの情報を尋ねるべきではありません。会話が進むにつれてそれをチェックしてください。
そして最後に、パーソナライズはおそらく既存の音声ダイアログインターフェイスに欠けている主なものであることに注意したいと思います。これがなければ、多かれ少なかれ長い対話を行うことは不可能です。アシスタントは、対話者、構造に関するデータを収集し、受け取った情報を確認する必要があります。会話のスレッドを失わないようにし、会話のコンテキストを維持および考慮に入れることが重要です。大事です。そうしないと、アシスタントは短くてかなり単純なクエリしか実装できず、その結果、音声アシスタントがユーザーと通信するときに、真に活発な対話を開始できなくなります。