- 対話システムによって生成されたテキストは、「常識」に対応しています。
- システムの応答は、対話のコンテキストと人の期待に一致します。
- 対話における人の発言の目標、意図を理解する。
対話者の発言の意味はさまざまな方法で解釈でき、理解の状態がどの解釈に対応すべきかが明確でないため、意味を理解することは、対話の文脈を理解するというトピックに完全に帰することはできません。対話者(人)の意見における「誤り」は、システムによる表現の意味の異なる理解として解釈できますか?より広い範囲で、意味を理解することは、ステートメントの意図と目標を理解することを意味し、これは心の理論の別のトピックです。理解の基準としての「常識」は、より正確に解釈することができます。一般的な意味で、これは検証可能な世界の絵への答えの対応です。そして今日、これは対話ボットなどの人工エージェントによる対話のコンテキストを理解するための最良の基準です。しかし、これまでのところ、ボットはこれで成功を示していません。
アプローチの分析
関連する答えは、ボットが対話者(人)を理解するための最も簡単な基準です。しかし、この基準は簡単に「偽造」され、ローブナー賞の参加者によって何度も実証されています。これは、ニューラルネットワークによって認識される「インテント」に多数の可変応答テンプレートを配置することによって実現されます。この理解を呼ぶのは難しいです。しかし、そのようなボットの成功も控えめです-彼らは混合意図を非常に不十分に認識します。テンプレートの外に1つの質問があり、システムが失敗します。 YandexのAliceやAppleのSiriなどのボットでこれを確認するのは簡単です。そのようなシステムに関する世界の知識は断片的であると言えます。
別の方法は、質問への回答を得るために、世界に関するすべての知識をカバーするオントロジーを構築することです。これは、オントロジーブランチで質問を識別し、それに埋め込まれた知識に基づいて正しい答えを構築する機能によって実現されます。オントロジーは、世界の全体像をオントロジーでカバーしていると主張しています。このアプローチは、CYCやABBYYComprenoなどのプロジェクトで使用されています。これで、「理解」の問題を解決するこの方法は失敗したと言えます。開発エンジニアによるこのようなオントロジーの数十年にわたる手動構築では、単純な子供の質問でも失敗しないオントロジーを構築することはできませんでした。オントロジーの問題は、主に言語と同義性の比喩的な性質に関連しており、オントロジーのツリーのような「論理的」構造に一貫して置くことはできません。同じ試みには、FrameNetプロジェクト(Fillmore)が含まれます。世界の事実を反映するためのセマンティックフレームに基づくシナリオの構築で構成されます。しかし、同じ理由で、プロジェクトを開発することができませんでした。そのようなシステムは、限られた語彙で比喩のメカニズムを通じて多数の概念を記述する能力としての言語の倹約を実現することができないと言うことができます。
2010年以降、ニューラルネットワークに重点が置かれるようになりましたが、トレーニングセットに存在した世界像の枠組み内でのみ仮定を行うことができるという点で制限されています。 OpenAIプロジェクトのGPT-3(2019年2月)などのネットワークは、Transformerアーキテクチャ(数十億の単語でトレーニングされた生成ネットワーク)に基づいて構築され、文法的に正しい「人間」のテキストを生成します。これは完全に無意味であり、完全な誤解を示しています。以下の例のように「常識」。
例:
あなた:オオカミの目はいくつありますか?
GPT-3:オオカミには4つの目があります。
あなた:なぜ4つ?
GPT-3:2つは暗闇の中で見るためのものです。
あなた:なぜ2つですか?
GPT-3:オオカミは食べ物の準備ができているかどうかを確認する必要があります。
あなた:そして、人間の目はいくつありますか?
GPT-3:人間には2つの目と2つの耳があります。
あなた:そして、草の葉を持っている目はいくつありますか?
GPT-3:草の葉には、片方の目と片方の耳があり、見たり聞いたりすることができます。
あなた:なぜ1つですか?
GPT-3:踏まれないようにするため。
そのようなシステムは、教育テキストに見られなくても、どんな質問に対しても声明を出すことができると言えますが、世界の絵に対応する「常識」の事実を構築することを保証することはできません。
Yejin Choi(1)によって設立されたCOMETのような組み合わせたアプローチがあり、原子世界の事実の「手書きの」知識ベースを使用して、事前にトレーニングされた言語モデルGPT-2を再トレーニングしました。その結果、ネットワークは、AtomicとGPTトレーニングセットの両方に存在しない、はるかにもっともらしい事実を生成し始めました。しかし、そのようなプロジェクトの成功も、保証された答えがないため、これまでのところ控えめです。
興味深いのは、DeepMindシステムです。これは、ニューラルネットワークに加えて、事実(または経験)の外部メモリを備えており、環境でアクティブになってその結果を記録するだけで、教師なしで「ゲームのルール」を学ぶことができます。そして、このようにして、お互いに遊んでいても学ぶことができ、Goのようなゲームでも人間のプレイヤーを打ち負かすことができました。これは現在、ゲームの「世界を理解する」エージェントを構築する際の主流と見なされています。しかし、そのような自己学習システムのアーキテクチャでは、白黒の小石のゲームや原始的なコンピュータゲームのアタリよりも複雑な現実にスケーリングすることはできません。教える方法には明らかに複雑さの技術的限界があります。このようなシステムは、システムリソースを節約するために、知識を使用して新しい知識を構築するのではなく、「世界の絵」を作成すると言えます。したがって、貧しい環境でも学ぶにはあまりにも多くのリソースが必要です。
概要
では、実用的な観点から、人工システムの「理解」とは何でしょうか。一般的な答えは、エージェントは知識を持っている必要があるということです。同時に、経験が示すように、包括的な知識を構築することは不可能です。もう1つの答えは、システムの応答の一貫性です。しかし、ご覧のとおり、巨大なテキストでトレーニングされたシステムは、生成するステートメントの論理性に違いはありません。
AIシステムによる理解とは、この世界の事実に関する断片的な知識から、世界の絵についてのもっともらしい仮説を立てる能力を意味します。そしてお金を節約するために、システムは限られた言語を使用して無限の数の事実を記述することができなければなりません。それは比喩のようなメカニズムによって達成されます。ただし、現時点では、このメカニズムはプログラムコードで具体化できるほど十分には知られていません。利用可能なメタファーの概念は、概念的なメタファーやブレンドなど、アルゴリズム的に固有のものではありません。数学はまだそれらに適用できませんが、著者の仕事はこの方向で実行されます。
著者によると、そのような完成は、人工システムが理解する能力の主な基準です。たとえばチェスのように「世界の絵」が限られている場合、知識を生み出すためのアルゴリズム、つまり可能な動きを明示的に定めることができるので、チェスはこれまで出会ったことのない作品の配置に自分自身を向けることができます。しかし、ルールが何桁も多い現実の世界でこれを行う方法は、著者の研究の主な方向性を構成するものがまだわかっていません。
書誌
1.常識がコンピューターに近づく、Quantamagazin、2020年4月30日