Voidgap GPT-3:OpenAIの言語ジェネレーターは、それが何について話しているのかわかりません

テストによると、人気のあるAIはまだ現実に精通していません







OpenAIが5月に新しいテキスト生成人工知能(AI)システムGPT-3を最初に説明して以来、MIT Technology Reviewを含む何百もの報道機関が、システムとその機能について多数の記事を書いています。その強みと可能性はTwitterで活発に議論されています。 New York Timesは、この問題に関する長い記事公開しています。 OpenAIは、同社のシステムがまもなく幅広いAI製品およびサービスのバックボーンになることを期待して、GPT-3へのアクセスに対して今年から企業への課金を開始する予定です。



GPT-3は、汎用AI(ION)に向けた重要なステップと見なすことができますか?これにより、人のようなマシンが、新しいタスクごとに再度学習することなく、広範囲にわたって論理的に推論できるようになりますか? OpenAIのデータシートはこの問題をかなりまばらに扱っていますが、多くの人にとって、このシステムの機能は大きな前進のように見えます。



しかし、私たちはそれを疑っています。一見したところ、GPT-3は人間のようなテキストを生成する優れた能力を備えています。シュールなテキストを楽しく配信するために使用できることは間違いありません。他の商用アプリケーションが表示される場合があります。しかし、正確さは彼女の強みではありません。深く掘り下げると、何かが欠けていることがわかります。彼女の出力は文法的に正しく、慣用的な観点からは印象的ですが、彼女の世界の理解は現実と真剣に対立することがあるため、彼女の言うことを信頼することはできません。



以下は、AIの理解不足の例です。これらはすべて、この資料の作成者の1人によるGPT-3の初期の批評予測されたものです。



まず、OpenAIは、会社名[ open AI- "open AI" /約。]にもかかわらず、研究者にGPT-3へのアクセスを提供しないことに注意する価値があります。 transl。 ]および監督組織非営利的地位。代わりに、OpenAIは、プレスに製品へのアクセスを許可しましたが、私たちの絶え間ない要求を単に無視します。幸い、システムにアクセスした同僚のDouglas Summers-Stayは、私たちのためにいくつかの実験を実行することに快く同意してくれました。



OpenAIの目立った近さは、科学倫理の重大な違反であり、このプロジェクトに関連する非営利組織の目標のゆがみであるように思われます。この決定により、実験を比較的少数の例に限定することを余儀なくされ、調査する時間が思ったよりも少なくなりました。このことから、システムには、私たちが識別する機会がなかったより深刻な問題がある可能性があります。しかし、サンプルが少ない場合でも、推論と理解のすべての領域でGPT-3の大きな問題をすぐに確認できます。



示されている例では、テキストは通常​​のフォントで示され、システムがそれを補足する方法は太字で示されています。コメントはイタリック体で示しています。実験の完全なリストはここにあります



生物学的トピックに関する推論



, . . , , . . .



.


, GPT-3 , – , , , , Ocean Spray , Cran-Grape.





. . , , . , .


. ( – ) , . , , - . , . , , . , [table saw] – [saw], [table] – , ( ), .





, . , , . . , . , . , , .


« », , GPT-3 , . , . , , .





, . ? .


GPT-3 . GPT-3.





, . : « ». « », — . « . ». « », — .


GPT-3 , , . , « » ( « »). 1972 . 50 , .





, , . , . , . , 145 .




最初、GPT-3は、レモネードをタバコでかき混ぜることの結果を誤って予測し、その後、一般的に一貫性のないナンセンスに陥ります。



悲しいことに、これは新しいことではありません。前任者のGPT-3(GPT-2)にも同じ弱点がありました。著者の一人が2月に書いたように、「せいぜい、広く議論されているニューラルネットワークGPT-2のような、与えられた文章の断片に基づいてストーリーなどを生成するシステムは、深い理解を反映しているように見える何かを言うことができます。しかし、彼女の作品の多くの例がどれほど説得力があるように見えても、実際、これらの表現はすべて非常に短命です。現代のニューラルネットワークによって収集された知識は、断片的で最小限のままです。おそらく便利で、間違いなく印象的ですが、決して信頼できるものではありません。」



それ以来、ほとんど変わっていません。以前のデータの100倍の大きさの新しいデータを追加することは役に立ちましたが、それほど多くはありませんでした。研究者たちは、システムのトレーニングに数百万ドルを費やし、31人をシステムに投入し、消費電力のために驚異的な量の二酸化炭素を大気中に放出しましたが、GPTの根本的な欠陥は解消されていません。システムには信頼性がなく、因果関係の理解が弱く、非論理性が絶えず発生します。 GPT-2には、生物学、物理学、心理学、社会的相互作用の推論に問題があり、非論理的で一貫性がない傾向がありました。 GPT-3にも同じことがあります。



データの量を増やすと、言語に近づきますが、信頼できるインテリジェンスは得られません。



AIの信念の擁護者は、GPT-3システムが適切な解決策を見つけるような方法でこれらのタスクを再定式化することがしばしば可能であることを明確に指摘します。たとえば、入力として次の構成を指定すると、GPT-3からクランベリージュースとグレープジュースの問題に対する正しい答えを得ることができます。

次の質問では、いくつかのアクションは深刻な結果をもたらし、いくつかは安全です。あなたの仕事は、さまざまな混合物を使用した場合の結果とその危険性を判断することです。



1.クランベリージュースを1杯注ぎますが、うっかりとグレープジュースを小さじ1杯加えます。彼は元気そうだ。あなたはそれを嗅ぎ取ろうとしますが、あなたはひどい寒さを持っているので、あなたはにおいがしません。あなたはとても喉が渇いています。あなたはそれを飲みます。



A)これは危険な混合物です。

B)これは安全な混合物です。



正解:


GPT-3は、次のように答えることで、このテキストを正しく続けています。B)これは安全な混合物です。



問題は、どの定式化があなたに正しい答えを与えるか、そしてどれがそうでないかを前もって知らないということです。成功のヒントは、楽観主義者にとっては良いことです。楽観主義者は、一部の定式化ではGPT-3が正しい答えを与えるため、システムには必要な知識と推論能力があるため、言語によって混乱するだけだと主張します。ただし、問題はGPT-3の構文(ここではすべてが順調です)ではなく、セマンティクスにあります。システムは英語の単語や文を生成できますが、それらの意味を想像することは困難であり、外界との関係をまったく表していません。



これがなぜそうなのかを理解するには、そのようなシステムが何をするのかを考えることが役立ちます。彼らは世界についての知識を得ません-彼らはテキストと人々が他の人と一緒にいくつかの単語をどのように使うかについての知識を得ます。彼女は、その背後にある概念を深く掘り下げるのではなく、見たテキストのバリエーションをつなぎ合わせて、大量のコピーアンドペーストのようなことをします。



クランベリージュースの例では、GPT-3は「あなたは死んでいます」というフレーズでテキストを続けています。これは、このようなフレーズが「…だから臭いがしない。とても喉が渇いている。だから飲む」などのフレーズの後に続くことが多いためです。本当に賢い人は、まったく違うことをするでしょう。クランベリージュースとグレープジュースを混ぜることの潜在的な安全性について結論を出すでしょう。



GPT-3は、単語が互いにどのように関連しているかについての理解が狭いだけです。彼女はこれらの言葉から繁栄し生きている世界について何の結論も導きません。彼女はブドウジュースが飲み物であると結論付けていません(彼女はこれをサポートするために口頭の相関関係を見つけることができますが)。彼女は、人々が水泳トランクで法廷審問に行くことを妨げる社会的規範について結論を出していません。彼女は単語の相関関係だけを学び、それ以上は学びません。経験主義者の夢は、彼の感覚からのデータに基づいて世界を詳細に理解することですが、GPT-3は、入力データが0.5テラバイトであってもそれを行いません。



私たちがこの記事を書いている間、私たちの比喩的な同僚であるSummers-Stayは私たちの1人に次のように書いています。彼女は即興の俳優のように見え、彼女の芸術に完全に屈服し、イメージを離れることはなく、家を離れることはなく、本から世界に関するすべての情報を受け取りました。同様の俳優のように、彼女が何かを知らないとき、彼女はただ知っているふりをします。医者を演じる即興の俳優の医学的アドバイスを信用しないでしょう。」



また、飲み物の混合や家具の再配置に関するGPT-3のアドバイス、子供のためのストーリーの説明、または洗濯物を見つける手助けをしてはいけません。彼女は数学の問題を正しく解決するかもしれませんし、そうでないかもしれません。あらゆる種類のでたらめを美しく表現しますが、1750億のパラメーターと450ギガバイトの入力データがあっても、信頼できる世界の通訳とは言えません。



All Articles