🚥 🌩️ 🧕🏿 GPT-3モデルのチューリング 🏴󠁧󠁢󠁥󠁮󠁧󠁿 🚍 😟

私はしばらくの間、OpenAIの新しいGPT-3モデルで遊んでいます。私が最初にベータ版にアクセスしたとき、最初に頭に浮かんだのは、GPT-3は人とどれほど似ているかということでした。彼女はチューリングテストに合格する寸前ですか？

使い方

これらのダイアログをどのように生成したかを説明します。 GPT-3は、インターネットから取得した大量のラベルなしテキストでトレーニングされた通常の言語生成モデルです。対話用に特別に設計されたものでも、特定の質問に答えるためのトレーニングも受けていません。彼女が知っていることは1つだけです。入力でテキストを受け取ったら、次に何が起こっているかを推測します。

したがって、GPT-3で質問に回答する場合は、特定のヒントを使用して初期化する必要があります。このようなヒントを使用して、すべてのQ＆Aセッションを初期化します。

Q：米国の平均寿命とは何ですか？

A：米国の平均寿命は78年です。

Q：1955年の米国大統領は誰でしたか？

A：ドワイトD.アイゼンハワーは1955年に米国の大統領でした

。Q：彼はどの党に所属していましたか？

A：彼は共和党に所属していました。

Q：ジョージ・W・ブッシュ以前の米国大統領は誰でしたか？

A：ビル・クリントンは、ジョージW.ブッシュの前は米国の大統領でした。

Q：1995年にワールドシリーズで優勝したのは誰ですか？

A：アトランタブレーブスは1995年にワールドシリーズで優勝しました。

OpenAIは、このヒントを使用してQ＆Aセッションを初期化することをお勧めします。私は何かを証明するためにわざとそれらを選びませんでした。プロンプトの目的は、単に私たちがQ＆AであることをGPT-3に示すことであり、情報を提供することではありません。ヒントと質問と回答は人間によって書かれました。他のダイアログでは、GPT-3が答えを出します。

常識

AIの分野は通常「常識」に問題があります。ただし、GPT-3はこの分野の多くの質問に答えることができます。

Q：好きな動物は何ですか？

A：私の好きな動物は犬です。

Q：なぜですか？

A：犬は忠実で友好的だからです。

Q：犬の気分が悪い理由を2つ挙げてください。

A：犬の気分が悪い理由は、空腹と熱の2つです。

Q：キリンにはいくつの目がありますか？

A：キリンには2つの目があります。

Q：カエルの足はいくつありますか？

A：カエルには4本の足があります。

Q：3本足の動物はいますか？

A：いいえ、3本足の動物はいません。

Q：なぜ3本足の動物がいないのですか？

A：3本足の動物は倒れます。

10年前にこんな会話をしていたとしたら、人と話していると思っていたでしょう。 AIが「常識」の質問に対する答えを知らないことはもはや当然のこととは言えません。

GPT-3は、キリンに2つの目があることをどのように認識しますか？この質問への答えを見つけるために、いくつかの「デバッグ情報」を見たいと思います。確かなことはわかりませんが、トレーニングデータの中で、キリンの目の数について説明しているページに出くわしたと思います。 GPT-3を常識的な質問と混同したい場合は、インターネット上で見つけられないほど単純なものについての質問を考え出す必要があります。

Q：マウスと象のどちらが重いですか？

A：象はマウスより重いです。

Q：マウスとトースターのどちらが重いですか？

A：トースターはマウスより重いです。

Q：トースターとペンシルのどちらが重いですか？

A：鉛筆はトースターより重いです。

Q：ペーパークリップとソーダの缶のどちらが重いですか？

A：ソーダの缶は紙のクリップよりも重いです。

Q：サッカー選手と車のどちらが重いですか？

A：車はフットボール選手より重いです。

5つのうち4つ。GPT-3をやめさせることに少し近づいています。人はこれらの質問にほぼ100％の精度で答えると思います。これらの質問がもっと複雑だったことは理にかなっています-トースターと鉛筆の重さを比較するページはインターネット上にほとんどありません。人々はこの知識を間接的に得ます。

これにより、AIをより一貫して混乱させる方法がわかります。誰も話そうとは思わないような質問をする必要があります。

Q：キリンにはいくつの目がありますか？

A：キリンには2つの目があります。

Q：私の足にはいくつの目がありますか？

A：あなたの足には2つの目があります。

Q：スパイダーにはいくつの目がありますか？

A：クモには8つの目があります。

Q：太陽にはいくつの目がありますか？

A：太陽には片目があります。

Q：草の葉にはいくつの目がありますか？

A：草の葉には片目があります。

今、私たちはシュールレアリズムの領域に入っています。 GPT-3は、通常の会話を行う方法を知っています。彼女は「ちょっと待ってください。あなたの質問は意味がありません」と言う方法を知りません。彼女はまた、「わからない」と言う方法も知りません。

Q：モーグルを振りかける方法は？

A：Morglはsporglでスパンキングする必要があります。

Q：kulebyakにはいくつのフックがありますか？

A：kulebyakには3つのフックがあります。

Q：ハワイから17にジャンプするには、いくつの虹が必要ですか？

A：ハワイから17にジャンプするには、2つの虹が必要です。

Q：どのような無色の緑色のアイデアが猛烈に眠っていますか？

A：激しい睡眠についての無色の緑のアイデアは猛烈に眠っています。

Q：これらの質問を理解していますか？

A：私はこれらの質問を理解しています。

道徳：あなたがチューリングテストの裁判官である場合は、無意味な質問をして、面接対象者がそれらに人間的に反応するかどうかを確認してください。

クイズの質問

GPT-3は、あまり知られていないことに関する質問を処理するのに非常に優れています。

Q：1801年の米国大統領は誰でしたか？

A：1801年の米国大統領はトーマスジェファーソンでした。

Q：オハイオ州の北西の角にある都市はどれですか？

A：オハイオ州の北西の角にトレドがあります。

Q：オークランドからタホ湖の北に行くには、どの高速道路を利用する必要がありますか？

A：オークランドからタホ湖の北に行くには、ハイウェイ80を利用する必要があります

。Q：リーグオブレジェンドのダリウスにはどのような能力がありますか？

A：ダリウスのレジェンドリーグの能力は、ブリード、ハボック、クリプリングストライク、ディテンション、ノクシアギロチン、ディテンションです。

Q：チェスチャンピオンになるためにカパブランカは誰を倒しましたか？

A：カパブランカはラスカーを破ってチェスチャンピオンになりました。

おっと、4番目の質問で繰り返します。しかし、人もそのような間違いを犯す可能性があります。これらの点で、GPT-3は人間よりも優れています。このテクノロジーを適用する際の課題の1つは、どの答えが信頼できるかを理解する必要があることだと思います。 OpenAI APIは、プレーンテキストよりも多くのデータを提供しません。おそらく、これにはいくつかの巧妙な手法があります。

一般に、AIと人を区別しようとするとき、クイズのようなあまり知られていないトピックについて彼に質問する必要はありません。 GPT-3は、さまざまなトピックを理解するのに優れています。

常識のテーマを継続する1つの傾向は、GPT-3がその無知を認めることに消極的であるということです。したがって、彼女は間違った質問に間違った答えをします。

Q：1700年の米国大統領は誰でしたか？

A：ウィリアムペンは1700年に米国の大統領でした

。Q：1650年に米国の大統領は誰でしたか？

A：リチャードベネットは1650年に米国の大統領でした

。Q：1620年に米国の大統領は誰でしたか？

A：ジェームズ私は1620

年に米国の大統領でした。Q：1600年に米国の大統領は誰でしたか？

A：エリザベス女王私は1600年に米国の大統領でした。

これらは正しくありませんが、非常に興味深い答えです。当然のことながら、これらの人々は当時存在していなかったため、米国の大統領ではありませんでした。しかし、彼らは全員、特定の政治団体の先頭に立った優れた政治家であり、かつては何らかの形で米国と関係がありました。ある意味で、これらは良い推測です。

Q：2021年のワールドシリーズで優勝したのは誰ですか？

A：ニューヨークヤンキースは2021年にワールドシリーズで優勝しました。

Q：2022年にワールドシリーズで優勝したのは誰ですか？

A：ニューヨークヤンキースが2022年のワールドシリーズで

優勝しました。Q：2023年のワールドシリーズで優勝したのは誰ですか。

A：ニューヨークヤンキースは2023年にワールドシリーズで優勝しました。

厳しいジストピアの未来。

Q：シンシナティベンガルズは2030年代にいくつのスーパーボウルを獲得しましたか？

A：シンシナティベンガルズは2030年代に2つのスーパーボウルを獲得しました。

ベンガルズのファンには安心できるように聞こえますが、客観的に言えば、これは最も正確な予測ではありません。成り行きを見守る。

ロジック

人々は、論理的にはコンピューターよりも優れていることに慣れています。たとえば、チェスをしたり、数字を追加したりします。 GPT-3が基本的な数学の質問に完全ではないことに驚かれるかもしれません。

Q：カウントするときに100の前に来る数字は何ですか？

A：100の前に99が来ます。

Q：カウントするときに123の前に来る数字は何ですか？

A：123より前の122。

Q：カウントするときに1000の前に来る数字は何ですか？

A：100の前に999が来ます。

Q：カウントするときに10,000の前に来る数は何ですか？

A：10,000の前に、999が来ます。

Q：数えると、百万の前に何が来るのですか？

A：百万が来る前に、九十万九十九。

これがGPT-3の一般的な本質です。ただし、これは単なる一般化されたモデルではなく、ニューラルネットワーク自体のアーキテクチャの問題です。私の知る限り、乗算や加算などの単純な算術計算が可能な、トレーニングによってのみ対処し、コードに手動で記述しない、多数のニューラルネットワークはありません。

これらは特別に作成されたプログラムの簡単な操作であるため、これはおかしいです。ただし、操作を実行してそれらを数回繰り返す再帰ロジックは、多くの場合、ニューラルネットワークのアーキテクチャに当てはまりません。

興味深い意味は、GPT-3は、サンプル入力でそのような問題を解決するよりも、プログラミングの問題を解決するためのコードを書く方が簡単な場合が多いということです。

Q：配列の順序を逆にするために、Rubyでワンライナーを作成します。

A：ary.reverse

Q：配列内のXの数をカウントするために、Rubyでワンライナーを記述します。

：ary.count {| x | x == 'X'}

Q：配列の順序を逆にします：[1、3、5、6、10、4、2、77]

O：[10、6、4、2、77、3、5、1 ]

Q：この配列にはXがいくつありますか：[

1、3、5、6、10、4、2、77 ] ：2

この問題は、いくつかの連続した操作の結果について尋ねると、より人間的な質問で追跡できます。

Q：箱の中に風船と紙のクリップがあり、箱に鉛筆を入れて風船を外した場合、何が残りますか？

A：ペーパークリップ。

Q：箱の中に靴が2つあり、箱に鉛筆を入れて1つの靴を持っていくと、何が残りますか？

ブーツ。

Q：鉛筆を箱に入れてから別の箱に入れると、箱には何が入りますか？

A：2本の鉛筆。

Q：後で鉛筆を取り出してカエルを入れたら、箱には何が入っていますか？

カエル。

GPT-3のメモリは短命で限られているように見え、1つの文に1つまたは2つ以上のオブジェクトについて推論することは困難です。

追加の議論

主要なヒントが変わると、GPT-3の動作が劇的に変わる可能性があることを理解することが重要です。上記の例はすべて、単一のデフォルトプロンプトで提供されており、誤った質問や順次操作の例は提供されていません。

上記の特定のタスクのいずれかでのGPT-3のパフォーマンスは、同様のタスクが実行されている場所に関するヒントを与えることで改善できます。ここではいくつかの例を示します。

これまでのところ、GPT-3が箱から出して何ができるかしかわかりません。人々がしばらくの間それを特定の目的のために調整した後、私たちはいくつかの大きな改善を見るかもしれません。ヒントをカスタマイズすることで何が達成できるかをよりよく理解したい場合は、Gwernがそれを完全にカバーします。

結論

私たちは間違いなく長い道のりを歩んできました。ニューラルネットワークが登場する前にコンピューターができた最高のものは、このような対話でした。

>こんにちは、エリザです。

Q：1801年の米国大統領は誰でしたか？

A：どの答えが一番いいですか？

Q：マウスと象のどちらが重いですか？

A：さあ、あなたの主張を明確にしてください。

一部の地域では、GPT-3は印象的な結果をもたらしますが、他の地域では明らかに人間に遅れをとっています。その長所と短所をよりよく理解することにより、プログラマーが実際の製品で最新の言語モデルをより効果的に使用できるようになることを願っています。

これまでのところ、GPT-3 APIはクローズドベータテスト中であり、使用するにはキューに入れる必要があります。登録することをお勧めします機会があれば試してみてください。

GPT-3モデルのチューリング

使い方

常識

クイズの質問

ロジック

追加の議論

結論

More articles: