技術の世界は新しい誇大宣伝-GPT-3を受け入れました。

巨大な言語モデル（GPT-3など）は、その機能でますます私たちを驚かせます。そして、それらに対するビジネスの信頼は、それらを顧客に提示するのに十分ではありませんが、これらのモデルは、自動化の開発と「スマート」コンピューティングシステムの機能を加速するインテリジェンスの始まりを示しています。GPT-3から謎のオーラを取り除き、それがどのように学習し、どのように機能するかを調べてみましょう。

訓練された言語モデルはテキストを生成します。モデルの入力にテキストを送信して、出力がどのように変化するかを確認することもできます。後者は、大量のテキストを分析することにより、トレーニング期間中にモデルが「学習」したものから生成されます。

学習は、大量のテキストをモデルに転送するプロセスです。GPT-3の場合、このプロセスは完了しており、表示されるすべての実験は、すでにトレーニングされたモデルで実行されています。トレーニングには355GPU年（1枚のグラフィックカードで355年のトレーニング）かかり、460万ドルかかると見積もられました。

02-gpt3-training-language-model