Sberは、オヌプンアクセスで7億6000䞇のパラメヌタヌを持぀ロシア語モデルGPT-3Largeを公開したした

コンピュヌタ技術の分野における過去10幎間は​​、新しい「人工知胜の泉」の始たりによっお特城づけられたした。しかし、今日の業界の状況は、おそらく春ではなく、本栌的な「AIの倏」ず蚀えたす。自然蚀語凊理NLPの分野だけで、過去10幎以内に、2぀の実際の技術革呜がありたした。結果ずしお埗られた2番目のGPT-3モデルは、技術メディアだけでなく、科孊界をはるかに超えお有名になりたした。たずえば、GPT-3はTheGuardianの゚ッセむを曞きたしたAIが人間を脅かさない理由。GPT-3は、詩ず詩を䜜成し、翻蚳を実行し、察話を行い、質問に答えたすが、これらのタスクの実行方法を具䜓的に孊んだこずはありたせん。最近たで、GPT-3のすべおの機胜は、英語を話すナヌザヌだけが理解できたした。私たちSberbankは、この厄介な芋萜ずしを修正するこずにしたした。そしお今、私たちはそれから䜕が起こったのかをあなたに話したす。





画像゜ヌス



自然蚀語凊理における2぀の革呜



NLPの最初の革呜は、監芖されおいない孊習方法を䜿甚しお取埗された、蚀語のセマンティクスのベクトル衚珟に基づくモデルの成功に関連しおいたした。これらのモデルの開花は、トマシュ・ミコロフ博士の孊生であるペシュア・ベンゞオ珟代の深局孊習の創蚭者の䞀人、チュヌリング賞受賞者の結果の発衚から始たりたした。、および人気のあるword2vecツヌル。2番目の革呜は、再発性神経ネットワヌクにおける泚意メカニズムの開発から始たりたした。その結果、泚意メカニズムは自絊自足であり、再発ネットワヌク自䜓がなくおも十分に䜿甚できるこずが理解されたした。結果ずしお埗られるニュヌラルネットワヌクモデルは「トランスフォヌマヌ」ず呌ばれたす。これは、2017幎にGoogleBrainずGoogleResearchの研究者グルヌプによっお曞かれた「AttentionIsAllYouNeed」ずいうタむトルの蚘事で科孊界に提瀺されたした。トランスベヌスのネットワヌクの急速な発展により、OpenAIのGenerative Pre-trained Transformer 3GPT-3のような巚倧な蚀語モデルが生たれたした。倚くのNLP問題を効率的に解決するこずができたす。



巚倧な倉圧噚モデルのトレヌニングには、かなりの蚈算リ゜ヌスが必芁です。最新のグラフィックカヌドを手に取っお、そのようなモデルを自宅のコンピュヌタヌでトレヌニングするこずはできたせん。オリゞナルのOpenAIの出版物では、モデルの8぀のバリ゚ヌションが提瀺されおおり、1億2500䞇のパラメヌタヌを持぀最小のものGPT-3 Smallを䜿甚しお、匷力なテン゜ルコアを備えたプロのビデオカヌドNVidia V100を䜿甚しおトレヌニングしようずするず、玄6か月かかりたす。 1,750億個のパラメヌタヌを持぀モデルの最倧バヌゞョンを䜿甚するず、結果はほが500幎埅たなければなりたせん。最新のコンピュヌティングデバむスをレンタルで提䟛するクラりドサヌビスのレヌトでモデルの最倧バヌゞョンをトレヌニングするコスト、10億ルヌブルを超えたすこれは、関係するプロセッサの数の増加に䌎う線圢パフォヌマンススケヌリングの圱響を受けたすが、これは原則ずしお達成できたせん。



長生きするスヌパヌコンピュヌタヌ



このような実隓は、かなりのコンピュヌティングリ゜ヌスを持぀䌁業だけが利甚できるこずは明らかです。このような問題を解決するために、2019幎にSberbankはクリストファリスヌパヌコンピュヌタヌを皌働させたした。これは、我が囜で利甚可胜なスヌパヌコンピュヌタヌの䞭でパフォヌマンスで第1䜍になりたした。Infinibandテクノロゞヌに基づく超高速バスで接続された75個のDGX-2蚈算ノヌドそれぞれ16個のNVidia V100カヌドを搭茉わずか数時間でGPT-3Smallをトレヌニングできたす。ただし、そのようなマシンの堎合でも、モデルのより倧きなバリアントをトレヌニングするタスクは簡単ではありたせん。たず、マシンの䞀郚は、コンピュヌタヌビゞョン、音声認識ず合成、およびSberbank゚コシステムのさたざたな䌁業が関心を持぀他の倚くの分野の問題を解決するために蚭蚈された他のモデルのトレヌニングで忙しいです。第二に、モデルの重みが1぀のカヌドのメモリに収たらない状況で、同時に倚くの蚈算ノヌドを䜿甚する孊習プロセス自䜓は、かなり非暙準的です。



䞀般的に、倚くの人に銎染みのあるtorch.distributedが私たちの目的に適しおいない状況に陥っおいたした。それほど倚くのオプションがなかったため、NVidiaMegatron -LMの「ネむティブ」実装に目を向けたした。そしお、Microsoftの新しい発案であるDeepSpeedは、クリストファリでカスタムドッカヌコンテナを䜜成する必芁があり、SberCloudの同僚がすぐに助けおくれたした。 DeepSpeedは、たず、モデルの䞊列トレヌニングに䟿利なツヌルを提䟛したした。぀たり、1぀のモデルを耇数のGPUに分散し、GPU間でオプティマむザヌをシャヌディングしたす。これにより、远加のコヌドを山積みするこずなく、より倧きなバッチを䜿甚したり、15億を超える重みを持぀モデルをトレヌニングしたりできたす。



驚いたこずに、その開発における過去半䞖玀にわたる技術は、スパむラルの次のラりンドを説明したした-メむンフレヌム端末アクセスを備えた匷力なコンピュヌタヌの時代が戻っおきおいるようです。䞻な開発ツヌルは、開発者専甚に割り圓おられたパヌ゜ナルコンピュヌタであるずいう事実には、すでに慣れおいたす。 1960幎代埌半から1970幎代初頭にかけお、メむンフレヌムの1時間の運甚コストは、コンピュヌタヌオペレヌタヌの1か月分の賃金ずほが同じでした。これらの時代は氞遠に過ぎ去り、「鉄」は劎働時間よりも氞遠に安くなったように芋えたした。しかし、ハヌドりェアが印象的な埩掻を遂げたようです。珟代の機械孊習スペシャリストの日垞生掻は、ストルガツキヌ兄匟の「月曜日は土曜日に始たる」ずいう話から、サヌシャプリバロフの日垞生掻に再び䌌おいたす。、私たちの堎合の「アルダン」の堎所が「クリストファリ」によっお占められおいるこずず、魔法ず魔術の圹割が深い孊習の方法によっお実行されおいるこずだけが異なりたす。



SberDevicesの経隓から



過去に䜕床も、トランスフォヌマヌに基づく他のモデルを孊ぶ必芁がありたした。これらは、BERTのさたざたな継承者であり、GoogleのT5のような゚ンコヌダヌデコヌダヌモデルです。最新のSberBoxおよびSberPortalから始めお、さたざたなサヌフェス甚にSberDevicesによっお䜜成された仮想アシスタントそしお、通垞のSberbank Onlineアプリケヌションで終わり、ナヌザヌずの通信の過皋でさたざたな問題を解決するために、䜜業でいく぀かの同様のモデルを䜿甚したす。たずえば、仮想アシスタントJoyは、おしゃべりモヌドでGPT-2 Mediumモデルを䜿甚し、ロシア文孊の倧芏暡なコヌパスでトレヌニングされ、特別な察話デヌタセットでトレヌニングされ、最も興味深い回答を遞択するように蚭蚈された特別なランキングメカニズムを備えおいたす。このようなモデルは、事前に準備された回答のラむブラリから手がかりを遞択するのではなく、「オンザフラむ」で独自のフレヌズを䜜成するこずで、ナヌザヌずの䌚話を行うこずができたす。これにより、モデルずのコミュニケヌションがより倚様で楜しいものになりたす。







もちろん、そのような「チャッタヌ」は、マむクロむンテントのシステム最も敏感な質問のいく぀かに制埡された回答を提䟛するように蚭蚈されたルヌルず挑発的な質問をかわすように蚭蚈された別のモデルの圢で保険なしで䜿甚するこずはできたせんが、そのような限られた圢匏でも䜿甚できたす「ゞェネレヌティブ」「チャッタヌ」は、圌の察談者の気分を倧幅に高めるこずができたす。



䞀蚀で蚀えば、Sberbankの経営陣が、GPT-3をトレヌニングするための研究プロゞェクトにコンピュヌティングリ゜ヌスを割り圓おるこずを決定したずきに、倧型の倉圧噚モデルを教えた経隓が圹に立ちたした。このようなプロゞェクトでは、䞀床に耇数のナニットの努力を組み合わせる必芁がありたした。 SberDevicesの䞀郚には、このプロセスにおけるリヌダヌシップの圹割は他のチヌムからの専門家の数の参加を埗お、およびの䞀郚に実隓的機械孊習システム専攻によっお撮圱されたSberbank.AI -でAGI NLPのチヌム。 ChristophariをサポヌトするSberCloudの同僚も積極的にプロゞェクトに参加したした。



AGI NLPチヌムの同僚ず䞀緒に、総量600GBを超えるロシア語のトレヌニングコヌパスの最初のバヌゞョンを組み立おるこずができたした。ロシア文孊の膚倧なコレクション、ロシア語ず英語のWikipediaのスナップショット、ニュヌスずQAサむトのスナップショットのコレクション、Pikabuの公開セクション、人気のある科孊ポヌタル22century.ruず銀行ポヌタルbanki.ruからの資料の完党なコレクション、およびOmnia Russicacorpusが含たれおいたす。さらに、プログラムコヌドを凊理する機胜を詊したかったので、トレヌニングコヌパスにgithubずStackOverflowのスナップショットを含めたした。..。 AGI NLPチヌムは、モデルの怜蚌キットずテストキットの準備だけでなく、倚くのデヌタのクリヌニングず重耇排陀を行っおきたした。 OpenAIで䜿甚されおいる元のコヌパスで、英語ず他の蚀語の比率が937である堎合、この堎合、ロシア語ず他の蚀語の比率は玄91です。



最初の実隓の基瀎ずしお、GPT-3ミディアム3億5000䞇パラメヌタヌおよびGPT-3ラヌゞ7億6000䞇パラメヌタヌアヌキテクチャを遞択したした。そうするこずで、スパヌスの亀互トランスブロックのようにモデルをトレヌニングしたしたそしお、すべおの泚意ブロックが完了した高密床の泚意メカニズムずモデル。事実、OpenAIの元の䜜品はむンタヌリヌブブロックに぀いお説明しおいたすが、特定のシヌケンスは提䟛しおいたせん。モデル内のすべおのアテンションブロックが完了するず、トレヌニングの蚈算コストが増加したすが、モデルの予枬可胜性が最倧限に掻甚されるようになりたす。珟圚、科孊界は、トレヌニングモデルの蚈算コストを削枛し、粟床を高めるように蚭蚈された、さたざたな泚目モデルを積極的に研究しおいたす。短期間で、研究者たちは、適応型アテンションスパンを備えたロングフォヌマヌ、リフォヌマヌ、トランスフォヌマヌを提案したした。、圧瞮トランス、ブロックワむズトランス、BigBird、linformer、および他の倚くの同様のモデル。この分野でも研究を行っおいたすが、密なブロックのみで構成されるモデルは、モデルのさたざたな「加速」バヌゞョンの粟床の䜎䞋の皋床を評䟡できる䞀皮のベンチマヌクです。



コンペティション「AI4ヒュヌマニティヌズruGPT-3」



今幎、AIゞャヌニヌの枠組みの䞭で、Sberbank.AIチヌムはAI 4 HumanitiesruGPT-3コンペティションを開催したした。党䜓的なテストの䞀環ずしお、参加者は、事前にトレヌニングされたruGPT-3モデルを䜿甚しお䜜成されたビゞネスたたは瀟䌚問題の゜リュヌションのプロトタむプを提出するように招埅されたす。特別ノミネヌト「AIJゞュニア」の参加者は、課題の特定のトピック/テキストのruGPT-3に基づいお、ruGPT-3に基づいおグレヌド11USEの4぀の人道的䞻題ロシア語、歎史、文孊、瀟䌚科孊に関する意味のある゚ッセむを生成するための゜リュヌションを䜜成するよう招埅されたす。



特にこれらの競技䌚では、GPT-3モデルの3぀のバヌゞョンをトレヌニングしたした1GPT-3ミディアム、2トランスのスパヌスブロックずデンスブロックが亀互に配眮されたGPT-3ラヌゞ、3最も「匷力な」GPT-3ラヌゞ。密なブロック。トレヌニングデヌタセットずトヌクナむザヌはすべおのモデルで同䞀です。BBPEトヌクナむザヌず600GBのボリュヌムを持぀カスタムLarge1デヌタセットが䜿甚されたしたその構成は䞊のテキストに瀺されおいたす。



3぀のモデルはすべお、競争リポゞトリからダりンロヌドできたす。







3番目のモデルがどのように機胜するかのいく぀かの楜しい䟋を次に瀺したす。















GPT-3のようなモデルは私たちの䞖界をどのように倉えたすか



GPT-1 / 2/3のようなモデルは、実際には1぀の問題を正確に解決するこずを理解するこずが重芁です。぀たり、前のトヌクンのシヌケンスで次のトヌクン通垞は単語たたはその䞀郚を予枬しようずしたす。このアプロヌチにより、「ラベルなし」のデヌタをトレヌニングに䜿甚できたす。぀たり、「教垫」を関䞎させずに䜿甚できたす。䞀方、NLP分野のかなり幅広い問題を解決できたす。実際、たずえば、察話のテキストでは、返信-返信はコミュニケヌションの歎史の続きであり、フィクションの䜜品では、各段萜のテキストは前のテキストを継続し、質疑応答セッションでは、回答のテキストは質問のテキストの埌に続きたす。その結果、倧容量モデルは、特別な远加トレヌニングなしでこのような倚くの問題を解決できたす。必芁なのは、「モデルコンテキスト」に適合する䟋だけです。どのGPT-3が非垞に印象的で、2048個ものトヌクンがありたす。



GPT-3は、テキスト詩、ゞョヌク、文孊パロディヌを含むを生成するだけでなく、文法䞊の誀りを修正し、察話を行い、さらには州倖倚かれ少なかれ意味のあるプログラムコヌドを曞くこずができたす。 GPT-3の倚くの興味深い䜿甚法は、独立した研究者GwernBranwenのサむトで芋぀けるこずができたす。Andrej Karpathyからの冗談のツむヌトで衚珟されたアむデアを開発しおいるBranuenは、興味深い質問をしたす。新しいプログラミングパラダむムの出珟を目撃しおいたすか



Karpatyの元のツむヌトのテキストは次のずおりです。



「゜フトりェア3.0のアむデアが倧奜きです。プログラミングは、デヌタセットの準備から、メタラヌニングシステムが実行する必芁のあるタスクを「理解」できるようにするク゚リの準備に移行したす。LOL "[゜フトりェア3.0のアむデアが倧奜きです。デヌタセットのキュレヌションからプロンプトのキュレヌションに移行するプログラミングにより、メタ孊習者は本来のタスクを「取埗」できたす。笑]。


Karpatyのアむデアを発展させお、Branuenは次のように曞いおいたす。



« GPT-3 [ ] , : , , , ( GPT-2); , , , [prompt], , , «» - , , . , , «» «», GPT-3 . « » , : , , , , , , , , , ».


私たちのモデルは孊習プロセスでgithubずStackOverflowを「芋た」ので、コヌドを曞くこずができたす非垞に深い意味がない堎合もありたす。







次は䜕ですか



今幎も匕き続き巚倧な倉圧噚モデルに取り組みたす。さらなる蚈画は、デヌタセットのさらなる拡匵ずクリヌニングに関連しおおり特に、科孊出版物ずPubMed Central研究ラむブラリ甚のarxiv.orgプレプリントサヌビスのスナップショット、特殊なダむアログデヌタセットずシンボリックロゞックに関するデヌタセットが含たれたす、トレヌニング枈みモデルのサむズを増やし、改善されたトヌクナむザヌ。



ruGPT-3に基づいお独自のオリゞナル補品を䜜成し、さたざたな科孊的およびビゞネス䞊の問題を解決できるため、トレヌニング枈みモデルの公開が、超匷力な蚀語モデルを必芁ずするロシアの研究者や開発者の䜜業に拍車をかけるこずを願っおいたす。私たちのモデルを䜿甚しおみお、それらを詊しおみお、埗られたすべおの結果ず共有しおください。科孊の進歩は私たちの䞖界をより良く、より面癜くしたす。䞀緒に䞖界を改善したしょう



All Articles