PustobrёkhGPT-2:ロシア語版

画像


DL NLPのトピックに飛び込んだ後、インターネット上で興味深いリポジトリに出くわしました。これだけでは十分ではありません-ロシアのGPT-2!まあ、それはロシア語を話す。そして、いくつかの小さな117Mではなく、かなり1250Mであり、これはすでにかなり深刻です。著者は、元のモデルを適応させ、トレーニング用のコーパスを準備するために多くの作業を行いました。そして、トレーニング自体は、多くの時間と力を要したと思います。一般的に、同志l4rzに関して!私は彼の足跡をたどり、私のケース(現在準備中です)でシステムをトレーニングする予定です-幸いなことに、著者はそのような大規模なタスクに取り組む方法についてかなり詳細な指示を残しました...結果を報告します! ;)



それまでの間、純粋に楽しみのために、より涼しいGPT-3に関する投稿に基づいて、システムを使ったいくつかの実験を公開することを提案します(ただし、著者は明らかに、GPT-3が優れているとは考えていません)。ここで紹介するシステムは、GPT-3よりもはるかに単純ですが、それでもトレーニング済みのロシア語モデルです。面白いと思います。



免責事項。結果は主に、ネットワークが学習したコーパスによって決定されます。著者のコメントは次のとおりです。ロシアのプレスサイトをいくつかスクレイプし、beautifulsoup4でHTMLを解析し、解析したテキストとメタデータ(ヘッダー、TL、DR、タイムスタンプ)を保存して、PKLでさらに並べ替えて後処理しました...物事をプッシュするためにさらに4GBのデータセット(415Mトークン)を濾過3GBので増強したfanfics 7GBの一方(862Mトークン)になって、。



実験手法は単純です。同じ入力でネットワークを3回実行します。ネットワーク出力は太字でマークされています..。スペースの欠落など、純粋に表面的なものを除いて、編集は行いませんでした(コードへの干渉のために省略されました*)。実験は一般的にGPT-3に関する記事で説明されているものを繰り返します、そして私はそれらについて決してコメントしないことに決めました...;)



実験#1

。>>>

クランベリージュースを1杯注ぎますが、うっかりとグレープジュースを小さじ1杯加えます。彼は元気そうだ。あなたはそれを嗅ぎ取ろうとしますが、あなたはひどい寒さを持っているので、あなたはにおいがしません。あなたはとても喉が渇いています。したがって、あなたは蜂蜜と砂糖と一緒にコーヒーを飲みます
>>>新規

クランベリージュースを1杯注ぎますが、うっかりとグレープジュースを小さじ1杯加えます。彼は元気そうだ。あなたはそれを嗅ぎ取ろうとしますが、あなたはひどい寒さを持っているので、あなたはにおいがしません。あなたはとても喉が渇いています。だからあなたは再び自分自身にコーヒー注ぐ。あなたは吐き気を催します。それは何も悪いことではありません、とにかくそれを飲む方法がわかりません。あなたは非常に悪いことを感じますが、誰もあなたに注意を払いません。
>>>新規

クランベリージュースを1杯注ぎますが、うっかりとグレープジュースを小さじ1杯加えます。彼は元気そうだ。あなたはそれを嗅ぎ取ろうとしますが、あなたはひどい寒さを持っているので、あなたはにおいがしません。あなたはとても喉が渇いています。だからあなたはあなたが望むなら食べ続けます、しかしあなたはそれがどのように見えるかわかりません。


実験#2

。>>>

あなたは小さなパーティーを組織しました。あなたはリビングルームで夕食を出したいです。ダイニングルームのテーブルは出入り口よりも広いので、リビングルームに移動するにはホットミルク1杯飲む必要あります
>>>新規

あなたは小さなパーティーを主催しました。あなたはリビングルームで夕食を出したいです。ダイニングルームのテーブルは出入り口よりも広く、リビングルームに移動するためにいくつかの手順実行ます。
>>>新規

あなたは小さなパーティーを主催しました。あなたはリビングルームで夕食を出したいです。食堂のテーブルは出入り口よりも幅が広く、リビングルームに移動するのに手間がかかります


実験#3

。>>>

あなたは弁護人であり、今日は法廷に行く必要があります。朝の着替えをしていると、スーツのパンツがとても汚れていることがわかります。しかし、あなたの水泳トランクは清潔でとてもスタイリッシュです。これらは、イザベルがあなたの誕生日に贈ったフランスの高級スイムトランクです。トライアルで何を着るか決めますか?

そうそう*
>>>新規

あなたは弁護人であり、今日は法廷に行く必要があります。朝の着替えをしていると、スーツのパンツがとても汚れていることがわかります。しかし、あなたの水泳トランクは清潔でとてもスタイリッシュです。これらは、イザベルがあなたの誕生日に贈ったフランスの高級スイムトランクです。トライアルで何を着るかはあなたが決めます。何かが気に入らない場合は、ワードローブから服を持っていきます。
>>>新規

あなたは弁護人であり、今日は法廷に行く必要があります。朝の着替えをしていると、スーツのパンツがとても汚れていることがわかります。しかし、あなたの水泳トランクは清潔でとてもスタイリッシュです。これらは、イザベルがあなたの誕生日にあなたにくれたフランスの高級水泳トランクです。トライアルで何を着るか決めますか?

-弁護士に質問がたくさんあります。


実験#4

。>>>

昨日はドライクリーナーに服を置いていましたが、今日もそれを拾う必要があります。私の服はどこにありますか?

-ばかげた、私は彼を取り戻す必要があります、計画に従ってそこですべてをするのではありません。
>>>新規

昨日はドライクリーナーに服を置いていましたが、今日もそれを拾う必要があります。私の服はどこにありますか?

-いいえ、これらが何であるかはわかりませんが、いつでも取ることができ、これは必ずしも楽しいとは限りません。
>>>新規

昨日はドライクリーナーに服を置いていましたが、今日もそれを拾う必要があります。私の服はどこにありますか?

- はい。私は彼に迷惑をかけません」と私は答えました。



実験#5

。>>>

ジャネットとペニーはジャックへのプレゼントを買うために店に行きました。ジャネットは「ジャックをトップに買う」と言った。「ジャックをトップに買わないでください」とペニーは言います。「彼にはトップがあります。彼は私たちが選ぶときに私からます、そしてあなたがジャックを買わなければ、あなたはジャックを売るでしょう。
>>>新規

ジャネットとペニーはジャックへのプレゼントを買うために店に行きました。ジャネットは「ジャックをトップに買う」と言った。「ジャックをトップに買わないでください」とペニーは言います。「彼にはトップがあります。彼はジャックから作品を手に入れます
>>>新規

ジャネットとペニーはジャックへのプレゼントを買うために店に行きました。ジャネットは「ジャックをトップに買う」と言った。「ジャックをトップに買わないでください」とペニーは言います。「彼にはトップがあります。彼は受け取ります。買います。彼はいつもそこにいます。そして、私は売りません。ジャックとは異なります。彼は彼を喜ばせなかったものには興味がありません。彼は自分で買う以外は何も買わないでしょう。


実験#6

。>>>

パーティーではレモネードを一杯注ぎましたが、酸っぱすぎたので砂糖を少し加えました。手元にスプーンがなかったので、タバコでかき混ぜました。しかし、私は長い間飲んでいたので、それは非常に悪い考えであることがわかりました。うわー、なんて素晴らしい味だ!
>>>新規

パーティーではレモネードを一杯注ぎましたが、酸っぱすぎたので砂糖を少し加えました。手元にスプーンがなかったので、タバコでかき混ぜました。しかし、レモネードが私を飲まないようにしたので、それは非常に悪い考えであることがわかりました。
>>>新規

パーティーではレモネードを一杯注ぎましたが、酸っぱすぎたので砂糖を少し加えました。手元にスプーンがなかったので、タバコでかき混ぜました。でも、暑すぎてとても悪い考えだったので、喉から飲み始めました。


実験#7

。>>>

, . – .



1. , . . , , . . .



) .

) .



: 2. )



*小さな叙情的な逸脱。ソースにあったので、無制限のテキスト生成(一度に半分のページ)を備えたGPT-2は好きではありませんでした。そして、出力を最小限に抑えましたが、(前の出力が入力に供給されたときに)再帰的に続行できるようにしました。したがって、私少しだまします、なぜなら 私自身、いつ停止できるか/停止すべきかを決定します。この場合、ネットワークは実際に(逆説的ではありますが)ある程度の範囲で答えとして解釈できる結果をもたらしましたが、結論を続けると...自分で判断してください:
正解:

2。A)残りを知る必要はありません。

3. B)依存。

4.どのような基準で飲みたいですか?


>>>新規





正解:これらは有毒物質です。
>>>新規

...



正解は「すべての準備ができています」です。


このシムの場合、全員...



PSコミュニティが5Gbモデルを配置できる場所を教えてくれたら(wgetのようなもので利用できるように-Colabノートブックへのリンクを記事とシステムをライブで駆動できるようにしたい人に追加します...; )そして、私の家の「ホスティング」は、恐縮ですが、habr効果に耐えられません。それまでの間、興味のある方がいらっしゃいましたら、入力としてのテキストで何が起こるか試してみることができます。



更新:によって表されるコミュニティグリゴロフ応答したので、これが約束されたメモ帳です!これで、オリジナルと比較して、自分で実験することができます(投稿からのリンクデザートフロー OpenAIのGPT-2ニューラルネットワーク。クイックスタート)そして多分いくつかの結論を導きます。 ;)例:言語モデルを教えるとき、言語は重要ですか?



著者のコメント:こんにちは、



はい、もちろん、私は気にしません-そうでなければ、ここにモデルをアップロードしません。



>>>言語モデルを教えるとき、言語は重要ですか?



もちろんそうです-パラメータの数が少ないモデルは、ロシア語ではうまく機能しないことに気づきました。これは、英語と比較してロシア語のより複雑な(形式化されていない)セマンティクスによるものだと思います。私はそれについて私の記事に書いた。また、ロシア語で受け入れられている、各レプリカが新しい行で始まり、ダッシュが前に付いている場合に、これらのレプリカが誰に属しているかを指定せずにダイアログを送信する方法は、モデルがダイアログの構造を正しく識別するのに役立ちません(さらに、モデルは次のようなテキストの構造を学習するため、トレーニングが困難になります方法-マークアップがトレーニングデータにリークした場合にも同じ効果が観察されます)。



私が見逃したもう1つのポイント(私には明らかなように思えました)-このモデルを微調整したい場合は、モデルに付属の文句辞書(sp。*)を使用する必要があります。



また、1250Mのトレーニングでは、主にニュース、プレス、そしてその後のファンフィクションが使用されました。これは結果の性質に反映されています。



All Articles