

この蚘事では、ロシア語でこの問題を解決する方法に぀いお説明したす。デヌタ゜ヌスずしお、Kaggleで匿名で公開されたデヌタセットを䜿甚し、さらに泚釈の品質をチェックしたした。分類モデルを䜜成するために、倚蚀語ナニバヌサルセンテンス゚ンコヌダヌの2぀のバヌゞョン、トランスフォヌマヌからの双方向゚ンコヌダヌ衚珟ずruBERTを埮調敎したした。カスタマむズされたモデルruBERTを瀺しF 1が最良の分類結果であった、= 92.20パヌセントを。トレヌニング枈みのモデルずコヌド䟋を公開したした。



この蚘事は、ロシア語での有毒なコメントの自動怜出に専念しおいたす。このタスクでは、ロシア語の有毒コメントデヌタセット[5]の泚釈を確認したした。次に、事前にトレヌニングされた倚蚀語バヌゞョンの倚蚀語ナニバヌサルセンテンス゚ンコヌダヌM-USE[48]、トランスフォヌマヌからの双方向゚ンコヌダヌ衚珟M-BERT[13]、およびruBERT [22]の埮調敎に基づいお分類モデルが䜜成されたした。最も正確なモデルruBERT-Toxicは、有毒なコメントのバむナリ分類問題でF 1 = 92,20を瀺したした。結果のM-BERTおよびM-USEモデルは、githubからダりンロヌドできたす。



さたざたなデヌタ゜ヌスに関する有毒なコメントを怜出するために、広範な䜜業が行われおいたす。たずえば、Prabowoらは、ナむヌブベむゞアン分類NB、サポヌトベクタヌマシンSVM、アンサンブルデシゞョンツリヌRFDT分類子を䜿甚しお、むンドネシアのTwitterで憎悪ず䞍快な蚀葉を怜出したした[34]。実隓結果は、蟞曞ナニグラムの笊号を䜿甚した階局的アプロヌチずSVMモデルで68.43の粟床を瀺したした。 Founta [15]が率いるチヌムの研究では、有毒なテキストの分類のために、事前にトレヌニングされたGloVe埋め蟌みを備えたGRUに基づく深局孊習ニュヌラルネットワヌクが提案されたした。モデルは5぀のデヌタセットで高い粟床を瀺し、AUCは92から98の範囲でした。

たすたす倚くのワヌクショップやコンテストが、有毒で、憎悪的で、䞍快なコメントを怜出するこずに専念しおいたす。たずえば、SemEval-2019でのHatEvalずOffensEval。 HASOC at FIRE-2019; GermEval-2019およびGermEval-2018での䞍快な蚀語の識別に関する共有タスク。 COLING-2018でのTRAC。問題で䜿甚されるモデルは、埓来の機械孊習SVMやロゞスティック回垰などから深局孊習RNN、LSTM、GRU、CNN、泚意メカニズムを含むCapsNet [45]、[49]、ELMoなどの高床なモデルたで倚岐にわたりたす。 [31]、BERT [13]およびUSE [9]、[48]。良奜な結果を達成したかなりの数のチヌム[18]、[24]、[27]、[28]、[30]、[36]、[38]は、リストされた事前トレヌニング枈み蚀語モデルからの埋め蟌みを䜿甚したした。事前にトレヌニングされたモデルからのビュヌは分類でうたく機胜したため、その埌の研究で広く䜿甚されたした。たずえば、ロレヌヌ倧孊の研究者は、2぀のアプロヌチを䜿甚しおTwitterメッセヌゞのマルチクラスバむナリ分類を実斜したした。事前にトレヌニングされた語圙埋め蟌みを䜿甚したDNN分類子のトレヌニングず、慎重に調敎された事前トレヌニングされたBERTモデルです[14]。 2番目のアプロヌチは、FastText埋め蟌みに基づくCNNおよび双方向LSTMニュヌラルネットワヌクず比范しお、倧幅に優れた結果を瀺したした。事前にトレヌニングされた語圙の埋め蟌みず泚意深く調敎された事前にトレヌニングされたBERTモデルを䜿甚しおDNN分類子をトレヌニングするこずによっお[14]。 2番目のアプロヌチは、FastText埋め蟌みに基づくCNNおよび双方向LSTMニュヌラルネットワヌクず比范しお、倧幅に優れた結果を瀺したした。事前にトレヌニングされた語圙の埋め蟌みず泚意深く調敎された事前にトレヌニングされたBERTモデルを䜿甚しおDNN分類子をトレヌニングするこずによっお[14]。 2番目のアプロヌチは、FastText埋め蟌みに基づくCNNおよび双方向LSTMニュヌラルネットワヌクず比范しお、倧幅に優れた結果を瀺したした。

かなりの数の研究[7]、[33]、[41]がロシア語の゜ヌシャルネットワヌクにおける有毒で攻撃的な行動の研究に専念しおきたしたが、それらの自動分類にはあたり泚意が払われおいたせん。英語ずロシア語のテキストの攻撃性を刀断するために、Gordeevは畳み蟌み神経ネットワヌクずランダムフォレスト分類子RFCを䜿甚したした[17]。アグレッシブずしお泚釈が付けられたメッセヌゞのセットには、ロシア語で玄1000のメッセヌゞが含たれ、英語でもほが同じでしたが、公開されおいたせん。蚓緎されたCNNモデルは、ロシア語のテキストのバむナリ分類の粟床が66.68であるこずを瀺したした。これらの結果に基づいお、著者らは、畳み蟌みニュヌラルネットワヌクず深局孊習ベヌスのアプロヌチが攻撃的なテキストを識別するためにより有望であるず結論付けたした。Andruziak et al。は、りクラむナ語ずロシア語で曞かれた䞍快なYouTubeコメントを分類するために、゜ヌスボキャブラリヌを䜿甚した監芖されおいない確率論的アプロヌチを提案したした[2]。著者は、手動でラベル付けされた2,000件のコメントのデヌタセットを公開しおいたすが、ロシア語ずりクラむナ語の䞡方のテキストが含たれおいるため、ロシア語のテキストの調査に盎接䜿甚するこずはできたせん。

最近のいく぀かの研究は、アむデンティティに基づく攻撃の識別を含む、ロシア語を話す゜ヌシャルネットワヌクにおける移民ず民族グルヌプに察する態床の自動識別に焊点を合わせおいたす。 Bodrunovaは共著者ずずもに、他の囜ず比范しお、ポスト゜ビ゚ト共和囜からの移民に察する態床のトピックに぀いお、LiveJournalで363,000のロシア語の出版物を研究したした[8]。ロシア語のブログでは、移民は重芁な議論の原因にはならず、最悪の扱いを受けおいなかったこずが刀明したした。同時に、北コヌカサス諞囜ず䞭倮アゞア諞囜の代衚者は、たったく異なる方法で扱われたす。 Bessudnovが率いる研究者グルヌプは、ロシア人は䌝統的にコヌカサスず䞭倮アゞアの人々に察しおより敵察的であるこずを発芋したした。同時に、りクラむナ人ずモルドバン人は䞀般的に朜圚的な隣人ずしお受け入れられおいたす[6]。そしお、コルツォワが率いる集団の調査結果によるず、䞭倮アゞアの囜籍ずりクラむナ人の代衚に察する態床は最も吊定的です[19]。䞀郚の孊術研究は、有毒で攻撃的で憎悪的なスピヌチを特定するこずに焊点を圓おおいたすが、ロシア語のデヌタセットを公開しおいる著者はいたせん。私たちが知る限り、ロシア語の有毒なコメントデヌタセット[5]は、パブリックドメむンで唯䞀のロシア語の有毒なコメントのセットです。ただし、䜜成ず泚釈のプロセスを説明せずにKaggleで公開されたため、詳现な調査がなければ、孊術的および実甚的なプロゞェクトでの䜿甚は掚奚されたせん。䞀郚の孊術研究は、有毒で攻撃的で憎悪的なスピヌチを特定するこずに焊点を圓おおいたすが、ロシア語のデヌタセットを公開しおいる著者はいたせん。私たちが知る限り、ロシア語の有毒なコメントデヌタセット[5]は、パブリックドメむンで唯䞀のロシア語の有毒なコメントのセットです。ただし、䜜成ず泚釈のプロセスを説明せずにKaggleで公開されたため、詳现な調査がなければ、孊術的および実甚的なプロゞェクトでの䜿甚は掚奚されたせん。䞀郚の孊術研究は、有毒で攻撃的で憎悪的なスピヌチを特定するこずに焊点を圓おおいたすが、ロシア語のデヌタセットを公開しおいる著者はいたせん。私たちが知る限り、ロシア語の有毒コメントデヌタセット[5]は、パブリックドメむンで唯䞀のロシア語の有毒コメントのセットです。ただし、䜜成ず泚釈のプロセスを説明せずにKaggleで公開されたため、詳现な調査がなければ、孊術的および実甚的なプロゞェクトでの䜿甚は掚奚されたせん。ロシア語の有毒なコメントデヌタセット[5]は、パブリックドメむンで唯䞀のロシア語の有毒なコメントのセットです。ただし、䜜成ず泚釈のプロセスを説明せずにKaggleで公開されたため、詳现な調査がなければ、孊術的および実甚的なプロゞェクトでの䜿甚は掚奚されたせん。ロシア語の有毒なコメントデヌタセット[5]は、パブリックドメむンで唯䞀のロシア語の有毒なコメントのセットです。ただし、䜜成ず泚釈のプロセスを説明せずにKaggleで公開されたため、詳现な調査がなければ、孊術的および実甚的なプロゞェクトでの䜿甚は掚奚されたせん。



ロシア語を 蚭定する蚀語毒性コメントデヌタセット[5]は、サむトDvachおよびPeekabooからの泚釈付きコメントのコレクションです。 2019幎にKaggleに投皿され、14,412件のコメントが含たれおいたす。そのうち、4,826件は有毒、9,586件は無毒です。コメントの平均の長さは175文字、最小は21文字、最倧は7 403です。



  • アノテヌタヌには、タスクを制埡するための回答に基づいおレベルを割り圓お、誀った回答をした人を犁止したした。
  • 応答が速すぎる人のためのタスクぞのアクセスの制限。
  • トピックのタスクぞのアクセスが制限されおいるため、正しいキャプチャが連続しお数回入力されたせん。

各コメントには、動的オヌバヌラップ手法を䜿甚しお3〜8人のアノテヌタヌが泚釈を付けたした。結果は、 Yandex.Tolokaの掚奚に基づいおDawid-Skene法[12]を䜿甚しお集蚈されたした。アノテヌタヌは高レベルのアノテヌタヌ間合意を瀺し、クリッペンドルフのアルファ係数は0.81でした。たた、元のラベルず集蚈されたラベルの間のコヌ゚ンのカッパ係数は0.68でした。これは、アノテヌタヌ間の合意のかなりのレベルに察応したす[11]。したがっお、特に泚釈の指瀺で起こりうる違いを考慮しお、デヌタセットのマヌクアップを正しいず芋なすこずにしたした。




たず、テキスト分類の問題でうたく機胜するMultinomial Naive BayesMNBモデルを適甚したした[16]、[40]。モデルを䜜成するために、Bag-of-WordsずTF-IDFベクトル化を採甚したした。 2番目のモデルは、双方向の長期短期メモリBiLSTMニュヌラルネットワヌクでした。埋め蟌みレむダヌに぀いおは、Word2Vec埋め蟌みを事前にトレヌニングしたした薄暗い= 300[25] RuTweetCorp [37]からのロシア語のTwitterメッセヌゞのコレクションに基づいおいたす。たた、Word2Vecの埋め蟌みに加えお、2぀の双方向LSTMレむダヌを远加したした。次に、完党に接続された非衚瀺のレむダヌずシグモむド出力レむダヌを远加したした。オヌバヌフィットを枛らすために、ガりスノむズず陀倖レむダヌドロップアりトを含む正芏化レむダヌをニュヌラルネットワヌクに远加したした。損倱関数ずしお、初期孊習率が0.001で、カテゎリのバむナリクロス゚ントロピヌを持぀Adamのオプティマむザを䜿甚したした。モデルは、10゚ポックの固定埋め蟌みでトレヌニングされたした。孊習率を䞋げながら、さたざたな時代の埋め蟌みのブロックを解陀しようずしたしたが、結果はさらに悪くなりたした。その理由はおそらくトレヌニングセットのサむズでした[4]。


倚蚀語BERTの2぀のバヌゞョンのBASEのモデルがあり 、今正匏に利甚できるが、唯䞀のケヌス入りバヌゞョンが公匏に掚奚されたす。 BERT BASEは、512トヌクン以䞋のシヌケンスを受け取り、その衚珟を返したす。トヌクン化は、WordPiece [46]を䜿甚しお、予備的なテキストの正芏化ず句読点の分離を䜿甚しお実行されたす。 MIPTからの研究者は、BERT蚓緎を受けBASEロシア語のモデル[22] -ケヌス入りず公衚ruBERTを。我々は䞡方のモデルを䜿甚-倚蚀語のBERT BASEを12個の順次倉換ブロックを含むcasedおよびruBERTは、768の非衚瀺サむズを持ち、12個の自己泚意ヘッドず1億1000䞇個のパラメヌタヌを含みたす。埮調敎段階は、[43]および公匏リポゞトリからの掚奚パラメヌタヌ3぀の孊習゚ポック、10のりォヌムアップ段階、最倧シヌケンス長128、パケットサむズ32、孊習率5e-5を䜿甚しお実行されたした。


倚USEトランスはせいぜい100個のトヌクンのシヌケンスを取り、入力ずしお、倚USE CNNは配列かかりない256個の以䞊のトヌクンを。 SentencePiece [20]トヌクン化は、サポヌトされおいるすべおの蚀語で䜿甚されたす。我々は、事前に蚓緎倚蚀語USE甚いるトランス、ロシア語を含む16個の蚀語をサポヌトし、6぀の倉換局、8぀の泚目ヘッドブロック2048のフィルタサむズを有しおいる、我々はたた、事前に蚓緎倚蚀語USE䜿甚512の隠されたサむズを有する゚ンコヌダコンバヌタ含たCNNをサポヌトしおいるこずをロシア語を含む16の蚀語には、2぀のCNNレむダヌを持぀CNN゚ンコヌダヌが含たれ、フィルタヌ幅1、2、3、5、フィルタヌサむズがありたす。䞡方のモデルで、掚奚されるパラメヌタヌをTensorFlowハブペヌゞ100孊習゚ポック、バッチサむズ32、孊習率3e-4。



  • 倚項ナむヌブベむズ分類噚;
  • ニュヌラルネットワヌク双方向長期短期メモリBiLSTM;
  • トランスフォヌマヌからの双方向゚ンコヌダヌ衚珟の倚蚀語バヌゞョンM-BERT;
  • ruBERT;
  • 倚蚀語ナニバヌサルセンテンス゚ンコヌダヌM-USEの2぀のバヌゞョン。

テストセットでのトレヌニング枈みモデルの分類の品質20を衚に瀺したす。調敎されたすべおの蚀語モデルは、F 1の粟床、想起、枬定においおベヌスラむンレベルを超えたした。ruBERTを瀺しF 1、これは最良の結果である、= 92.20パヌセントを。


システム P R F 1
MNB 87,01 % 81,22 % 83,21 %
BiLSTM 86,56 % 86,65 % 86,59 %
M − BERTBASE − Toxic 91,19 % 91,10 % 91,15 %
ruBert − Toxic 91,91 % 92,51 % 92,20 %
M − USECNN − Toxic 89,69 % 90,14% 89,91 %
M − USETrans − Toxic 90,85 % 91,92 % 91,35 %


この蚘事では、倚蚀語ナニバヌサルセンテンス゚ンコヌダヌ[48]の2぀の埮調敎バヌゞョン、トランスフォヌマヌからの倚蚀語双方向゚ンコヌダヌ衚珟[13]ずruBERT [22]を䜿甚しお、有毒なロシア語のコメントを特定したした。rubert同調毒性を瀺したF 1 = 92.20パヌセント、最高の分類結果です。



