ロシア語のテキストにおける感情分析、パヌト3課題ず展望





感情分析は、゜ヌシャルメディア、レビュヌ、ニュヌス、さらには教科曞にもうたく䜿甚されおいたす。前回の蚘事で説明したロシア語の䞻芁な研究に基づいお、ここでは研究者が盎面する䞻な課題ず、将来の有望な方向性に぀いお考察したす。以前の䜜品ずは異なり、アプロヌチ自䜓や分類の質ではなく、応甚アプリケヌションに焊点を圓おたした。



泚意この蚘事は科孊雑誌のために曞かれたものなので、情報源ぞのリンクはたくさんありたす。


1.進行䞭の通話



研究論文の分析に基づいお、10の䞀般的な問題が特定されたした。䞀般に、研究者は通垞、代衚的な履歎デヌタやトレヌニングデヌタぞのアクセス、感情ぞの泚釈付け、研究の限界の培底的な説明、テキストからのトピックの抜出など、耇数の課題に盎面したす。



1.1。分析された゜ヌスの代衚的な履歎デヌタぞのアクセス



゜ヌスAPIたたは集玄プラットフォヌムを介しお収集された履歎デヌタ出版物やレビュヌなどは、感情調査でよく䜿甚および分析されたす。 API開発者は、公開されたデヌタぞの郚分的なアクセスしか提䟛しない堎合がありたす。たずえば、TwitterのコアAPIは、過去のTwitterAPIのみがすべおの開いおいる投皿ぞのアクセスを提䟛するずいうポリシヌに埓いたす。アグリゲヌションプラットフォヌムに関しおは、特定の゜ヌスのデヌタぞのフルアクセス暩があるず䞻匵しおも、これを怜蚌するこずは䞍可胜です。したがっお、デヌタが調査を代衚するものであるこずを確認する方法は2぀しかありたせん。



  1. API , . , API .
  2. . , OK Data Science Lab [98].


1.2.



ロシア語はむンタヌネット䞊で最も広く話されおいるものの1぀ですが、特に感情分析の分野では、ロシア語の情報源の数は英語よりも倧幅に少なくなっおいたす。倚くの研究がロシア語のテキストにおける感情の分類に専念しおきたしたが、それらのいく぀かの著者だけが圌らのデヌタセットを公に利甚可胜にしたした。利甚可胜なセットのいずれも研究トピックに適甚できない堎合、䜜成者はトレヌニングセットを手動でマヌクアップしたす。文孊資料ず科孊的研究[142]、[173]を分析した埌、ロシア語のテキストの感情を分析するために公開されおいる14のデヌタセットを特定しお説明したした衚2を参照。私は、関連する科孊論文たたは公匏サむトに蚘茉されおいる指瀺に埓っおアクセスできるキットのみを怜蚎したした。この点で、それらはリストに含たれおいたせんでした、たずえば、ROMIPセット[174]、[175]は、公匏Webサむトからデヌタにアクセスできなかったためです。



衚2.感情分析のためのロシア語デヌタセット。

デヌタセット 説明 泚釈 クラス アクセス
RuReviews [143] ロシアの倧手オンラむンストアの「婊人服ずアクセサリヌ」カテゎリの補品のレビュヌからの気分の䟋を含むセット。 自動 3 GitHubペヌゞ
RuSentiment [142] ゜ヌシャルネットワヌクVKontakteの出版物からの気分の䟋を含むオヌプンセット。 マニュアル 五 プロゞェクトペヌゞ
ロシアのホテルレビュヌデヌタセット[171] 50,329件のロシア語のホテルレビュヌからのムヌドの䟋のアスペクトセット。 自動 五 グヌグルドラむブ
RuSentRel [172] カバヌされたトピックに関する著者の意芋ず、説明された状況で参加者によっお蚀及された倚数のリンクを提瀺する、InoSMIWebサむトからの分析蚘事のセット。 マニュアル 2 GitHubペヌゞ
LINIS Crowd [26] さたざたなメディアサむトの瀟䌚的および政治的蚘事から線集された、感情の䟋のオヌプン゜ヌスセット。 マニュアル 五 プロゞェクトペヌゞ
Twitter Sentiment for 15 European Languages [173] , 1,6 Twitter- ( ID) 15 , . 3
SemEval-2016 Task 5: Russian [49] , , . SentiRuEval-2015 [2017]. 3
SentuRuEval-2016 [18] , Twitter- . 3
SentuRuEval-2015 [17] , . 4
RuTweetCorp [141] , , . Twitter [144]. 3
Kaggle Russian News Dataset . 3 Kaggle
Kaggle Sentiment Analysis Dataset . 3 Kaggle
Kaggle IS161AIDAY , Alem Research. 3 Kaggle
Kaggle Russian_twitter_sentiment Twitter-. 2 Kaggle


1.3. .



SentiStrength [22]、Medialogyアルゎリズム、POLYARNIK [107]などのサヌドパヌティの分析システムを䜿甚するず、䜜成者は通垞、分析されたテキストの分類の品質に぀いお蚘述しないため、調査結果の正確性を怜蚌するこずが困難になりたす。サヌドパヌティの゜リュヌションの䜿甚は、研究者が分類メトリックを蚈算するためのテキストのテストセットに泚釈を付けなかったずいう事実にも起因しおいるず思いたす。しかし、この段階の導入は、研究の科孊的䟡倀を倧幅に高めるず思われたす。したがっお、感情分析で分類メトリックを枬定するために、䜜成者がタヌゲットデヌタサンプルに手動で泚釈を付けるこずを匷くお勧めしたす。



1.4。テキストからトピックを抜出する



トピックを抜出するために、ほずんどの研究ではトピックモデリング手法を䜿甚しおいたす。ただし、関心のあるトピックに関連するテキストのシェアが1を倧幅に䞋回る堎合、トピックモデリングではトピック抜出を䜿甚できたせん[54]。さらに、トピックモデリングは、特に日垞のスピヌチを衚す堎合、短いテキストを分析するずきに粟床が䜎くなりたす[54]。したがっお、より正確でノむズに䟝存しないアプロヌチを開発する必芁がありたす。



1.5。手動マヌクアップ甚の感情泚釈ガむド。



関心のあるトピックに関連するロシア語のトレヌニングキットが垞に利甚できるずは限らないため、研究者は通垞、テキストに手で泚釈を付けたす。マニュアルの説明や泚釈プロセスのその他の詳现がないず、デヌタセットのマヌクアップ品質を怜蚌するこずは困難です。認定された蚀語孊者ず非蚀語的評䟡者の䞡方から高品質の泚釈を取埗するには、明確で単玔なステップバむステップの説明が䞍可欠です[176]。䞀郚の皮類のテキスト、たずえば、話者の感情的な状態、貎重な情報のニュヌトラルなコミュニケヌション、皮肉、嘲笑など、色調に泚釈を付けるのは特に困難です[162]。



ロシア語の感情に泚釈を付けるためのガむドの䟋ずしお、さらなる研究では、RuSentimentの泚釈で開発されたガむドラむンを䜿甚できたす[142]。泚釈を付けるための認定蚀語孊者がいない堎合は、デヌタに手動で泚釈を付けるためのクラりド゜ヌシングプラットフォヌムであるYandex.Tolokaの評䟡者の助けを借りるこずができたす。それはすでにロシア語のテキストのいく぀かの孊術研究で䜿甚されおいたす[177]-[180]。たた、Fleissのカッパ[181]やKrippendorffのアルファ[182]などのアノテヌタヌ間の合意、および泚釈プロセスの他の詳现を公開するこずを匷くお勧めしたす。



1.6制限の包括的な説明



分析された論文のほずんどは、制限の䞍完党なリストを提䟛しおいたす。技術的および方法論的な制限に加えお、以䞋を説明するこずを匷くお勧めしたす。



  • 囜内でのむンタヌネットの普及。特定のグルヌプの人々が調査の察象ずならないため、重倧な制限の1぀。2018幎12月のOmnibusGFKの調査結果[9]によるず、ロシアのむンタヌネットの普及率は75.4に達し、16歳以䞊の9千䞇人のロシア人が䜿甚しおいたす。若者16〜29歳ず䞭幎20〜54歳によるむンタヌネットの䜿甚は、飜和レベルに近く、それぞれ99ず88です。しかし、普及率が倧幅に増加しおいるにもかかわらず、55歳以䞊の人々の36だけがむンタヌネットを䜿甚しおいたす。
  • . , [183]. , . , . , , , , .
  • . , , . , , . , , , , ; ; ; , , , , ; . , . , .
  • . Freedom House 2018- [184], 53 65. 2012- , IP-, URL. 2019- . , , . , , .




1.7. .



人々は膚倧な数のトピックに぀いお意芋を衚明できるため、トピックごずにトレヌニングセットに泚釈を付ける必芁があるため、これらすべおの意芋を分析するこずはリ゜ヌスを倧量に消費する可胜性がありたす[186]。すべおのテヌマの感情分析モデルをトレヌニングするための泚釈付きのテキストのコレクションがないため、分析の粟床が䜎䞋したす。研究[187]によるず、トピック間分析には3぀の重芁な問題がありたす。あるトピックのコンテキストで衚珟された意芋は、別のトピックのコンテキストでは逆になる堎合がありたす。2番目の問題は、分析で考慮する必芁があるさたざたなトピックの感情の語圙の違いに関連しおいたす。そしお最埌に、感情の蟞曞の各トヌクンに感情の匷さのマヌカヌを割り圓おるこずは合理的です。



1.8。皮肉ず皮肉の定矩



オンラむン通信には、人間でさえ垞に認識しやすいずは限らない、皮肉で皮肉なフレヌズ[188]が含たれおいるこずが倚く、自然な蚀語凊理アルゎリズムははるかに少ないです。これたでのずころ、ロシア語での皮肉ず皮肉の定矩に向けられた研究はほずんどありたせん[189]。したがっお、幅広い意芋を正しく凊理するためには、耇雑な音声技術の自動分類を甚いたより倚くのアプロヌチを開発し、適甚する必芁がありたす。



1.9。ボットの定矩



ボットは、特にナヌザヌの倧倚数を占める堎合、゜ヌシャルメディアのさたざたな偎面に匷い圱響を䞎えたす。それらは、䞖論に関連するさたざたな悪意のあるタスクに䜿甚できたす。たずえば、有名人の人気を高めたり、政治家に関する誀った情報を広めたりするためです[190]。結果ずしお、ボット怜出方法を開発し、感情研究に適甚する必芁がありたす。



1.10。分析結果の効率



Web䞊のデヌタの自動分析を通じお応答を枬定するこずの有効性に぀いおは、䟝然ずしおかなりの意芋の盞違がありたす。いく぀かの研究[191]、[192]は、゜ヌシャルメディアのアプロヌチは埓来の研究よりも正確ではないず考えおいたす。他の人は、これらのアプロヌチは埓来の方法よりも優れたパフォヌマンスを瀺すず䞻匵しおいたす[193]。したがっお、可胜であれば、研究の結果を他の方法を䜿甚しお埗られた結果ず比范するこずを匷くお勧めしたす。



2.有望な研究分野



文献を怜蚎した埌、私は将来の研究のための7぀の機䌚を特定したした。



党䜓ずしお、将来の研究では、さたざたなテキスト゜ヌスで衚珟された感情のより完党な分析のために、個々のアプロヌチ間の朜圚的な盞乗効果を特定するために、この蚘事で提瀺された感情を監芖するアプロヌチを泚意深く調べる必芁がありたす。



2.1蚀語モデルの知識の䌝達による孊習



ほずんどの䜜業では、ルヌルベヌスたたは単玔な機械孊習アプロヌチを䜿甚したす。ニュヌラルネットワヌクを䜿甚した研究は2぀だけ[69]、[72]でした。しかし、最近の研究では、事前に蚓緎された蚀語モデルから知識を䌝達しお孊習するこずで、感情の分類の問題を効果的に解決でき、自信を持っお良い結果を達成できるこずが瀺されおいたす[43]、[194]-[198]。



したがっお、埮調敎された蚀語モデルを䜿甚するず、感情分析の品質が倧幅に向䞊し、感情監芖結果の粟床が向䞊したす。最初の研究は[199]で行われ、その著者はELMo埋め蟌み[42]を䜿甚しお浅くお広い畳み蟌み神経ネットワヌクを蚓緎し、RuSentimentデヌタセット[142]で新しいレコヌド分類メトリックを取埗し、以前のすべおの神経ネットワヌクアプロヌチを䞊回りたした。この方向ぞの第䞀歩ずしお、研究者はさたざたなロシア語のテキストセットのベヌスラむン孊習転送率をトレヌニングしお公開するこずができたす。



2.2。倚蚀語テキストの感情分析



ロシアは倚囜籍囜であるため、倚蚀語に察応しおいたす。したがっお、さたざたな人々や人々のグルヌプがさたざたな蚀語で意芋を衚明するこずができたす。蚀語孊者は、人口の96.25が話すロシア語から始たり、アムヌル地域の数癟人が話すネギダルで終わる、ロシアの150以䞊の蚀語を数えたす。いく぀かの研究は、耇数の蚀語のテキストを分析し、著者がより広い範囲の情報源をカバヌし、異なる蚀語で同じトピックに関する意芋の衚珟を比范できるようにしたした。



感情を異なる​​蚀語で分類するために、䞀郚の研究者はすべおのテキストを1぀の蚀語に翻蚳し、単䞀蚀語の感情分析を実行したしたたずえば[72]。他の人は倚蚀語分類モデルを開発したした䟋えば、[79]。埌者のアプロヌチの開発ずしお、研究者は、事前にトレヌニングされた蚀語モデル、たずえば、トランスフォヌマヌからの双方向゚ンコヌダヌ衚珟[43]および倚蚀語ナニバヌサルセンテンス゚ンコヌダヌ[198]を䜿甚できたす。



2.3。䞀般的な䞻題トピックのテキストからの抜出



ほずんどのケヌスモデリング研究では、著者は抜出ず将来の分析のためにいく぀かのトピックのみを遞択したした。ただし、このアプロヌチでは、たずえば、関心のあるトピックに関連するテキストのシェアが1をはるかに䞋回る堎合など、倧量のテキストから関連するトピックを抜出するこずはできたせん[54]。さらに、トピックモデリングは、特に日垞䌚話の堎合、短いテキストの分析の粟床が䜎いこずを瀺しおいたす[54]。トピック抜出の問題は、トピックモデリングだけでなく、䞀般的な䞻題トピックの抜出に関するトレヌニングデヌタの広範なセットが利甚可胜な堎合は、テキスト分類の問題にも絞り蟌むこずができたす。



このようなデヌタセットの䜜成は、蚀語孊者チヌムたたはクラりド゜ヌシングによる泚釈付きの基本的なアプロヌチの堎合、時間ずリ゜ヌスを倧量に消費するプロセスのように芋えたす。ただし、RedditやPikabuなど、䞀郚の゜ヌシャルメディアプラットフォヌムでは、ナヌザヌが投皿にタグを付けるこずができたす。これは、そのような゜ヌシャルネットワヌクのナヌザヌが泚釈プロセスを匕き継ぐこずを意味したす。したがっお、远加の怜蚌により、このデヌタを䜿甚しお、メッセヌゞから䞀般的な䞻題トピックを抜出するためのトレヌニングセットを䜜成できる可胜性がありたす。



2.4。感情を衚珟する間接的な方法ずしおのコンテンツに察するいいねやその他のタむプの反応



ほずんどの研究では、意芋の衚明は出版物の内容によっおのみ評䟡されおいたした。ただし、投皿に察するいいねやその他の皮類の反応は、読者が衚珟する感情の原因ずなる可胜性がありたす。したがっお、感情を監芖するずきにこの情報を考慮に入れるこずができたす。研究[200]では、投皿のいいねず出版物に察する感情ずの関係の研究に関する予備䜜業が行われたした。研究者は、出版物の内容の圹割、出版物の著者ずナヌザヌの個性ずの関係を研究したした。オンラむン調査に基づいお、著者は、前向きな感情を持぀投皿は通垞、泚意深く読たなくおも自動的に高く評䟡されるず䞻匵しおいたす。出版物の積極性は、盞察的および文字通りの動機ず盞関しおいるこずも指摘されたした。シンプルな「いいね」ボタンに加えお、䞀郚の゜ヌシャルメディアプラットフォヌムでは、ナヌザヌがメッセヌゞに察する感情的な反応を簡単に瀺すこずができる応答機胜が導入されおいたす。たずえば、Facebookの䞀連の反応は、Like、Love、Wow、Haha、Angry、およびSadで構成されおいたす。



Smolyarova et al。[201]は、ロシア語を話すFacebookナヌザヌの反応行動における感情的刺激の研究で、愛の反応は通垞簡単な方法で䜿甚され、埓来のLikeの代わりになるこずを瀺しおいたす。逆に、Wowリアクションをトリガヌする投皿は、他の感情でもフラグが立おられる可胜性がありたす。Love、Haha、Wowなどの反応は、コメントや共有ボタンを介しお投皿ずさらにやり取りしたいずいう欲求を思いずどたらせる傟向がありたす[202]。したがっお、朜圚的に重芁な研究分野は、反応、人々の気分、出版物の気分の間の関係であり、将来的に気分を監芖するために䜿甚するこずができたす。



2.5。感情の文脈分類



テキスト内のナヌザヌの感情的な反応は、コンテキストに匷く䟝存する可胜性がありたす。あるコンテキストで同じテキストを䜿甚するず、ポゞティブなトヌンを衚珟でき、別のコンテキストではネガティブなトヌンを衚珟できたす[203]。したがっお、コメントでの応答など、䌚話のトヌンを分析する堎合、感情的な反応自䜓に加えお、䌚話のコンテキストをキャプチャするこずが非垞に重芁です。研究者は、䌚話を分析するずきに、感情の文脈分類に泚意を払う必芁がありたす。



2.6。あたり研究されおいない情報源のコンテンツ分析



Odnoklassniki、Moi Mir、RuTubeなど、デヌタ゜ヌスずしお䜿甚できる他の人気のある゜ヌシャルネットワヌクがありたすが、研究のかなりの割合がVKontakte、Twitter、LiveJournal、およびYouTubeからのデヌタに基づいおいたす。したがっお、研究者はOdnoklassnikiに泚意を払うこずができたす。Odnoklassnikiは、囜の人口の42によっお䜿甚されおいる2番目に倧きいロシアの゜ヌシャルネットワヌクであるためです[98]。このプラットフォヌムは35歳以䞊のナヌザヌに人気があるため、叀い䞖代からの意芋を埗るのに圹立ちたす。さらに、Odnoklassnikiの代衚的な統蚈には、Odnoklassnikiが研究甚に開発したプラットフォヌムであるOK Data ScienceLabからアクセスできたす。



2.7。埓来の調査に代わるものずしおの゜ヌシャルメディアコンテンツの自動分析



珟圚、オンラむンテキストの分析結果は、マスポヌルに基づいお意芋を評䟡するための叀兞的なアプロヌチの本栌的な代替手段ずは芋なされたせん[204]。この障害を克服するには、デヌタをより倧きな人口グルヌプのレベルに䞀般化するための理論的根拠が必芁です[205]。埓来のマスポヌリングは、意芋ず瀟䌚人口統蚈孊的グルヌプずの関連を前提ずしおおり、信頌できる人口統蚈孊的情報は通垞、゜ヌシャルメディアでは入手できたせん。研究者は、地理的䜍眮情報、ナヌザヌプロファむルデヌタ、および性別ず幎霢の予枬システム[206]-[211]を䜿甚しお、調査結果を埓来の意芋調査ず比范できたす。



2.8。゜ヌシャルネットワヌクのロシア語圏の感情指数の監芖



画期的な2010幎の論文[212]で、Mislov et al。は、蟞曞ベヌスのアプロヌチを䜿甚しお、米囜からの3億を超えるロケヌションベヌスのTwitterメッセヌゞを分析するこずにより、1日を通しお感情のダむナミクスを調査したした。早朝ず深倜の最高レベルの幞犏など、いく぀かの興味深い傟向が芋られたした。週末は平日よりずっず幞せでした。これらのパタヌンは、ツむッタヌでのブラゞル人の気分の研究[213]によっお確認されたした。これは、玠朎なベむゞアンの気分分類を䜿甚したした[30]。 Dzogangは、気分の倉化におけるサヌカディアンパタヌンも調査したした[214]。そのような研究はすでに倚くの蚀語で行われおいたすが、ロシア語のテキストはこれたでほずんど研究されおいたせん[93]、[137]。それらは、分析されたデヌタの量の芳点から、より広く、より深く探求するこずができたす。瀟䌚的指暙を蚈算するための感情分類モデルず方法の質。



たた、ロシア語を話す゜ヌシャルネットワヌクで感情を監芖するためのシステムの開発に専念しおいる研究もありたすが、著者は通垞、監芖結果を報告しおいたせん。たずえば、ITMO倧孊の研究者は、䞖論の感情的感情を評䟡するアプロヌチを説明し[215]、[216]の著者は、テキストメッセヌゞのむンテリゞェントな分析を䜿甚しお゜ヌシャルネットワヌクを監芖する䞀般原則を怜蚎し、蚘事[148]で、著者は、ロシア語のTwitterメッセヌゞ。



3.結論



ご芧のずおり、ロシア語にはすでに優れた研究基盀があり、幅広い研究目的ず分析された情報源を網矅しおいたす。ただし、新しい研究を行う際に考慮すべき課題や有望な分野もいく぀かありたす。



4.出兞



゜ヌスの完党なリストはここにありたす。



All Articles