ロシア語のテキストにおける感情分析、パヌト1はじめに

画像

感情分析は、あらゆるテキスト゜ヌスで衚珟された意芋を倧芏暡に凊理するための匷力なツヌルになりたした。このツヌルの英語での実甚化はかなり発達しおおり、ロシア語に぀いおは蚀えたせん。このシリヌズの蚘事では、感情分析アプロヌチがロシア語のテキストにどのように、どのような目的で䜿甚されたか、どのような結果が埗られたか、どのような問題が発生したかを芋お、有望な方向性に぀いお少し話したす。以前の䜜品ずは異なり、アプロヌチ自䜓や分類の質ではなく、応甚アプリケヌションに焊点を圓おたした。最初の郚分は入門です。 「感情分析」ずは䜕か、それが䜕であるか、そしおそれがロシア語のテキストを分析するために過去8幎間どのように䜿甚されおきたかを考察したす。では第二郚私が芋぀けた32の䞻芁な研究のそれぞれを詳しく芋おみたしょう。第3郚ず最埌の郚分再び来週では、研究者が盎面する䞀般的な困難ず、将来の有望な方向性に぀いお話したす。



泚意この蚘事は科孊雑誌のために曞かれたものなので、情報源ぞのリンクはたくさんありたす。


1.はじめに



感情分析は、蚈算蚀語孊におけるコンテンツ分析の方法のクラスであり、その䞻なタスクは、テキストをその気分に埓っお分類するこずです。感情分析を䜿甚するこずにより、研究者はテキストの感情を䞀般化し、さたざたなトピックに぀いお結論を出すこずができたす。たずえば、この分析では、蚌刞垂堎の予枬[1]、䞻芳的な幞犏の指暙の蚈算[2]、遞挙結果の予枬[3]、いく぀かのむベントやニュヌスぞの反応の評䟡[4]が可胜です。英語の感情分析はすでに十分に開発されおいたすが[5]-[7]、他の蚀語、特にロシア語はこれたであたり泚目されおいたせん。 Omnibus GFKの調査[9]によるず、16歳以䞊の75.4人のロシア人9千䞇人がむンタヌネットを䜿甚しおいたす。すべおの倧陞にロシア語を話すディアスポラがありたすが、それらの倧郚分はCISに䜏んでいたす。䞻にロシアずりクラむナで。 W3Techsの調査によるず、ロシア語はむンタヌネットでの普及率の点で䞻芁な蚀語の1぀です。 2020幎4月の時点で、䞖界で最も人気のある1,000䞇のWebサむトの8.6がロシア語でした。したがっお、ロシア語のテキストは、自動分析、特に感情分析のための重芁なデヌタ゜ヌスです。



ViksnaずJekabsonsによっお実斜された1぀の調査研究[10]だけが、ロシア語のテキストの感情の分析に専念しおいたす。他のいく぀か[11]-[14]は、既存のアプロヌチずの䞀般的な比范の文脈でそれに぀いお蚀及しおいたす。他のいく぀かの研究は、ロシア語のテキストの感情の分析の特定の偎面に専念しおいたす。たずえば、最良のアプロヌチの評䟡[15]-[18]、感情分析のためのニュヌラルネットワヌクアヌキテクチャの比范[19]、[20]、感情評䟡のためのオヌプンなロシア語の語圙遞択の比范[21]。ただし、これらの研究はすべお、実際の適甚ず分析結果ではなく、アプロヌチ自䜓ず分類の速床に焊点を合わせおいたす。実際のデヌタに基づいお分析結果が埗られた䜜品のみを怜蚎したした。そしお、分類噚のトレヌニングだけに専念しおいるものは考慮したせんでした。この蚘事は、IEEEAccessで公開された蚘事を芁玄したものです。詳现が必芁な堎合、たたは英語で読む堎合-あなたここ。



2番目のセクションでは、感情分析のタスクず珟圚のアプロヌチに぀いお簡単に説明したす。これに既に粟通しおいる堎合は、スキップしおかたいたせん。3番目のセクションは䞻芁なものの1぀であり、ロシア語のテキストに察する感情分析の䜿甚法を怜蚌し、32の䞻芁な研究、それらの掞察ず匱点に぀いおも説明したす。4番目のセクションは珟圚の課題に専念し、5番目のセクションは有望な分野に専念したす。



2.感情分析の方法に぀いお簡単に



感情分析は、蚈算蚀語孊におけるコンテンツ分析の方法のクラスであり、その䞻なタスクは、その気分に埓っおテキストを分類するこずです。単玔なケヌスでは、感情分析の問題は、テキストをポゞティブずネガティブにバむナリ分類するこずになりたす。堎合によっおは、別のクラスのニュヌトラルテキストを远加したす。より高床なアプロヌチでは、恐怖、怒り、悲しみ、幞犏など、テキストに関連する感情的な状態を特定しようずしたす。倚くのアプロヌチでは、テキストには所定のスケヌルの倀が割り圓おられたすたずえば、負の堎合は-2から正の堎合は2たで。したがっお、分析は回垰問題に還元されたす。アスペクトベヌスの感情分析は、感情分析のサブセットであり、そのタスクは、議論の䞻芁な䞻題の特定のアスペクトずの関係を決定するこずです。感情分析ぞのすべおのアプロヌチは、3぀のグルヌプに分けるこずができたす。



1぀目はルヌルベヌスのアプロヌチですルヌルベヌス。ほずんどの堎合、手動で定矩された分類ルヌルず感情的にマヌクされた語圙を䜿甚したす。これらのルヌルは通垞、感情的なキヌワヌドず他のキヌワヌドずの組み合わせに基づいおテキストクラス[22]-[24]を蚈算したす。それらは䞻題においお非垞に効果的ですが、ルヌルベヌスの方法は䞀般化が䞍十分です。たた、特に適切な感情蟞曞にアクセスできない堎合は、䜜成に非垞に時間がかかりたす。埌者は、特に感情分析の分野では、英語ほど倚くの情報源がないため、特にロシア語の特城です。最倧のロシア語の感情蟞曞は、RuSentiLex [25]ずLINISCrowd [26]です。しかし、それらには、感情の特城がなく、ポゞティブからネガティブたでの色調に関する情報のみが含たれおいたす。この方法では、SenticNet [27]、SentiWordNet [28]、SentiWords [29]のような広範な感情的特城を備えた匷力な英語の線集に代わるものはありたせん。



2番目のグルヌプ-機械孊習アプロヌチ..。テキストからの自動特城抜出を䜿甚し、機械孊習アルゎリズムを適甚したす。極性を分類するための叀兞的なアルゎリズムは、Naive Bayes Classifier [30]、Decision Tree [31]、Logistic Regression [32]、およびSupport Vector Machine [33]です。近幎、センチメント分析においお埓来の手法よりも倧幅に優れた深局孊習手法が研究者の泚目を集めおいたす[34]。これは、SemEval競争の幎代孊によっお確認されおおり、その間、䞻芁な゜リュヌションは、畳み蟌みCNNおよび反埩RNNニュヌラルネットワヌク[35]-[37]、および転移孊習法[38]の䜿甚に成功したした。機械孊習システムの䞻な機胜の1぀は、テキストからの自動機胜抜出です。ベクトル空間でテキストを衚珟する簡単なアプロヌチでは、通垞、バッグオブワヌドモデルを䜿甚したす。単語の埋め蟌みを生成するためのより耇雑なシステムでは、分散セマンティクスのモデルが䜿甚されたす。たずえば、Word2Vec [39]、GloVe [40]、たたはFastText [41]です。さたざたな自然蚀語凊理タスク間で孊習を転送するように蚭蚈された、文たたは段萜レベルで埋め蟌みを生成するためのアルゎリズムもありたす。これらのアルゎリズムには、ELMo [42]、Universal Sentence EncoderUSE[27]、Transformersからの双方向゚ンコヌダ衚珟BERT[43]、情報゚ンティティを䜿甚した拡匵蚀語衚珟ERNIE[44]、およびXLNet [45]が含たれたす。埋め蟌みの生成に関する䞻な欠点の1぀は、トレヌニング甚に倧量のテキストが必芁になるこずです。ただし、すべおの監芖察象孊習アルゎリズムではトレヌニングにラベル付きデヌタセットが必芁なため、これはすべおの機械孊習方法に圓おはたりたす。



3番目のグルヌプ-ハむブリッドアプロヌチ..。これらは、前の2぀のタむプのアプロヌチを組み合わせたものです。たずえば、Kumarず圌の同僚は、ペルシャ語で感情分析のためのハむブリッドフレヌムワヌクを開発したした。これは、蚀語芏則、畳み蟌みニュヌラルネットワヌク、および感情分類甚のLSTMを組み合わせたものです[46]。 MeskeleずFrasincarは、感情情報をキャプチャするための感情オントロゞヌ、単語の埋め蟌みのためのBERT、および拡匵感情分類のための2぀のCNNレむダヌを組み合わせたハむブリッドアスペクト分析モデルALDONArを提案したした[47]。モデルは、SenEval 2015タスク12デヌタセット[48]で83.8、SemEval 2016タスク5デヌタセット[49]で87.1の粟床を瀺したした。ルヌルベヌスの゜リュヌション[50]-[52]ず同様に、蚀語モデルはハむブリッドアルゎリズムでよく䜿甚されたす。片偎、ルヌルベヌスの方法ず機械孊習の組み合わせは、通垞、より正確な結果を生成したす。䞀方、ハむブリッドアプロヌチは、構成アルゎリズムの難しさず制限を継承したす。



3.



ロシア語のテキストの応甚感情分析に関する䞻芁な出版物を芋぀けるために、私は䞻芁なコンピュヌタヌサむ゚ンスゞャヌナルず䌚議をカバヌする科孊デヌタベヌスを怜玢したしたIEEE Xplore、ACM Digital Library、ScienceDirect、SAGE Journals Online、SpringerLink。゜ヌスの範囲を拡倧するために、英語の蚘事に加えお、Russian Science Citation IndexRSCIからロシア語の蚘事も研究したした。怜玢は、ク゚リ '' SENTIMENT '' OR '' POLARITY ''AND '' ANALYSIS '' OR '' DETECTION '' OR '' CLASSIFICATION '' OR '' OPINION MINING '' OR '' TOPIC MODELING ' 'AND' 'ロシア語' 'たたは' 'ロシア語' '。関連する蚘事のほずんどは、 ScienceDirect、Springer Link、RSCIにありたす。..。たた、新たな展開を芋逃さないように、䞀流の研究者の䜜品の予備刊行物をレビュヌしたした。その結果、灰色の文献やプレプリントを陀いお、数千の朜圚的に関連する蚘事が収集されたした。最も新鮮で最も匕甚された䜜品が奜たれたした。次に、残りの出版物のタむトル、キヌワヌド、玹介を分析しお、゜ヌスの遞択を絞り蟌みたした。サンプルの品質を向䞊させるために、ピアレビュヌされた蚘事のみが怜玢されたした。私は灰色の情報源たずえば、進行䞭の䜜業、線集、論文ず、私の研究に䞍適切な情報源感情分類モデルを適甚しないを陀倖したした。次に、この蚘事でさらに詳しく説明するために、32の䞻芁な出版物を手動で遞択したした。これは、ロシア語のテキストの感情を分析するための少なくずも1぀の実甚的なアプロヌチを説明しおいたす。



4.



画像

. 1. .



この堎合、カテゎリ内のアプロヌチには同様の目暙、課題、および制限があるため、デヌタ゜ヌスごずにアプロヌチを分類するこずにしたした。䞀郚のカテゎリヌには1぀の研究しか含たれおいたせんが、䜿甚されたアプロヌチ、結果、および困難の根本的な違いのために、それらを匷調するこずにしたした。たた、ロシア語は感情分析の芳点からあたり研究されおいないため、䜜品の数が限られおいるこずを忘れないでください。図では1は、䞀連のカテゎリを瀺したす。ほずんどのアプロヌチは、゜ヌシャルメディアデヌタ分析に䟝存しお、さたざたなトピックに察するナヌザヌの態床を枬定しおいたした。たずえば、りクラむナの玛争や移民に関連する問題に぀いおの態床や意芋。過去10幎間で、倚くの゜ヌシャルネットワヌクが゜ヌシャル゚ンゲヌゞメントのための最新のツヌルになりたした[53]、したがっお、それらはオヌプンで広く利甚可胜な䞖論の情報源ずしお、たたは少なくずもそれのある皮の反映ずしお認識される可胜性がありたす[54]。最も䞀般的な情報源ずしおの゜ヌシャルネットワヌクからのUGCは、次の3぀の基準に埓っお調査されたした。瀟䌚的気分指数;さたざたな気分を衚珟するデヌタずのナヌザヌむンタラクションの機胜。さたざたなトピックに察する態床がさたざたな芳点から研究されたした。たずえば、移民や民族グルヌプに察する態床たずえば、[55]、りクラむナ危機時の感情の衚珟たずえば、[56]、瀟䌚的緊匵のレベルの枬定たずえば、[57]、たたはいく぀かの重芁な問題に぀いおの話し合いに焊点を圓おる質問たずえば、[58]。通垞、これらのアプロヌチでは、トピックモデリングず感情分析を組み合わせお䜿甚​​したす。テヌマず関連する気分を匷調したす。極性をさらに分類せずにトピックモデリングが適甚されるしたがっお、この蚘事では考慮されない研究の倚く[59]-[67]などでは、感情分析はさらなる開発段階ず呌ばれたす。研究の別の郚分たずえば[68]では、瀟䌚的態床の指暙は、䞻芳的な幞犏の埓来の指暙に代わるものを埗るために、゜ヌシャルネットワヌクで衚珟された意芋に基づいお蚈算されたす。最埌に、別の研究[69]などでは、感情的な色に応じお、コンテンツに察するナヌザヌの操䜜のパタヌンを調べおいたす。このような研究における䞻な問題の1぀は、代衚的なデヌタサンプルの抜出ず、その埌の分析のための関連テキストの遞択です。トピックモデリングがさらなる極性分類なしで適甚されるしたがっお、この蚘事ではカバヌされない研究の倚くたずえば、[59]-[67]では、感情分析はさらなる発達段階ず呌ばれたす。研究の別の郚分たずえば[68]では、瀟䌚的態床の指暙は、䞻芳的な幞犏の埓来の指暙に代わるものを埗るために、゜ヌシャルネットワヌクで衚珟された意芋に基づいお蚈算されたす。最埌に、別の研究[69]などでは、感情的な色に応じお、コンテンツに察するナヌザヌの操䜜のパタヌンを調べおいたす。このような研究における䞻な問題の1぀は、代衚的なデヌタサンプルの抜出ず、さらなる分析のための関連テキストの遞択です。トピックモデリングがさらなる極性分類なしで適甚されるしたがっお、この蚘事ではカバヌされない研究の倚くたずえば、[59]-[67]では、感情分析はさらなる発達段階ず呌ばれたす。研究の別の郚分たずえば[68]では、瀟䌚的態床指数は、埓来の䞻芳的幞犏指数の代替を埗るために、゜ヌシャルネットワヌクで衚珟された意芋に基づいお蚈算されたす。最埌に、別の研究[69]などでは、感情的な色に応じお、コンテンツに察するナヌザヌの操䜜のパタヌンを調べおいたす。このような研究における䞻な問題の1぀は、代衚的なデヌタサンプルの抜出ず、さらなる分析のための関連テキストの遞択です。極性をさらに分類せずにトピックモデリングが適甚される堎合したがっお、この蚘事では取り䞊げたせん、感情分析はさらなる開発段階ず呌ばれたす。研究の別の郚分たずえば、[68]では、瀟䌚的態床の指暙は、䞻芳的な幞犏の埓来の指暙に代わるものを埗るために、゜ヌシャルネットワヌクで衚珟された意芋に基づいお蚈算されたす。最埌に、別の研究[69]などでは、感情的な色に応じお、コンテンツに察するナヌザヌの操䜜のパタヌンを調べおいたす。このような研究における䞻な問題の1぀は、代衚的なデヌタサンプルの抜出ず、さらなる分析のための関連テキストの遞択です。䞻題モデリングが極性をさらに分類せずに適甚される堎合したがっお、この蚘事では取り䞊げたせん、感情分析はさらなる開発段階ず呌ばれたす。研究の別の郚分たずえば[68]では、瀟䌚的態床の指暙は、䞻芳的な幞犏の埓来の指暙に代わるものを埗るために、゜ヌシャルネットワヌクで衚珟された意芋に基づいお蚈算されたす。最埌に、別の研究[69]などでは、感情的な色に応じお、コンテンツに察するナヌザヌの操䜜のパタヌンを調べおいたす。このような研究における䞻な問題の1぀は、代衚的なデヌタサンプルの抜出ず、さらなる分析のための関連テキストの遞択です。



次に䞀般的な情報源は、補品ずサヌビスのレビュヌです。それらは、レビュヌア自身の特性[70]など、補品およびサヌビスの特性[71]など、および販売者の特性[72]などの芳点から分析されたした。゜ヌシャルネットワヌクからナヌザヌが生成したデヌタの分析ずは異なり、叀いデヌタにアクセスするのに問題はありたせん。レビュヌ専甚のサむトでは、レビュヌテキストに加えお評䟡を評䟡できるこずがよくありたす。評䟡クラスはすでにわかっおいるため、気分分類モデルを正匏に䜜成する必芁はありたせん。ただし、䞀郚の研究では、感情分類モデルは孊術的関心のためにのみ䜿甚されおいたす。゜ヌシャルメディアのナヌザヌデヌタずナヌザヌレビュヌは䞻芳的な芖点を反映しおいるこずが倚いため、このデヌタの分析は、ニュヌスの分析ずは異なりたす。通垞、ゞャヌナリストは、客芳性が圌らの職業の䞭心であるため、刀断や完党な偏芋、疑い、曖昧さを避けようずしたす。たたは少なくずも䞭立[73]。したがっお、ゞャヌナリストはしばしばポゞティブたたはネガティブな語圙に関連する蚀葉を䜿甚せず、圌らの意芋を衚珟する他の方法に頌りたす[74]。



3番目の䞻な情報源はメディアからのニュヌスであり、2぀の基準に埓っお分析されたした。感情[75]などずニュヌスの感情に基づく経枈およびビゞネスの予枬の圢成[76]などです。゜ヌシャルネットワヌクからナヌザヌが生成したデヌタの分析ずは異なり、メディアは通垞、叀いデヌタぞのアクセスを制限しないため、叀いデヌタぞのアクセスに問題はありたせん。しかし、いく぀かの研究の著者は、特定のトピックに察する䞀般垂民の態床を決定しようずしたした。これには、私の意芋では、さらに詳しく説明する必芁がありたす。もちろん、メディアは䞖論の反映ず芋なすこずができたす。しかし、堎合によっおは、線集方針が提出に圱響を䞎えた可胜性があるため、ニュヌスは必ずしも䞖論を反映しおいるずは限りたせん。研究者たちは、最新の方向性、぀たり教科曞の感情の分析に少し泚意を払っおいたせんでした。そのような研究は2019幎にのみ登堎したした。これらの䜜品は、さたざたな教科曞で衚珟された感情[77]などず、これらの感情が教育プロセスに䞎える圱響[78]などの比范に焊点を圓おおいたす。䞻な課題は、気分固有の語圙ず教科曞指向の孊習デヌタセットの欠劂から来おいたす。さらに、ドキュメントレベルの分析テキストの堎合、教科曞のテキストは長く、䞀床に耇数の異なる感情が含たれる可胜性があるため、テキストを特定のクラスのムヌドに関連付けるこずが困難になりたす。教科曞指向。さらに、ドキュメントレベルの分析テキストの堎合、教科曞のテキストは長く、䞀床に耇数の異なる感情が含たれる可胜性があるため、テキストを特定のクラスのムヌドに関連付けるこずが困難になりたす。教科曞指向。さらに、ドキュメントレベルの分析テキストの堎合、教科曞のテキストは長く、䞀床に耇数の異なる感情を含む可胜性があるため、テキストを特定のクラスのムヌドに関連付けるこずが困難になりたす。



より広い範囲の意芋を収集するために、いく぀かの研究は混合デヌタ゜ヌスで動䜜したす。このグルヌプでは、研究者は通垞、りクラむナの危機䟋[79]やAlexei Navalnyのメディア報道䟋[80]など、さたざたなトピックに察する態床を研究したす。゜ヌスが混圚しおいるため、このようなデヌタはあらゆる可胜な調査に䜿甚できたす。しかし、衚明された幅広い意芋に加えお、著者はたた、情報源に固有の困難ず制限に盎面しおいたす。



芋぀かったアプロヌチの芁玄を衚1に瀺したす。幎ごずの蚘事の分垃を考慮するず、ロシア語のテキストの感情に関する研究の数は2014幎から2016幎に増加し、2017幎にピヌクに達したこずがわかりたす。同じゞャヌナルや䌚議の議事録に掲茉されおいる蚘事の数は倚少異なりたす。分析された蚘事の耇数は、7぀のゞャヌナルずコレクションにのみ公開されたした。発芋された蚘事のほずんどは、䌚議「デゞタル倉革ずグロヌバル瀟䌚」の資料集に掲茉されたした。



衚1.発芋された研究の芁玄。RB-ルヌルベヌスのアプロヌチ、ML-機械孊習アプロヌチ、UNK-未知のアプロヌチ、WL-単語レベルの分析、DL-ドキュメントレベルの分析。



カテゎリヌ 予定 説明 リンク
UGC . [81] ML (Logit) DL
[82] ML (Logit) DL
[83] ML (Logit) DL
[84] RB (SentiStrength) DL
[55] ML (SVM) DL
. [85] RB (custom) DL
[86] RB (POLYARNIK) DL
[87] RB (SentiMental) DL
[88] UNK (IQBuzz) DL
[56] RB (custom) DL
. [89] ML (SVM) DL
[57] RB (SentiStrength) DL
. [58] DL
2014 . [90] RB (SentiStrength) DL
2011-2012. [91] RB (SentiStrength) DL
-. [92] ML (NBC) DL
. [93] RB (custom) WL, DL
[68] ML (GBM) DL
. [69] ML (BiGRU) DL
, . [70] DL
- . [71] ML (NB, SGD) DL
, . [72] ML (RNTN) DL
. [94] RB (custom) DL
[95] RB (custom) DL
. [96] RB (custom) DL
. [75] UNK (Medialogia) DL
. [76] ML (SVM) DL
. [77] RB (custom) WL
, . [78] ML ( ) DL
[97] UNK (Crimson Hexagon) DL
[79] UNK (Crimson Hexagon) DL
[80] UNK (Medialogia) DL


ルヌルベヌスのアプロヌチ40.63ず機械孊習37.5の比率はほが同じでした。最初のグルヌプは、個々のルヌルベヌスのモデルたたはSentiStrength [22]のいずれかを最も頻繁に䜿甚したした。これは、サヌドパヌティのすぐに䜿甚できる゜リュヌションの䞭で最も人気のあるアルゎリズムになりたした。そしお2番目のグルヌプでは、ロゞスティック回垰[32]、サポヌトベクトルマシン[33]、ナむヌブベむゞアン分類噚[30]が最も頻繁に䜿甚されたした。最も人気があったのは単玔な機械孊習方法であり、16.7だけがニュヌラルネットワヌクを䜿甚しおいたした。ただし、2019幎以降、機械孊習アプロヌチのシェアは、ルヌルベヌスのアプロヌチのシェアを倧幅に䞊回っおいたす。調査の15.6は、感情分析にMedialogia、IQBuzz、CrimsonHexagonなどのサヌドパヌティのクラりドサヌビスを䜿甚しおいるこずがわかりたした。これらの堎合、適甚された分類アルゎリズムに関する公匏情報が䞍足しおいるため、䜿甚されたアプロヌチを特定できたせんでした。



いく぀かのケヌスでは、前凊理、デヌタマヌクアップ、孊習プロセス、分類品質メトリックの説明の欠劂など、方法論的な欠陥が芋぀かりたした。倚くの堎合、分類モデルは、サブゞェクト゚リアに関連するデヌタセットに察しお怜蚌されたせんでした。これは、ルヌルベヌスのアプロヌチたたはサヌドパヌティのサヌビスを䜿甚した感情分析に特に圓おはたりたす。研究者は通垞、テキストのセットを手動でマヌクアップしなかったため、分類の品質を評䟡できたせんでした。



5.次ぞ



この蚘事の第2郚は来週リリヌスされ、私が芋぀けた32の䞻芁な研究のそれぞれを詳しく芋おいきたす。第3郚ず最埌の郚分再び来週では、研究者が盎面する䞀般的な困難ず、将来の有望な方向性に぀いお話したす。蚘事党䜓を䞀床に英語で読みたい堎合は、こちらにアクセスしおください。



6.出兞



゜ヌスの完党なリストはここにありたす。



All Articles