ロシア語のテキストにおける感情分析、パヌト2基瀎研究

画像



研究者たちは、゜ヌシャルネットワヌクからの投皿、レビュヌ、ニュヌス蚘事、本など、たったく異なるロシア語のテキストに感情分析を適甚したした。結果ずしお、圌らの研究の結果も完党に異なり、非垞に興味深いものでした。たずえば、前向きな口調のテキストが倖囜語の孊習をより面癜くするが、効果が䜎くなるず誰が考えたでしょうか。このシリヌズの蚘事では、感情分析アプロヌチがロシア語のテキストにどのように、どのような目的で䜿甚されたか、どのような結果が埗られたか、どのような問題が発生したかを芋お、有望な方向性に぀いお少し話したす。



以前の䜜品ずは異なり、アプロヌチ自䜓や分類の質ではなく、応甚アプリケヌションに焊点を圓おたした。では最初の蚘事「感情分析」ずは䜕か、それが䜕であるか、そしおそれがロシア語のテキストを分析するために過去8幎間どのように䜿甚されおきたかに぀いお議論したした。このパヌトでは、私が芋぀けた32の䞻芁な研究のそれぞれを詳しく芋おいきたす。第3郚ず最埌のパヌト来週では、研究者が盎面する共通の課題ず、将来の有望な方向性に぀いお話したす。



泚意この蚘事は科孊雑誌のために曞かれたものなので、情報源ぞのリンクはたくさんありたす。


倚くの研究では、ロシアの゜ヌシャルネットワヌクず集玄プラットフォヌムからのデヌタを䜿甚しおいたした。以䞋は、最も人気のあるロシアおよび倖囜のリ゜ヌスずそれらの䜿甚の統蚈の簡単な説明です。



  • 90 , . Deloitte [98], , 70 % . 16—24 , .
  • YouTube , 62 % . 16—24 , 58—64 %.
  • Twitter [98], 5 % . 25—65 , 55—64 .
  • LiveJournal , 3 % . 35—44 , .
  • Medialogia — , . 500 . 100 . 52 000 900 .
  • IQBuzzは、Facebook、Twitter、VKontakte、My World、Instagram、4sq、LiveJournal、LiveInternet、Google、YouTube、RuTubeなどのメディア内の10,000を超える゜ヌスからの情報を凊理する監芖サヌビスです。システムは、ポゞティブメッセヌゞずネガティブメッセヌゞを自動的に識別し、蓄積されたデヌタベヌスで重耇を排陀しお耇雑な怜玢を実行できたす。


以䞋に、発芋された研究、それらで埗られた結果、および著者によっお匕き出された結論に぀いお説明したすが、これらは私の立堎ず䞀臎しない可胜性がありたす。



1.゜ヌシャルメディア䞊のUGC



画像

倚くの゜ヌシャルネットワヌクは、゜ヌシャル゚ンゲヌゞメントのための最新のツヌルになっおいたす[53]。ナヌザヌが生成したデヌタは、重芁でアクセス可胜な䞖論の情報源であるか、少なくずもそれを反映しおいるため、意芋調査を補完たたは眮き換えるこずができたす[54]。ナヌザヌが生成したデヌタは、次の3぀の基準に埓っお調べられたした。



  • さたざたなトピックぞの態床。
  • 瀟䌚的気分指数。
  • さたざたな感情を衚珟するデヌタずのナヌザヌむンタラクションの詳现。


1.1。さたざたなトピックぞの態床



ロシア語のテキストの研究で最も頻繁に取り䞊げられたトピックは、民族間の関係ず移䜏の問題、そしおりクラむナの危機でした。瀟䌚的緊匵の分析やその他のトピックにかなりの泚意が払われたした。



1.1.1民族グルヌプず移民



民族間の関係ず移䜏の問題、および関連するトピックは、十分に発達した瀟䌚孊的方法を䜿甚しお深く調査されおきたした。しかし、むンタヌネットず自然蚀語凊理の急速な発展により、比范的新しいアプロヌチの研究が可胜になりたした。゜ヌシャルメディアは、個人やグルヌプが公然ず玛争に参加するこずを可胜にしたす。むンタヌネットでは、移䜏や民族グルヌプの問題に関する刀断は、むンタヌネット時代以前よりもはるかに速く広がり、はるかに幅広い聎衆に届く可胜性がありたす[54]。より倚くの孊術研究は、吊定的なオンラむンコンテンツがオフラむンの民族玛争[99]ず憎悪犯眪[100]に圱響を䞎えるこずを蚌明したした。この方法では、むンタヌネット技術の発展に䌎い、オンラむンコンテンツに基づいお民族間の関係や移䜏の問題を分析するこずの重芁性が増しおいたす。



Bodrunovaずその同僚による研究は、ロシア語を話すオンラむンコミュニティの公の堎での移民に察する態床に焊点を圓おた[81]。 2013幎2月4日から5月19日たで、ロシアの䞻芁ブロガヌから363,579件の投皿を収集したした。 [59]、[101]で説明されおいる戊略を適甚しお、朜圚的Dirichlet割り圓お[102]を䜿甚する研究者は、関連する議論を特定したした。次に、いく぀かのディスカッションず感情クラスを手動でマッピングしたした。次に、感情の分類を含む、いく぀かのテキスト分類問題に぀いお、二項ロゞスティック回垰のモデル二項ロゞスティック回垰[32]をトレヌニングしたした。結果によるず、すべおの移民は吊定的に認識され、䞭倮アゞアやアメリカ人からの移民ず比范しお、北コヌカサスから到着したすべおの移民のほずんどが吊定的でした。ペヌロッパ人やアメリカ人に察しお前向きな姿勢はありたせんでした。同時に、ペヌロッパ人、アメリカ人、癜人は、犠牲者ではなく、䟵略者ずしお認識されおいたした。䞭倮アゞア人は吊定的な意味を持぀゚むリアンずしお描写されたした。䞀般的に、ペヌロッパ人は芋知らぬ人やパヌトナヌずしお認識されおおらず、アメリカ人は危険であるず認識され、ナダダ人は完党に無害であるず認識されおいたした。研究の著者は、人口の゜ビ゚ト埌の粟神的分裂は珟圚の地理的境界ず完党には䞀臎しないず䞻匵したす。そのため、以前は緊密なグルヌプがすでに独自の政治的議題を持぀別々の囜ずしお認識されおいたす。この䜜業の䞻な欠点の1぀は、デヌタ蚘述の品質の評䟡ず分類メトリックの指定が䞍足しおいるこずです。䞭倮アゞア人は吊定的な意味を持぀゚むリアンずしお描写されたした。䞀般的に、ペヌロッパ人は芋知らぬ人やパヌトナヌずしお認識されおおらず、アメリカ人は危険であるず認識され、ナダダ人は完党に無害であるず認識されおいたした。研究の著者は、人口の゜ビ゚ト埌の粟神的分裂は珟圚の地理的境界ず完党には䞀臎しおいないず䞻匵しおいる。この䜜業の䞻な欠点の1぀は、デヌタ蚘述の品質評䟡ず分類メトリックの仕様が䞍足しおいるこずです。䞭倮アゞア人は吊定的な意味を持぀゚むリアンずしお描写されたした。䞀般的に、ペヌロッパ人は芋知らぬ人やパヌトナヌずしお認識されおおらず、アメリカ人は危険であるず認識され、ナダダ人は完党に無害であるず認識されおいたした。研究の著者は、人口の゜ビ゚ト埌の粟神的分裂は珟圚の地理的境界ず完党には䞀臎しないず䞻匵したす。そのため、以前は緊密なグルヌプがすでに独自の政治的議題を持぀別々の囜ずしお認識されおいたす。この䜜業の䞻な欠点の1぀は、デヌタ蚘述の品質評䟡ず分類メトリックの仕様が䞍足しおいるこずです。゜ビ゚ト埌の人口の粟神的分裂は、珟圚の地理的境界ず完党には䞀臎しおいたせん。そのため、以前は緊密なグルヌプが、独自の政治的アゞェンダを持぀別個の囜ずしおすでに認識されおいたす。この䜜業の䞻な欠点の1぀は、デヌタ蚘述の品質評䟡ず分類メトリックの仕様が䞍足しおいるこずです。゜ビ゚ト埌の人口の粟神的分裂は、珟圚の地理的境界ず完党には䞀臎しおいたせん。そのため、以前は緊密なグルヌプが、独自の政治的課題を持぀別個の囜ずしおすでに認識されおいたす。この䜜業の䞻な欠点の1぀は、デヌタ蚘述の品質評䟡ず分類メトリックの仕様が䞍足しおいるこずです。



Koltsova [82]が率いるチヌムは、以前の研究[103]、[104]からの適応方法を䜿甚しお、ロシア語の゜ヌシャルネットワヌクのサむトでの民族間関係に関連する議論の総量を掚定したした。 2,660,222のテキストの䞻芁なコヌパスを䜜成するために、著者は、゜ビ゚ト埌の領土の97の民族グルヌプをカバヌする民族孊ずバむグラムの耇雑なリストを䜜成したした。次に、手動マヌクアップを䜿甚しお、7,181のテキストのトレヌニングデヌタセットが䜜成されたした。各テキストには、グルヌプ間の競合の存圚、グルヌプ間のポゞティブな接觊、党䜓的なネガティブたたはポゞティブなトヌンなど、いく぀かの基準に぀いお3人の専門家によっお泚釈が付けられたした。感情を分類するために、著者はラベル付けされたデヌタセットでロゞスティック回垰モデルをトレヌニングし[32]、肯定的な感情ずFに぀いおF 1 = 0.75を達成したした。負の堎合は1 = 0.68。著者らは、民族グルヌプぞの関心はグルヌプや地域によっお倧きく異なるこずを発芋したした。この研究に基づいお、コルツォワが率いるチヌムは、埗られた結果の質を改善し、偏芋の数を増やしたした。これは、次の研究で芋぀けるこずができたす[83]。たず、著者は手動凊理甚のデヌタセットを7,181から14,998の䞀意のテキストに増やしたした。次に、テキストは少なくずも3人の独立した専門家によっおマヌクアップされたした。次に、著者は、前の研究から埗られた最良のハむパヌパラメヌタを䜿甚しお、テキストを3぀のカテゎリポゞティブ、ニュヌトラル、ネガティブな態床に分割するロゞスティック回垰モデルを教えたした。これにより、分類メトリックが倧幅に改善されたした。感情の平均倀は次のずおりですP = 0.67、R = 0.55、F 1= 0.58。



Nagornyは圌の研究[84]で、ロシア語の゜ヌシャルネットワヌクにおける民族的議論の構造のテヌマを調査したした。民族蚎論に関連する4000以䞊の単語のリストに基づいお、著者は2014幎1月から2016幎12月たでの期間にVKontakteずIQBuzzから2 659849のテキストを収集したした。さらに、著者は、HSEむンタヌネット研究所で開発されたLDAアルゎリズムの修正版であるISLDA [26]を䜿甚したした。感情クラスを蚈算するために、NagornyはSentiStrength [22]ずロシア語の感情蟞曞LINISCrowd [26]を䜿甚したした。各トピックに぀いお、極性指数は、テキスト内のこのトピックの確率の積の合蚈を、察応する感情の倀で割ったものをトピックの党䜓的な重芁床で割ったものずしお蚈算されたした。 LDAの助けを借りお埗られた民族的議論の䞻題プロファむルを分析した埌、ナゎルニヌは最も吊定的で重芁なトピックを特定したした。それは明らかにした、議論の倧郚分は、最近の䞡囜間の玛争に関連したロシアずりクラむナの関係に関連しおいる。その結果、玛争がむンタヌネット䞊の議論の極性に圱響を䞎えたため、民族間のトピックを政治的なトピックから分離するこずは困難でした。最も吊定的な議論は、アルメニアの虐殺の文脈におけるりズベクの囜籍ずトルコずアルメニアの関係に関連しおいたす。ただし、この研究には欠点がありたす。たず、デヌタがどのように収集されたかは明確ではありたせん。 IQBuzzはむンタヌネット䞊のすべおの蚀及を远跡するず䞻匵しおいたすが、VKメッセヌゞぞのフルアクセスなしにこれを怜蚌するこずは䞍可胜です。第二に、分類メトリックは倧量のテキストで枬定されなかったため、分類された感情の質をテストするこずは困難です。その結果、玛争がむンタヌネット䞊の議論の極性に圱響を䞎えたため、民族間のトピックを政治的なトピックから分離するこずは困難でした。最も吊定的な議論は、アルメニアの倧虐殺の文脈におけるりズベクの囜籍ずトルコずアルメニアの関係に関連しおいたす。ただし、この研究には欠点がありたす。たず、デヌタがどのように収集されたかは明確ではありたせん。 IQBuzzはむンタヌネット䞊のすべおの蚀及を远跡するず䞻匵しおいたすが、VKメッセヌゞぞのフルアクセスなしにこれを怜蚌するこずは䞍可胜です。第二に、分類メトリックは倧量のテキストで枬定されなかったため、分類された感情の質をテストするこずは困難です。その結果、玛争がむンタヌネット䞊の議論の極性に圱響を䞎えたため、民族間のトピックを政治的なトピックから分離するこずは困難でした。最も吊定的な議論は、アルメニアの虐殺の文脈におけるりズベクの囜籍ずトルコずアルメニアの関係に関連しおいたす。ただし、この研究には欠点がありたす。たず、デヌタがどのように収集されたかは明確ではありたせん。 IQBuzzはむンタヌネット䞊のすべおの蚀及を远跡するず䞻匵しおいたすが、VKメッセヌゞぞのフルアクセスなしにこれを怜蚌するこずは䞍可胜です。第二に、分類メトリックは倧量のテキストで枬定されなかったため、分類された感情の質をテストするこずは困難です。最も吊定的な議論は、アルメニアの虐殺の文脈におけるりズベクの囜籍ずトルコずアルメニアの関係に関連しおいたす。ただし、この研究には欠点がありたす。たず、デヌタがどのように収集されたかは明確ではありたせん。 IQBuzzはむンタヌネット䞊のすべおの蚀及を远跡するず䞻匵しおいたすが、VKメッセヌゞぞのフルアクセスなしにこれを怜蚌するこずは䞍可胜です。第二に、分類メトリックは倧量のテキストで枬定されなかったため、分類された感情の質をテストするこずは困難です。最も吊定的な議論は、アルメニアの虐殺の文脈におけるりズベクの囜籍ずトルコずアルメニアの関係に関連しおいたす。ただし、この研究には欠点がありたす。たず、デヌタがどのように収集されたかは明確ではありたせん。 IQBuzzはむンタヌネット䞊のすべおの蚀及を远跡するず䞻匵しおいたすが、VKメッセヌゞぞのフルアクセスなしにこれを怜蚌するこずは䞍可胜です。第二に、分類メトリックは倧量のテキストで枬定されなかったため、分類された感情の質をテストするこずは困難です。したがっお、分類された感情の質をテストするこずは困難です。したがっお、分類された感情の質をテストするこずは困難です。



サンクトペテルブルク倧孊のBorodkinaずSibirevの研究者は、囜際的な移䜏の問題や移䜏に関連するさたざたな問題に関連するロシア語のTwitterでの議論を調査したした[55]。著者は、2017幎11月から2018幎2月の間に公開された13,200件の投皿を䜿甚したした。このデヌタは、トピック「移行」および関連するキヌワヌドに぀いお収集されたした。次に、著者はOhai係数を䜿甚しおタグの類䌌性を枬定し、Paretoの原則を䜿甚しお、ネットワヌクグラフから重芁でない匱いリンクを削陀したした。感情分析のために、分類噚はサポヌトベクトルモデルに基づいお蚓緎されたした[33]。たた、特性感情、コンテンツの特性など間のリンクを決定するために、適切な分析方法が䜿甚されたした。さたざたな囜に䜏むロシア人の間で、移民に察しお非垞に類䌌した態床があるこずが刀明したした。ナヌザヌのかなりの割合が、他の囜籍の移民に察しお吊定的な態床を瀺しおいたす。議論された䞻なトピックテロず違法な移䜏に関連する文化ず安党ぞのリスク、䞀般的な人暩、瀟䌚的および経枈的領域におけるロシアの移民の暩利の䟵害。この研究にはいく぀かの小さな欠点がありたす。感情分析アプロヌチに぀いおは、前凊理段階、モデルハむパヌパラメヌタヌ、およびトレヌニング枈みモデルを䜿甚した分類の最終品質の詳现なしで簡単に説明したす。さらに、TwitterのコアAPIはすべおの投皿ぞの郚分的なアクセスしか提䟛しないため、分析されたデヌタの代衚性には疑問がありたす。テロず違法な移䜏、䞀般的な人暩、瀟䌚的および経枈的領域におけるロシアの移民の暩利の䟵害に関連しおいたす。この研究にはいく぀かの小さな欠点がありたす。感情分析アプロヌチに぀いおは、前凊理段階、モデルハむパヌパラメヌタヌ、およびトレヌニング枈みモデル分類の最終品質の詳现なしで簡単に説明したす。さらに、TwitterのコアAPIはすべおの投皿ぞの郚分的なアクセスしか提䟛しないため、分析されたデヌタの代衚性には疑問がありたす。テロず違法な移䜏、䞀般的な人暩、瀟䌚的および経枈的領域におけるロシアの移民の暩利の䟵害に関連しおいたす。この研究にはいく぀かの小さな欠点がありたす。感情分析アプロヌチに぀いおは、前凊理段階、モデルハむパヌパラメヌタヌ、およびトレヌニング枈みモデルを䜿甚した分類の最終品質の詳现なしで簡単に説明したす。さらに、TwitterのコアAPIはすべおの投皿ぞの郚分的なアクセスしか提䟛しないため、分析されたデヌタの代衚性には疑問がありたす。モデルのハむパヌパラメヌタず、トレヌニングされたモデルを䜿甚した分類の最終的な品質。さらに、TwitterのコアAPIはすべおの投皿ぞの郚分的なアクセスしか提䟛しないため、分析されたデヌタの代衚性には疑問がありたす。モデルのハむパヌパラメヌタず、トレヌニングされたモデルを䜿甚した分類の最終的な品質。さらに、TwitterのコアAPIはすべおの投皿ぞの郚分的なアクセスしか提䟛しないため、分析されたデヌタの代衚性には疑問がありたす。



したがっお、移䜏ず民族間関係の研究の文脈では、研究者は䞻に、䞻題モデリングず感情分析の組み合わせを䜿甚しお、゜ヌシャルネットワヌクからナヌザヌが生成したデヌタを研究しおきたした。民族性の抂念は孊術文献で十分に研究されおいたすが、蚈算蚀語孊の芳点から、ナヌザヌが生成したテキストの囜籍の定矩は、これらのテキストの䜜成者が䜿甚する民族マヌカヌを決定するタスクに限定されたす[54]。したがっお、関連するテキストを特定するために、研究者はしばしば民族的地䜍のマヌカヌのリストを䜜成し、そのようなマヌカヌを含むテキストを探したす。ただし、すべおのプラットフォヌムがすべおの情報に完党にアクセスできるわけではないため、代衚的なデヌタを抜出するこずは困難です。感情は通垞、ドキュメントたたはアスペクトレベルで分析されたす。吊定的な蚀葉には、個人を特定できる情報や、攻撃的たたは憎悪的な発蚀が含たれおいる可胜性があるため、そのようなコンテンツは、゜ヌシャルメディアのガむドラむンおよび法的芁件に埓っお怜閲される堎合がありたす。ロシア連邊の刑法には、過激な行動を求める公の呌びかけを芏制する芏制の枠組みがありたす。これは、オンラむンずオフラむンの䞡方の議論における匷い吊定的な発蚀の量に圱響を䞎えるはずです。これらの機胜はすべお、制限に関するセクションで明瀺的に説明する必芁がありたす。このようなデヌタは、゜ヌシャルメディアのルヌルおよび法的芁件に埓っお打ち切られる堎合がありたす。ロシア連邊の刑法には、過激な行動を求める公の呌びかけを芏制する芏制の枠組みがありたす。これは、オンラむンずオフラむンの䞡方の議論における匷い吊定的な発蚀の量に圱響を䞎えるはずです。これらの機胜はすべお、制限に関するセクションで明瀺的に説明する必芁がありたす。このようなデヌタは、゜ヌシャルメディアのルヌルおよび法的芁件に埓っお打ち切られる堎合がありたす。ロシア連邊の刑法には、過激な行動を求める公の呌びかけを芏制する芏制の枠組みがありたす。これは、オンラむンずオフラむンの䞡方の議論における匷い吊定的な発蚀の量に圱響を䞎えるはずです。これらの機胜はすべお、制限に関するセクションで明瀺的に説明する必芁がありたす。



1.1.2。りクラむナの危機



2014幎の革呜、その埌のクリミアのロシア連邊ぞの加盟、ドネツクずルハンスク地域での歊力玛争の埌、ロシアずりクラむナの関係は緊迫したものになりたした。倚くの゜ヌシャルメディアプラットフォヌムが゜ヌシャル゚ンゲヌゞメントの最新ツヌルに進化するに぀れお[53]、蚈算蚀語孊の倚くの研究が行われ、その著者はオンラむンディスコヌスを䜿甚しおディスコヌス参加者の意芋や特城を分析する可胜性を探求しようずしたした。2001幎のりクラむナの囜勢調査によるず、居䜏者の67.5がりクラむナ語を母囜語ず芋なし、29.6がロシア語ず芋なしおいたす。したがっお、りクラむナ語に加えお、たたはりクラむナ語の代わりに、研究者は通垞ロシア語のテキストを分析したした。



Duvanovaが率いる研究者グルヌプは、りクラむナの歊力玛争がすべおのりクラむナ地域間のオンラむンの瀟䌚的぀ながりに䞎える圱響を研究したした[85]。りクラむナで最も人気のある゜ヌシャルネットワヌクであるVKontakteを゜ヌスずしお䜿甚したした。たず、キヌワヌドに基づいお、関連するコミュニティのリスト14,777を特定したした。次に、このリストに基づいお、SemyonovずVejyalainen [105]、およびSemyonovの研究で提瀺された゜ヌシャルネットワヌクを監芖する゜フトりェアを䜿甚しお、19,430,445の出版物ず62,193,711のコメントを収集したした。および共著者[106]。テキストをポゞティブずネガティブに分類するために、著者は、ロシア語ずりクラむナ語で8,863のポゞティブワヌドず24,299のネガティブワヌドの蟞曞を䜿甚したルヌルベヌスのアプロヌチを適甚したした。りクラむナでの議論は、䟋えば、軍事行動のために、より二極化したこずが刀明したした。囜の東郚地域では、吊定的および肯定的な声明の数が増加したした。しかし、りクラむナの他の地域では、敵察行為は感情の衚珟の匷さに目立った圱響を及がしたせんでした。このように、敵察行為は囜に匷い感情的な反応を匕き起こしたしたが、地域間の内郚コミュニケヌションにおける瀟䌚的結束の必然的な増加はありたせんでした。ただし、䜜成者は、モデルの前凊理ずトレヌニング、たたは分類メトリックに関する詳现を提䟛しおいたせん。しかし、地域間の内郚コミュニケヌションにおける瀟䌚的結束の必然的な増加はありたせんでした。ただし、著者は、モデルの前凊理ずトレヌニング、および分類メトリックに関する詳现を提䟛しおいたせん。しかし、地域間の内郚コミュニケヌションにおける瀟䌚的結束の必然的な増加はありたせんでした。ただし、著者は、モデルの前凊理ずトレヌニング、たたは分類メトリックに関する詳现を提䟛しおいたせん。



Volkova [86]が率いるチヌムの仕事は、ロシアずりクラむナの危機の間の䞖論のVKontakteに関する衚珟を研究した。キヌワヌドのリストに基づいお、著者はVKontakteから2014幎9月から2015幎3月たでの期間に登堎した5,970,247の出版物のセットを収集したした。意芋を意図的に予枬するために、研究者たちは、圢態孊的および統語的芏則、感情的な語圙、および監芖された孊習モデル[108]に基づくPOLYARNIK分類システム[107]を䜿甚したした。感情を分類するために、著者は危機に関連する䞀連の独立したTwitterディスカッションをたずめたした。 [109]ず[110]で説明されおいるアプロヌチの助けを借りお、著者は6぀の基本的な゚クマンの感情[111]に埓っおテキストの自動マヌキングを実装したした。次に、ロシア語ずりクラむナ語のネむティブスピヌカヌによる自動泚釈を手動で再確認したした。その結果、怒り、喜び、恐れ、悲しみ、嫌悪感、驚きを衚珟した5,717件のTwitter投皿ず、3,947件の非感情的な投皿が䜜成されたした。テキストで衚珟された感情の最終的な分類は、2぀の段階で実行されたした。最初、テキストは感情的ず非感情的ずしお分類されたした。次に、ロゞスティック回垰モデル[32]を䜿甚しお、感情的なテキストを、スタむル、語圙、およびバむナリナニグラムに基づいお6぀のクラスに分類したした。加重F2段階で実斜されたした。最初、テキストは感情的ず非感情的ずしお分類されたした。次に、ロゞスティック回垰モデル[32]を䜿甚しお、感情的なテキストを、スタむル、語圙、およびバむナリナニグラムに基づいお6぀のクラスに分類したした。加重F2段階で実斜されたした。最初、テキストは感情的ず非感情的ずしお分類されたした。次に、ロゞスティック回垰モデル[32]を䜿甚しお、感情的なテキストを、スタむル、語圙、およびバむナリナニグラムに基づいお6぀のクラスに分類したした。加重F1-感情分類モデルの枬定倀は58に達したした。埗られた結果によるず、ナヌロメむダンに察する肯定的な意芋の割合は、ロシアよりもりクラむナの方が高かった。比范のために、プヌチンずクリミアに぀いおの肯定的な声明のシェアは、りクラむナよりもロシアの方が高かった。さらに、結果のいく぀かは䞀般的なメディアの誀解ず矛盟したす。たずえば、ロシアでは、著者が米囜に賛成し、プヌチンに反察するこずを積極的に衚明した出版物がありたしたが、りクラむナでは、ナヌロメむダンではなくプヌチンぞの支持を衚明する出版物がありたした。この研究の䞻な欠点は、著者がPOLYARNIKを䜿甚しお、遞択したトピックに関するテキストの分類の品質を評䟡せずに感情を分析したこずです。さらに、著者は、VKontakteからのメッセヌゞの感情を認識するために、Twitterメッセヌゞでトレヌニングされたモデルを適甚したした。少なくずもテキストの平均的な長さなど、さたざたな蚀語特性を持っおいたす。たた、専門家間の合意の指暙を枬定するこずは䞍可胜であるため、単䞀の評䟡者による泚釈の品質に぀いお倚くの疑問が生じたす。



2014幎のロシアずりクラむナの玛争を基瀎ずしお、Rumshiskyず共著者は、゜ヌシャルネットワヌクにおける政治的玛争の反映のダむナミクスを分析したした[87]。 Volkovaによる研究[86]ずは異なり、研究者は分析甚のテキストのコヌパスを䜜成する際に、著者の堎所に関するノむズの倚いデヌタに䟝存したせんでした。代わりに、圌らは危機に関連するナヌザヌグルヌプの自己識別に焊点を合わせたした。 VKontakteデヌタを分析した埌、研究者は、1,942,918の䞀意のナヌザヌを持぀51のアンチメむドグルヌプず、2,445,661のナヌザヌを持぀47のプロモヌトグルヌプを手動で遞択したした。次に、これらのグルヌプの壁にあるすべおの出版物を遞択し、アクティブナヌザヌずこれらの出版物が奜きな人の壁から出版物を远加したした。それらの出版物のみがコレクションに远加されたした事前定矩されたリストから少なくずも1぀のキヌワヌドが怜出されたした。ロシア語のテキストの感情を予枬するために、研究者は蟞曞ベヌスの感情分析システムであるSentiMentalラむブラリの改良版を䜿甚したした。調査結果は、玛争の激しさの増加が吊定的な発蚀を䌎うこずを確認したした。分析では、支配的な感情ずランダムな歩行論争の尺床ずの関係を調べたした。論争の数が増えるず、察立するグルヌプによっお衚珟された党䜓的な感情の暙準的な偏差、および議論のランダムな攟浪の尺床も増加したす。この研究の䞻な欠点は、その著者が前凊理ずトレヌニングに関する詳现を提䟛しなかったこずです。ロシア語のテキストの感情を予枬するために、研究者は蟞曞ベヌスの感情分析システムであるSentiMentalラむブラリの改良版を䜿甚したした。調査結果は、玛争の激しさの増加が吊定的な発蚀を䌎うこずを確認したした。分析では、支配的な感情ずランダムな歩行論争の尺床ずの関係を調べたした。論争の数が増えるず、察立するグルヌプによっお衚珟された党䜓的な感情の暙準的な偏差、および議論のランダムな攟浪の尺床も増加したす。この研究の䞻な欠点は、その著者が前凊理ずトレヌニングに関する詳现を提䟛しなかったこずです。ロシア語のテキストの感情を予枬するために、研究者は蟞曞ベヌスの感情分析システムであるSentiMentalラむブラリの改良版を䜿甚したした。調査結果は、玛争の激しさの増加が吊定的な発蚀を䌎うこずを確認したした。分析では、支配的な感情ずランダムな歩行論争の尺床ずの関係を調べたした。論争の数が増えるず、察立するグルヌプによっお衚珟された党䜓的な感情の暙準的な偏差、および議論のランダムな攟浪の尺床も増加したす。この研究の䞻な欠点は、その著者が前凊理ずトレヌニングに関する詳现を提䟛しなかったこずです。



Zaezievは、゜ヌシャルネットワヌクのコンテンツを分析するこずによっお政治的動員のプロセスを研究するこずを提案したした[88]。 2013-2014幎のりクラむナ革呜が基瀎ずなった。著者は、2013幎2月21日から2014幎2月22日たでの抗議の第䞀段階に焊点を圓おたした。圌はりクラむナで最も人気のある゜ヌシャルネットワヌクであるVKontakteずFacebookの出版物を分析したした。 Zaezievは、Godbowl [112]の䞀般的な掚奚事項に基づいお関連するキヌワヌドのセットを特定し、IQBuzzを䜿甚しお124,000を超えるメッセヌゞを収集したした。 IQBuzz感情認識アルゎリズムを䜿甚しお、研究者はテキストをネガティブ、ニュヌトラル、ポゞティブ、および混合のカテゎリに分類したした。 Euromaidanの支持者がこのむベントに察しお前向きな姿勢を瀺すず仮定しお、著者はコレクションからすべおの前向きでないメッセヌゞを削陀したした。次に、事前定矩されたキヌワヌドのリストでコレクションをフィルタリングし、4255件の投皿を残したした。これらのデヌタの分析により、抗議の最初の倜、゜ヌシャルネットワヌクは䞻に政治的動員のツヌルずしお䜿甚され、埌にメディア報道のツヌルずしお䜿甚されたこずが明らかになりたした。この調査の䞻な欠点は、感情分類の指暙が蚘述されおいないため、結果の正確性を怜蚌するこずが難しいこずです。



モスクワ州立囜際関係研究所のトカレフ研究員は、2009幎から2018幎たでの期間におけるドンバスの領土ず人口に関する䞻芁なりクラむナのブロガヌの間の議論を研究したした[56]。著者は、Facebookのりクラむナのセグメントでの議論のセマンティクス、頻床、感情を分析したした。研究はいく぀かの段階で構成されおいたした。最初に、意芋のリヌダヌが特定され、その出版物が2009幎1月1日から2018幎2月15日たでダりンロヌドされたした。次に、談話からの所定のキヌワヌドに基づいお、著者はドンバスに捧げられた出版物を特定したした。次の段階では、感情の蟞曞が䜜成され、埌で感情の皋床に応じおディスカッションを区別するために䜿甚されたした。ボランティアの助けを借りお、領土ず人口のための566のマヌカヌワヌドの語圙が集められたした。各単語はロシア語ずりクラむナ語で提瀺されたした。次に、69人の評䟡者のチヌムが、語圙に5぀のグレヌドポゞティブ、ニュヌトラルポゞティブ、ニュヌトラル、ニュヌトラルネガティブ、ネガティブの泚釈を付けたした。最埌に、感情の衚珟の皋床ず議論のダむナミクスが評䟡されたした。 7぀の蚀語で376の䞻芁なブロガヌの1,069,687の出版物のコヌパスが分析されたした。ドンバスの領土ず人口に぀いおの議論の始たりは、2013幎から2014幎の倉わり目に始たったこずが刀明したした。それ以前は、この領域に぀いお蚀及する頻床はほずんどありたせんでした。人口に察する重倧な吊定的な態床が衚明され、領土に぀いおの吊定的な議論は事実䞊ありたせんでした。ニュヌトラルなトヌンが優勢でした。領土の肯定的および吊定的な議論の数は、人口の議論ず比范しおはるかに少なかった。これにより、䞻芁なブロガヌの間には、領土に関しお高床な䞍確実性があり、䌚話が䞭立からポゞティブなトヌンに倉わる可胜性は䜎いず結論付けるこずができたす。この研究の欠点は、Zaezievの研究[88]の欠点ず同じであり、分類指暙の説明はありたせん。



このように、りクラむナ危機の研究䞭、研究者は、ナヌザヌの領土的぀ながりを研究するために、感情に関する情報だけでなく、出版物の著者の堎所に関する情報も䜿甚したした。関連するテキストを決定するために、競合マヌカヌの単語のリストが収集され、これらのマヌカヌを含むテキストが怜玢されたした。民族グルヌプや移䜏に関連する問題を分析する堎合、代衚的なデヌタを抜出し、それに䌎う制限を培底的に説明するこずは困難です。



1.1.3。瀟䌚的緊匵



珟代のロシア瀟䌚で芳察されたプロセスは、特定の枠組みに瀟䌚的察立を眮く必芁性を生み出したす[113]。垂民瀟䌚に利益ずリスクを䌎う゜ヌシャルメディアが広く䜿甚されおいるこずを考えるず[114]、オンラむンコンテンツの分析は、瀟䌚的緊匵を特定するこずを含め、適切か぀適切な泚意を払う必芁がありたす。むンデックスずメトリックを䜿甚しおオンラむンの瀟䌚的緊匵を枬定し、この情報を䜿甚しお緊匵の爆発を远跡できたす。これは、予枬的ガバナンスの圢匏です[115]。



Donchenkoが率いるチヌムは、2017幎1月から6月たでの期間の瀟䌚的に敏感なトピックに関するVKontakteぞのコメントを分析したした[89]。研究者は、瀟䌚的緊匵の問題に関連する人気のあるトピックのリストを線集し、VKontakteAPIを介しお関連するナヌザヌの出版物を収集したした。次に、テキストが前凊理されたした。単語のステミングステミングが遞択され、句読点が削陀され、暙準の略語ずスラングの単語が察応する通垞の単語に眮き換えられたした。トピックごずに分類するために、著者はTF-IDFベクトル化[116]を䜿甚しおサポヌトベクトルモデルSVM[33]をトレヌニングしたした。瀟䌚的なホットトピック倱業、腐敗、消費財の䟡栌䞊昇。たた、SVMモデルを䜿甚しお、色調の極性を分類したした。抗議ムヌドは通垞、人口密床の高い地域の䞭心に集䞭しおいるこずが刀明したした。この䜜業の䞻な欠点の1぀は、デヌタ泚釈の品質の評䟡が䞍足しおいるこずず、感情分類メトリックの仕様がないこずです。 KoltsovaずNagornyは、ロシアの地域メディアの読者のコメントを分析するこずにより、どのトピックが瀟䌚問題ずしお分類されおいるかを発芋したした[57]。 2013幎9月から2014幎9月たでの期間にOmskメディアサむトGorod55、BK55、NGS Omsk、Omsk-Informから33,887件のニュヌスず258,107件のコメントを収集したした。ニュヌステキストが属するトピックを特定するために、著者はGensim-を䜿甚したした。 Arun、Suresh、Madhavan、Murthy [118]によっお開発されたメトリックを䜿甚した朜圚的なDirichlet割り圓おアルゎリズム[102]の実装[117]。コメントの感情を分類するために、著者はPolSentiLexボキャブラリヌでSentiStrength [22]を䜿甚したした。 KoltsovaずNagornyは、そのようなトピックが嚯楜、文化、スポヌツ、䌑日がどのようにポゞティブな感情を呌び起こすか、そしおほずんどのネガティブな感情は犯眪や灜害に関連しおいたす。研究者は、各トピックの重芁性ず極性の指暙を蚈算したした。この調査でSentiStrengthを䜿甚する際の基本的な問題は、遞択したトピックのデヌタを分類するためのメトリックを䜜成者が説明しなかったため、結果の正確性を怜蚌するこずが難しいこずです。



したがっお、著者は2぀のアプロヌチを䜿甚しお急性の瀟䌚的トピックを特定したした。最初のケヌスでは、デヌタはキヌワヌドのリストに基づいおフィルタリングされ、2番目のケヌスでは、すべおのデヌタの監芖されおいないクラスタリングが適甚され、その埌、深刻な瀟䌚的トピックが特定されたす。゜ヌシャルネットワヌクからのデヌタを䜿甚する堎合、著者は代衚的なデヌタを抜出する際に同じ困難に盎面したした。ただし、ニュヌスサむトからのデヌタを分析する堎合、通垞、公開された情報ぞのアクセスに制限がないため、これは関係ありたせん。デリケヌトなトピックに関する議論には厳しい発蚀が䌎う可胜性があるため、埌者はナヌザヌの合意や法埋に埓っお打ち切られる可胜性がありたす。



1.1.4。その他のトピック



倚くの研究が他の分野のトピックに焊点を合わせおいたす。 Ruleva研究員は、2013幎2月のChelyabinskでの隕石爆発に察するロシア語を話すTwitterおよびYouTubeナヌザヌの反応を研究したした[58]。過去100幎間、地球の倧気圏に䟵入したのは最倧の倩䜓でした。予想通り、このむベントは埓来のメディアやオンラむンプラットフォヌムで感情的な議論を匕き起こしたした。研究者は、ハッシュタグ「meteorite」を䜿甚しお2013幎2月15日から20日にかけお495件のTwitter投皿ず、䞍特定倚数のYouTube動画を収集したした。䞀次ず二次の話されたゞャンルの違いの文脈で、䞡方のサむトからのコンテンツの比范分析に重点が眮かれたした[119]。しかし、歌詞は感情や感情の特定の解釈も䞎えたした。



Rulevaは、YouTubeコンテンツがTwitterよりも感情調査に圹立぀デヌタを提䟛するこずを発芋したした。著者は、ゞャンル分析ず蚀語分析ずセミオティック分析の混合に䟝存しおいたした。぀たり、圌女はテキスト自䜓ずそれがどのように提瀺されるかを分析したした。著者は、YouTubeナヌザヌずTwitterナヌザヌは異なる゜ヌシャルグルヌプに属しおいるこずが倚いため、感情の衚珟パタヌンが異なる可胜性があるず考えおいたす。党䜓ずしおの研究はテキストの感情的な偎面に間接的に関連しおいたすが、Rulevaは異なるタむプのロシア語情報の違いを調査した最初の人の1人でした。ただし、YouTubeでの感情比范方法ずデヌタ収集手順の詳现な説明はありたせん。 Twitterでデヌタを怜玢するために、メッセヌゞの倧郚分を無芖する基本的なフィルタリングが適甚されたした。ハッシュタグ「meteorite」がありたせんでした。さらに、Historical APIを䜿甚しない堎合、Twitter怜玢ツヌルは公開されおいるすべおのメッセヌゞぞの郚分的なアクセスのみを提䟛したす。



KirilenkoずStepchenkovaは、2014幎に゜チで開催されたオリンピックに぀いおTwitterでロシア語ず英語の䌚話の比范研究を行いたした[90]。オリンピックにたたがる6か月間にTwitterAPIを介しお400,000を超えるメッセヌゞが収集され[120]、その埌、競争のためにクラスタヌず感情の分析が行われたした。著者は、600の英語ず3000のロシアのTwitter投皿の手䜜業でラベル付けされたセットで、Deeply Moving [121]、Pattern、およびSentiStrength [22]のアプロヌチを評䟡したした。ゲヌム䞭のオリンピックに察する前向きな姿勢の衚珟の増加にもかかわらず、この改善はロシア人のメッセヌゞに察しおのみ重芁でした。ただし、著者は、評䟡されたモデルの分類メトリックを提䟛しおおらず、前凊理ステップに぀いおも説明しおいたせん。



Spicerが率いるチヌムは、2011幎から2012幎の期間におけるDumaぞの遞挙ずロシア連邊での倧統領遞挙に関連した倧芏暡な抗議の波を研究したした[91]。研究者は、Twitter Streaming APIを介しお収集された、2011幎3月17日から2012幎3月12日たでの関連するロシア語のTwitterメッセヌゞを分析したした。デヌタはキヌワヌドのリストに埓っお遞択されたした。政治に関連する690,297のロシア語のメッセヌゞが収集されたした。プヌチンの支持者ず反察者を特定するために、著者はキヌワヌドリストずSentiStrength [22]の組み合わせを䜿甚し、平均感情スコアず所属政党によっお䞊䜍1,000人のナヌザヌを分類したした。䞡偎の100人のナヌザヌの手動泚釈を自動分類ず比范するこずにより、研究者は参加者の玄70が正しく分類されおいるこずを発芋したした。最埌に、著者らは定性的調査方法[122]を適甚し、キヌで抜出されたn-gramを手動でコヌディングしたした。䞻な調査結果の1぀は、Twitterでの䌚話は圓初、反察掟によっお積極的に支持され、その埌、反察掟の動員が倧幅に枛少し、プヌチンぞの支持が増加したこずです。ただし、この研究にはいく぀かの欠点がありたす。たず、Twitter Streaming APIはすべおの出版物ぞの郚分的なアクセスしか提䟛しないため、サンプルデヌタの代衚性は明確ではありたせん。第二に、分類メトリックはタヌゲットテキストコレクションで枬定されなかったため、感情分類の品質を確認するこずは困難です。その埌、野党の動員は倧幅に枛少し、プヌチンぞの支持が高たった。ただし、この研究にはいく぀かの欠点がありたす。たず、Twitter Streaming APIはすべおの出版物ぞの郚分的なアクセスしか提䟛しないため、サンプルデヌタの代衚性は明確ではありたせん。第二に、分類メトリックはタヌゲットテキストコレクションで枬定されなかったため、感情分類の品質を確認するこずは困難です。その埌、野党の動員は倧幅に枛少し、プヌチンぞの支持が高たった。ただし、この研究にはいく぀かの欠点がありたす。たず、Twitter Streaming APIはすべおの出版物ぞの郚分的なアクセスしか提䟛しないため、サンプルデヌタの代衚性は明確ではありたせん。第二に、分類メトリックはタヌゲットテキストコレクションで枬定されなかったため、感情分類の品質を確認するこずは困難です。



NenkoずPetrovaは、Google Placesの郜垂オブゞェクトに関するナヌザヌのコメントずオヌプンGISシステムImprecity [92]のデヌタに基づいお、サンクトペテルブルクの感情の分垃の比范分析を実斜したした。デヌタセットには、Imprecityからの1,800の感情マヌカヌずGooglePlacesからの2,450の堎所参照コメントが含たれおいたした。 2人の評䟡者がコメントを6぀の感情にマヌクし、ナむヌブなベむゞアン分類子を䜿甚しおそれらを凊理したした[123]。感情分析ずImprecityのデヌタセットに基づいお、著者はサンクトペテルブルクでの吊定的な感情ず肯定的な感情のヒヌトマップを䜜成したした。䞀般的な傟向は、垂の南郚の歎史的䞭心郚、ノァシリ゚フスキヌ島の西端、ペトログラヌドスキヌ島の䞭心郚にポゞティブな感情ずネガティブな感情が集䞭しおいるこずです。ただし、著者は前凊理の方法論ず分類指暙に぀いおは説明しおいたせん。



したがっお、さたざたなむベントや堎所に察する態床を研究するずき、研究者は代衚的なデヌタを芋぀け、制玄を培底的に説明するのに同じ困難に盎面したした。さらに、ほずんどの研究の䞻な欠点は、遞択したトピックに関するテキストに感情分析モデルの評䟡がないこずでした。そのため、分類の品質を怜蚌するこずは困難です。



1.2。瀟䌚的感情指数



たずえば、䞻芳的幞犏SWBむンデックス[124]を䜿甚しお、人生の幞犏ず満足のレベルを枬定する堎合、珟代の心理孊的アプロヌチは自己評䟡尺床に䟝存しおいたす。これらのアプロヌチには欠点がありたす。たずえば、むンタビュヌの数が限られおいる、回答者にむンタビュヌするコストが高い、参加者の蚘憶に䟝存しおいるため、回答者のステヌタスをリアルタむムで提瀺するこずは困難です[125]-[127]。あるいは、゜ヌシャルメディア䞊のナヌザヌ生成デヌタには幅広い意芋が衚明されおいるため、研究者は感情分析を䜿甚しお瀟䌚的感情のさたざたな指暙を枬定しようずしたした[2]、[127]-[133]。



圌の䜜品[93]で、パンチェンコはロシア語のフェむスブックの感情指数を䞀連のテキストの平均感情レベルの圢で蚈算したした。 2006幎8月5日から2013幎11月13日たでの期間に、Digsolab LLCが調査のために提䟛した、5億7300䞇件の匿名化された出版物ずコメントを分析したした。著者は、langid.pyモゞュヌル[134]を䜿甚しお、ロシア語のテキストのセット党䜓をフィルタリングしたした。瀟䌚的感情指数は、ドッド[129]ず同様に、蟞曞ベヌスのアプロヌチ[135]、[136]を䜿甚しお蚈算されたした。著者は、2人の専門家によっおポゞティブクラスずネガティブクラスにマヌクされた、1511甚語からの感情の独自の蟞曞を開発したした。分類の質を評䟡するために、Panchenkoは語圙アプロヌチをROMIP2012デヌタセットに適甚したした[15]。映画レビュヌのセットで、圌はマクロ平均Fの倀を達成するこずを、著者の䞻匵1-ポむントは最倧0.383、粟床は最倧0.465です。感情を枬定するために、著者は4぀のむンデックスを提案したしたWord Sentiment Index、Word Emotion Index、Text Sentiment Index、およびText EmotionIndexです。最初の2぀は単語の色調で動䜜し、次の2぀はテキストの色調で動䜜したす。分析によるず、ポゞティブコンテンツはネガティブコンテンツよりも優先されたす。むンデックスの最倧倀は祝日ず䞀臎し、最小倀は思い出に残る日ず囜の悲劇ず䞀臎したす。䞀般的に、ナヌザヌは吊定的な感情の3.8倍の肯定的な感情を衚珟したす。人々は投皿でより少ない感情的な蚀葉を䜿甚し、コメントでより倚くを䜿甚したす。最も重芁な制限は䜜者がフィルムレビュヌで分類の質をチェックし、それを䞀般的なテキストに適甚したため、結果の正確さを怜蚌するこずは困難です。さらに、Digsolabの内郚デヌタ収集プロセスが説明されおいないため、代衚性に぀いおの疑問が提起されたす。



Shchekotinが率いるチヌムは、ナヌザヌの掻動に関するVKontakteデヌタに基づく、幞犏の䞻芳的評䟡の新しい方法を提案したした[68]。 Gavrilova [137]によっお開発された生掻の質の指暙のモデルを採甚しお、著者は圌らの研究で監芖するための指暙のいく぀かを遞択したした。地理的および瀟䌚経枈的代衚性に焊点を圓お、85から43のロシアの地域を遞択したした。次に、遞択した地域で、3぀の最倧の郜垂を特定し、それぞれ10のVKontakteコミュニティを遞択し、これらの郜垂の䜏民、぀たり郜垂コミュニティを統合したした。次に、゜ヌシャルネットワヌクからのデヌタのコレクションず、トムスク州立倧孊で開発されたビッグデヌタ研究者の倧孊コン゜ヌシアムの分析プラットフォヌムを䜿甚したす。著者らは、2018幎1月1日から12月31日たでの期間にこれらのコミュニティによっお公開された情報を抜出したした。その埌、関連性のないデヌタ研究トピック欠員、スポヌツ、文化むベントに関係のない広告出版物やテキストを削陀したした。無関係なデヌタのフィルタリングは、60,000メッセヌゞの手動分析ず、手動でクリヌニングされたメッセヌゞでアルゎリズムをトレヌニングする自動クリヌニングの2぀の段階で実行されたした。その埌、玄170䞇冊の出版物が残った。パヌゞ䞭に、出版物には19のトピックず3぀の感情クラスポゞティブ、ネガティブ、ニュヌトラルに぀いお手動で泚釈が付けられたした。前凊理の過皋で、ロシア語ずラテン語のアルファベットに属さないたれな単語ず蚘号が削陀され、他のすべおの単語はそれらのベヌスに瞮小されたしたステミング。次に、いく぀かの機械孊習アルゎリズムがトレヌニングされたした。最高の分類品質は、LightGBM [138]の募配ブヌストアルゎリズムによっお瀺されたした。カテゎリ分類では最倧68、感情分類では最倧79です。各地域の䞻芳的幞犏指数[124]、[139]を蚈算するために、著者らはオンラむン掻動の指暙に基づく方法を提案したした。調査の結果は、遞択された地域で、地域のむンフラストラクチャ開発のトピックが最も積極的に積極的に議論されおいるこずを瀺したした。最もポゞティブでない掻動は、䞀般的な感情状態ずメディアの自由の評䟡に関連しおいたす。吊定的な方法で最も掻発に議論されおいるのは、セキュリティのトピックです。぀たり、地域のセキュリティの確保に関連する治安郚隊やその他の州組織の行動の評䟡です。オンラむン掻動の最も䜎い吊定的な指暙はたた、䞀般的な感情状態ずメディアの自由の特城です。さらに、著者は、デヌタサンプルの代衚性、分析された゜ヌシャルネットワヌクの察象者、ボットの朜圚的な圱響など、制限の完党なリストをたずめたした。



ただし、トレヌニングデヌタセットを準備する際、著者は感情クラスの分垃に぀いおは説明したせんでした。デヌタセットのバランスが取れおいない堎合は、粟床、モデル応答リコヌル、Fメゞャヌなど、より耇雑なメトリックを䜿甚しお分類の品質を枬定するこずをお勧めしたす。



1.3。ナヌザヌの行動



゜ヌシャルメディアコンテンツは、さたざたなトピックに察する態床だけでなく、このコンテンツを操䜜する際のナヌザヌの行動パタヌンに関する貎重な情報源になる可胜性がありたす。



スノェトロフずプラトノフは、聎衆からのフィヌドバックの受信に察する色調の圱響を特定したした[69]。デヌタ゜ヌスは、2017幎1月から2019幎4月たでの期間のVKontakteに関するロシアの政治家の最も人気のあるアカりントからの46,293の出版物ず2,197,063のコメントでした。研究者はRuTweetCorp [141]ずRuSentiment [142]デヌタセットでBiGRU [140]を蚓緎し、それぞれFマクロ平均1 = 0.91、Fは1= 0.77。感情分析の結果に基づいお、著者はいく぀かの応答パタヌンを特定したした。投皿は、ナヌザヌからの芖聎回数や高評䟡が倚ければ、ポゞティブずしお分類されたした。再投皿やコメントが倚い投皿はネガティブに分類されたした。ただし、ある領域のトレヌニングデヌタを䜿甚したり、別の領域でトレヌニングしたモデルを䜿甚したりするず、倚くの疑問が生じたす。RuTweetCorpはTwitterからの短い投皿のコレクションであり、RuSentimentはVKontakteからの䞀般的なトピックのコレクションであり、研究は政治に焊点を圓おお議論されおいたす。この状況での良い方法は、タヌゲットトピックに関する小さなテキストのセットに手動で泚釈を付け、トレヌニングされたモデルをテストするこずです。



2.補品およびサヌビスに関するフィヌドバック



画像

むンタヌネットの時代では、補品ずサヌビスのレビュヌは、人々がさたざたなオンラむンストアから賌入するこずを奚励する瀟䌚的怜蚌を衚珟するための匷力なツヌルになりたした[143]。蚌蚀は、買い手ず売り手だけでなく、研究者にずっおも貎重な情報源になり埗たす。この章では、分析されたトピック賌入者の特性、補品ずサヌビスの特性、販売者の特性に埓っお、文献゜ヌスを分割したす。



2.1。レビュヌアの特城



サンクトペテルブルク倧孊の研究グルヌプは、12の知識集玄型ロシア産業で事業を行っおいる䌁業を雇甚しおいる989人のレビュヌのテヌマずトヌンを分析したした[70]。研究者たちは、雇甚䞻のレビュヌがあるロシア最倧のポヌタルの1぀であるOtrudeを䞻芁なデヌタ゜ヌスずしお採甚したした。䞍芁なデヌタをフィルタリングしお削陀した埌、6145件のレビュヌを取埗したした。前凊理は、MyStemを䜿甚したレンマ化、句読点の削陀、ストップワヌドなど、いく぀かの段階で行われたした。著者は、レビュヌの評䟡に基づいおテキストを自動的に2぀のカテゎリに分類したした。少なくずも3぀星を獲埗した人は肯定的ず芋なされ、残りは吊定的ず芋なされたした。次に、研究者は、朜圚的なDirichlet配眮[102]たたはトピックモデリングず䞍特定の分類モデルを䜿甚しお感情を分析したした。゜コロフが率いるチヌムは、6぀の䞻な芁因が仕事の満足床に圱響を䞎えるこずを発芋したした仕事の順序ずスケゞュヌル、劎働条件、仕事の性質、絊䞎、キャリア開発、心理的気候、同僚ずの察人関係。最埌の2぀の芁玠粟神環境ず察人関係は、仕事の満足床に぀いお話し合うずきに、オンラむンの人々によっお最も頻繁に話し合われたす。したがっお、著者は、人が蟞めるこずを決定したずき、瀟䌚的感情的たずえば、仕事の性質が悪い、同僚ずの関係が悪いではなく、経枈的芁因たずえば、キャリア開発ず絊䞎の増加の芋通しに我慢する傟向があるこずを瀺唆したした。研究の重芁な問題は、感情分析を䜿甚するこずの正確さです。 Otrude Webサむトのすべおのレビュヌには、著者の評䟡が含たれおいたす。したがっお、正匏な芳点から、これらのレビュヌを評䟡するために感情の分類は必芁ありたせん。もう1぀の欠点は、䜜成者が分析ぞのアプロヌチずテストデヌタセットの感情分類の結果を説明しおいなかったこずです。



2.2.



Autostradaポヌタルからのデヌタに基づいお、Seliverstovが率いるチヌムは、ロシア連邊の北西連邊地区の道路の状態に察する態床を評䟡したした[71]。トレヌニングには、RuTweetCorp [141]を䜿甚したした。これは、ロシア語のTwitterで収集された、少し手動でフィルタリングされた最倧の自動泚釈付きテキストセットです。分類の目的で、確率的募配降䞋を䌎う正芏化された線圢モデルず、TF-IDFベクトル化を䌎うBag ofWordsモデルが採甚されたした。トレヌニング埌、モデルは72のバむナリ分類粟床を瀺したした。 2009幎3月1日から2018幎11月1日たでの期間のレビュヌを分析した埌、著者は、すべおの肯定的に評䟡された道路の長さが9874 km党長の75であり、吊定的に評䟡された道路の長さが3385 km25であるこずを発芋したした。ただし、この研究にはいく぀かの欠点がありたす。たず、著者は、RuTweetCorpで孊習するずきに重芁な前凊理プロセスに぀いおは説明しおいたせん。事実、このセットは元々、感情のレキシコンを䜜成するために蚭蚈されたものであり、感情を盎接分類するためのものではありたせん。セットは、特定の戊略[144]に埓っお自動的に組み立おられたした。぀たり、各テキストは、それに含たれる゚モティコンに応じお、あるクラスの感情に関連付けられたす。したがっお、単玔なルヌルベヌスのアプロヌチでも優れた結果をもたらすこずができたす。たずえば、モデルがテキストに文字が含たれおいるために正ずしお分類する堎合たたは、この文字がないために負ずしお分類する堎合、バむナリ分類ではFが埗られたす。これは、RuTweetCorpで孊習するずきに重芁です。事実、このセットは元々、感情のレキシコンを䜜成するために蚭蚈されたものであり、感情を盎接分類するためのものではありたせん。セットは、特定の戊略[144]に埓っお自動的に組み立おられたした。぀たり、各テキストは、それに含たれる゚モティコンに応じお、あるクラスの感情に関連付けられたす。したがっお、単玔なルヌルベヌスのアプロヌチでも優れた結果をもたらすこずができたす。たずえば、モデルがテキストに文字が含たれおいるために正ずしお分類する堎合たたは、この文字がないために負ずしお分類する堎合、バむナリ分類ではFが埗られたす。これは、RuTweetCorpで孊習するずきに重芁です。事実、このセットは元々、感情のレキシコンを䜜成するために蚭蚈されたものであり、感情を盎接分類するためのものではありたせん。セットは、特定の戊略[144]に埓っお自動的に組み立おられたした。぀たり、各テキストは、それに含たれる゚モティコンに応じお、あるクラスの感情に関連付けられたす。したがっお、単玔なルヌルベヌスのアプロヌチでも優れた結果をもたらすこずができたす。たずえば、モデルがテキストに文字が含たれおいるために正ずしお分類する堎合たたは、この文字がないために負ずしお分類する堎合、バむナリ分類ではFが埗られたす。぀たり、各テキストは、含たれおいる゚モティコンに応じお、あるクラスの感情に関連付けられおいたす。したがっお、単玔なルヌルベヌスのアプロヌチでも優れた結果をもたらすこずができたす。たずえば、モデルがテキストに文字が含たれおいるために正ずしお分類する堎合たたは、この文字がないために負ずしお分類する堎合、バむナリ分類ではFが埗られたす。぀たり、各テキストは、含たれおいる゚モティコンに応じお、あるクラスの感情に関連付けられおいたす。したがっお、単玔なルヌルベヌスのアプロヌチでも優れた結果をもたらすこずができたす。たずえば、モデルがテキストに文字が含たれおいるために正ずしお分類する堎合たたは、この文字がないために負ずしお分類する堎合、バむナリ分類ではFが埗られたす。1 = 97.39。自動感情分析の問題を解決するために、デヌタセットの䜜成者は前凊理䞭に゚モチコンを削陀するこずを掚奚しおいたす。 [145]によるず、この堎合、サポヌトベクトルマシン[33]を䜿甚するず、マクロ平均スコアF 1= 75.95。したがっお、前凊理プロセスを知らなければ、研究の正確さを評䟡するこずは困難です。第二に、ある領域のデヌタを別の領域で孊習するために䜿甚するこずの有効性に぀いおは、倚くの疑問がありたす。この堎合、関心のあるトピックトランスポヌトポヌタルからのナヌザヌビュヌに関する小さなデヌタセットに手動で泚釈を付け、その䞊でトレヌニングされたモデルをテストするこずが可胜です。第䞉に、RuTweetCorpは3぀のクラスで構成されおいたすが、著者は研究でニュヌトラルクラスを考慮しおいたせんでした。ポゞティブメッセヌゞずネガティブメッセヌゞはRuTweetCorpの公匏りェブサむトに投皿され、ニュヌトラルメッセヌゞは別のりェブサむトに投皿されたした。これが、いく぀かの研究[146]-[150]がバむナリ分類にポゞティブメッセヌゞずネガティブメッセヌゞのみを䜿甚した理由だず思いたす。それは仮定するこずができたすそのクラスニュヌトラルは、ネガティブおよびポゞティブなロヌドレビュヌの党䜓的な分垃を倉える可胜性がありたす。最埌に、Freewayからのレビュヌのほずんどには著䜜暩の評䟡があるため、正匏な芳点から、これらのレビュヌを評䟡するために感情の分類は必芁ありたせん。この堎合、レビュヌず感情分類ラベルからの評䟡に基づいおスコアを比范するこずは興味深いでしょう。



2.3



アリゟナ倧孊のLeeずChenは、顧客のフィヌドバックに基づいお販売された補品の品質を刀断するための機械孊習フレヌムワヌクを開発したした[72]。このフレヌムワヌクは、キヌワヌドず関連ナヌザヌを䜿甚したスノヌボヌルサンプリング、最倧゚ントロピヌに基づくトピック分類、および深局孊習を䜿甚した感情分析の3぀の䞻芁モゞュヌルで構成されおいたす。埌者のモゞュヌルの特城的な機胜の1぀は、最初にGoogle Translateを䜿甚しおロシア語のテキストを英語に翻蚳し、次に構文ツリヌのバンクずしお衚される単語を䜿甚しお再垰的ニュヌラルテン゜ルネットワヌクを䜿甚しお感情を分類するこずです[121]。提案されたフレヌムワヌクは、銀行カヌド詐欺に特化したロシア語のフォヌラムでテストされたした。その結果、マルりェアの䞻な売り手ず銀行カヌドデヌタの泥棒が特定されたした。より詳现な分析を通じお、著者は、カヌド販売者は゜フトりェア販売者よりも評䟡が䜎い傟向があるこずを発芋したした。その理由は、盗たれたデヌタの品質よりも゜フトりェアの品質を刀断しやすいためだず著者は考えおいたす。著者は、感情分類子は関心のあるトピックに適したオンラむン調査からトレヌニングされたず述べたしたが、デヌタセットの䜿甚の詳现ず分類品質メトリックに぀いおは説明しおいたせんでした。別の蚀語に翻蚳するず、テキストの意味やトヌンが倧幅に倉わる可胜性があるため、ロシア語のテキストをテストせずに分析の品質を評䟡するこずはほずんど䞍可胜です。そのカヌド商人は通垞、゜フトりェア商人よりも䜎い評䟡を持っおいたす。その理由は、盗たれたデヌタの品質よりも゜フトりェアの品質を刀断しやすいためだず著者は考えおいたす。著者は、感情分類子は、関心のあるトピックに適したオンラむン調査からトレヌニングされたず述べたしたが、デヌタセットず分類品質メトリックの䜿甚の詳现に぀いおは説明しおいたせんでした。別の蚀語に翻蚳するず、テキストの意味やトヌンが倧幅に倉わる可胜性があるため、ロシア語のテキストをテストせずに分析の品質を評䟡するこずはほずんど䞍可胜です。そのカヌド商人は通垞、゜フトりェア商人よりも䜎い評䟡を持っおいたす。その理由は、盗たれたデヌタの品質よりも゜フトりェアの品質を刀断しやすいためだず著者は考えおいたす。著者らは、感情分類子は関心のあるトピックに適したオンラむン調査からトレヌニングされたず述べたしたが、デヌタセットの䜿甚の詳现ず分類品質メトリックに぀いおは説明しおいたせんでした。別の蚀語に翻蚳するず、テキストの意味やトヌンが倧幅に倉わる可胜性があるため、ロシア語のテキストをテストせずに分析の品質を評䟡するこずはほずんど䞍可胜です。ただし、デヌタセットの䜿甚ず分類品質メトリックの詳现は提䟛されおいたせん。別の蚀語に翻蚳するず、テキストの意味や色調が倧幅に倉わる可胜性があるため、ロシア語のテキストをテストしないず、分析の品質を評䟡するこずはほずんど䞍可胜です。ただし、デヌタセットの䜿甚ず分類品質メトリックの詳现は提䟛されおいたせん。別の蚀語に翻蚳するず、テキストの意味やトヌンが倧幅に倉わる可胜性があるため、ロシア語のテキストをテストせずに分析の品質を評䟡するこずはほずんど䞍可胜です。



3.



画像

ナヌザヌが䜜成したレビュヌや゜ヌシャルメディアコンテンツは、䜜成者が自由に意芋を衚明できるため、通垞は䞻芳的なものです。ただし、ニュヌス分析では状況が異なりたす。報道機関は、疑念や曖昧さを取り陀こうずしお、刀断や完党な偏芋を避けようずしたす。圌らの哲孊は客芳性、たたは少なくずも広く受け入れられる䞭立性に基づいおいたす[73]。したがっお、ゞャヌナリストはしばしば吊定的たたは肯定的な語圙を䜿甚するこずを控えたすが、圌らの意芋を衚珟する他の方法に頌りたす[74]。たずえば、ゞャヌナリストは、いく぀かの事実を匷調し、他の事実を省略し、䌚話の耇雑な構造にステヌトメントを挿入し、圌らの芖点に合った匕甚を瀺すこずができたす。ニュヌスに察する人々の広範な関心は、䜕䞖玀も前に泚目されたした[151]、[152]。ニュヌスは、さたざたな分野の感情分析のデヌタ゜ヌスずしお䜿甚されたす。たずえば、ニュヌス自䜓の感情を評䟡するため[153]、[154]、株䟡を予枬するため[155]、[156]、遞挙結果[157]、[158]、オンラむンストアの商品の䟡栌[159]および将来の顧客の行動[154]。ロシア語のニュヌスに関しお、私は2぀のカテゎリヌの研究を特定したした。ニュヌス感情の評䟡ず経枈およびビゞネスの予枬です。ニュヌス感情の評䟡ず経枈およびビゞネスの予枬。ニュヌス感情の評䟡ず経枈およびビゞネスの予枬。



3.1。ニュヌスコンテンツ



Belyakovは、ロシア倖務省のWebサむトからのニュヌスレポヌトの感情の分析にいく぀かの蚘事[94]、[95]を捧げたした。著者は、2015幎2月1日から28日に発行された「ニュヌス」セクションの蚘事を䜿甚したした。テキストナニットは次のカテゎリに割り圓おられたした。



  • りクラむナの質問;
  • ロシアず䞭囜の間の協力。
  • ロシアずりクラむナの関係;
  • シリアでの玛争。
  • トルクメニスタンずの協力。
  • ロシアずギリシャの関係;
  • ロシアに察する制裁;
  • 今日の倖亀。


著者は、テキスト内の感情的な単語の極性を芁玄し、最終的なバむナリクラスを予枬する基本的なルヌルベヌスの分類子を䜜成したした。さらに、300のポゞティブワヌドステムず300ネガティブワヌドステムの蟞曞が線集されたした。分析結果によるず、「ロシアず䞭囜の協力」、「トルクメニスタンずの協力」、「ロシアずギリシャの関係」、「今日の倖亀」のカテゎリヌはポゞティブな色でした。 「りクラむナの質問」、「ロシアずりクラむナの関係」、「ロシアに察する制裁」のカテゎリヌは吊定的な色をしおいたした。ゞャヌナリストが曞いた蚘事の内容だけを調査するこずが重芁です。぀たり、これは特定のトピックに関する倖務省の公匏の立堎を衚したものです。将来的には、サむトで公開されおいるニュヌス蚘事に読者の反応やコメントを远加するこずができたす。感情分析の芳点から、Belyakovの研究の䞻な欠点は、モデル評䟡の欠劂です。テストデヌタの品質メトリックを知らなければ、モデルのパフォヌマンス、぀たり分析結果の品質を評䟡するこずはできたせん。



ロシア科孊アカデミヌの研究グルヌプは、メディアで蚀及されおいる技術ず革新に察する態床を研究したした[96]。 Exactus Expert [160]の助けを借りお、著者は2005幎から2015幎に発行されたむノベヌションずテクノロゞヌに関する240,000を超える蚘事を、16の゜ヌスから遞択したした。次に、手動で遞択したキヌワヌドに基づいお、ロシア連邊の重芁なテクノロゞヌのリストから11のテクノロゞヌトレンドに埓っお蚘事を分類したした。次に、著者は120の蚘事を遞択し、蚘事で蚀及されおいる各感情オブゞェクトにポゞティブたたはネガティブずしお手動で泚釈を付けたした。 346の泚釈付きペアのトレヌニングセットに基づいお、研究者は感情の語圙を䜜成し、ルヌルベヌスの分類アルゎリズムを開発したした。䞀般に、メディアは䞭立的な方法でテクノロゞヌに぀いお曞く傟向があるこずがわかりたした。これは、ニュヌスレポヌトのスタむルの䞀貫性が原因である可胜性がありたす。ITずバむオテクノロゞヌぞの吊定的な蚀及の割合が比范的䜎く、蚘事での党䜓的な肯定的な報道は、瀟䌚がこれらの技術の朜圚的な吊定的な結果に぀いお心配しおいないこずを瀺唆しおいたす。同時に、軍事技術に関する吊定的なレビュヌの割合は他の分野よりも高くなっおいたす。ただし、著者は、開発されたアルゎリズムの分類メトリックに぀いおは説明しおいたせん。さらに、すでに述べたように、これらの蚘事は、䞀般の人々だけでなく、公匏の芋解も衚珟できるゞャヌナリストによっお曞かれたした。さたざたなトピックに察する囜民の態床を評䟡するためには、ニュヌス蚘事に察する人々の反応をさらに調査する必芁がありたす。軍事技術に関する吊定的なレビュヌの割合は、他の分野よりも高くなっおいたす。ただし、著者は、開発されたアルゎリズムの分類メトリックに぀いおは説明しおいたせん。さらに、すでに述べたように、これらの蚘事は、䞀般の人々だけでなく、公匏の芋解も衚珟できるゞャヌナリストによっお曞かれたした。さたざたなトピックに察する囜民の態床を評䟡するためには、ニュヌス蚘事に察する人々の反応をさらに調査する必芁がありたす。軍事技術に関する吊定的なレビュヌの割合は、他の分野よりも高くなっおいたす。ただし、著者は、開発されたアルゎリズムの分類メトリックに぀いおは説明しおいたせん。さらに、すでに述べたように、これらの蚘事は、䞀般の人々だけでなく、公匏の芋解も衚珟できるゞャヌナリストによっお曞かれたした。さたざたなトピックに察する囜民の態床を評䟡するためには、ニュヌス蚘事に察する人々の反応をさらに調査する必芁がありたす。



カズンずカズン[75]は、遞挙䞭および遞挙埌のトランプの掻動に関するロシアのメディア報道を分析した。著者は、ネットワヌク分析にむンテグラムデヌタベヌスを䜿甚し、感情分析にメディアロゞヌデヌタベヌスを䜿甚したした。この調査では、遞挙の1か月前、1か月埌、7か月埌の3぀の時間間隔が取られたした。 Medialogyアプロヌチを䜿甚しお、テキストはポゞティブ、ネガティブ、ニュヌトラルの3぀のクラスに分けられたした。遞挙前のトランプの掻動に関するメディアの報道は、ポゞティブよりもネガティブであるこずが刀明したした。しかし、遞挙前の4か月では、クリントン関連の蚘事が非垞に重芁であったにもかかわらず、クリントンキャンペヌンの報道はトランプの報道よりもさらに肯定的なものもありたした。この研究の欠点の1぀は著者は、関心のあるトピックに関するデヌタの分類の品質に぀いお説明しおいなかったため、結果の正確性を怜蚌するこずは困難です。



同様の研究が、政治ず政府に関連するニュヌスの分析に向けられたした。゜ヌシャルメディアのコンテンツずは異なり、メディアは通垞それを劚げないため、叀いデヌタにアクセスするのに問題はありたせんでした。しかし、䞀郚のニュヌス研究の著者は、さらに詳しく説明する必芁があるず私が信じる特定のトピックに関する䞖論を定矩しようず詊みたした。もちろん、メディアは䞖論の反映ず芋なすこずができたすが、堎合によっおは、発行者のポリシヌが配信に圱響を䞎える可胜性があるため、ニュヌスが必ずしも䞖論を反映しおいるずは限りたせん。



3.2。経枈およびビゞネスの予枬



Yakovlevaは、テキストの感情の分析ず組み合わせお、ニュヌス蚘事に基づいおロシアの経枈掻動の高頻床指暙を蚈算するこずを提案したした[76]。調査䞭に、2぀のコンポヌネントが䜜成されたした。1぀はトピックの数を反映するように蚭蚈され、もう1぀はニュヌスのトヌンを識別するためのものです。前凊理は、MyStemによるステミング、句読点の削陀、ストップワヌド、䞍芁なスペヌスなど、いく぀かの段階で構成されおいたした。感情分類モデルずしお、Yakovlevaはサポヌトベクトルアルゎリズム[33]を採甚し、3438のポゞティブおよびネガティブニュヌス蚘事を含む手動で泚釈を付けたデヌタでトレヌニングしたした。テストセットの粟床は64でした。著者は、モデルが60未満の確率でテキストの色調を決定した堎合、色調は䞭立ず芋なされ、テキストは分析から陀倖されたず述べたした。すべおのトピック、最初のコンポヌネントで取埗されたものは、2番目のモデルからの感情情報ず組み合わされたした。この結合されたデヌタに基づいお、賌買マネヌゞャヌのむンデックスPMIを予枬するための回垰モデルが開発されたした。テストデヌタは、2017幎2月から2018幎8月たでの期間をカバヌしたした。モデルは比范的優れた予枬機胜を瀺し、新しい期間の実際のむンデックスを正確に近䌌したした。調査結果は、モデルが経枈的パフォヌマンスを綿密に远跡し、珟圚の財政状況により迅速に察応し、迅速な決定を䞋すのに圹立぀こずを瀺しおいたす。ただし、この研究にはいく぀かの欠点がありたす。たず、どの確率が䜿甚されたかは明確ではありたせん。基瀎ずなるサポヌトベクトルマシンの実装は、確率の掚定倀を盎接提䟛しないためです。さらに、しきい倀を遞択するための方法は説明されおいたせん。第二に、ダコブレバのトレヌニングデヌタは1人の専門家によっおのみ泚釈が付けられたしたが、これは䞀般的に受け入れられおいる慣行に察応しおいたせん[142]、[161]、[162]。最埌に、著者は予枬された比范ず実際のPMI倀のグラフ衚瀺を公開したしたが、回垰品質メトリックに぀いおは蚀及しおいたせん。しかし、回垰品質の指暙に぀いおは蚀及しおいたせん。しかし、回垰品質の指暙に぀いおは蚀及しおいたせん。



4.本



画像

過去60幎間で、科孊文献の分析は、手動の匕甚カりントや単語頻床分析から、自動ディヌプテキスト分析の最新の方法たで、長い道のりを歩んできたした[163]。この分野のトピックの1぀は、教材の感情の分析です。



4.1。本の内容



゜ロビ゚フの研究グルヌプは、ロシアの小䞭孊校で䜿甚されおいる瀟䌚研究ず歎史に関する教科曞の色調を研究したした[77]。この研究のために、ロシア語のアカデミックコヌパスは、BogolyubovずNikitinによっお線集された14のロシア語の教科曞に基づいお線集されたした。前凊理には、TreeTagger [164]を䜿甚した文のトヌクン化、単語のトヌクン化、および音声郚分のマヌクアップが含たれおいたした。著者は、ロシア語の蟞曞RuSentiLex [25]を䜿甚しお、各ドキュメントの感情的な単語の頻床を蚈算し、ドキュメントの1000ワヌドあたりの特定の数を枬定したした。コヌパスを分析した埌、著者は、高校の歎史教科曞、およびニキチンによっお曞かれた䞭孊校の瀟䌚研究教科曞の蚀説が䞻に吊定的な口調で提瀺されおいるこずを発芋したした。負の極性の単語が䜿甚され、負の䟋が瀺されおいたす。そしお、Bogolyubovによっお曞かれた教科曞は䞀般的に前向きな口調を持っおいたす。ただし、RuSentiLexは元々他のトピック甚に䜜成されおいたため、信頌性の欠劂の重芁な原因は、コヌパスから抜出された感情的な単語の正確さず関連性です。さらに、RuSentiLexは、単語が文のどこに出珟するか、およびその可胜な意味に関係なく、感情的な極性の単䞀のコンテキストに䟝存しない衚珟を提䟛したす。したがっお、このアプロヌチでは、文のコンテキストに基づいお単語のさたざたな意味を理解するこずはできたせん。RuSentiLexはもずもず他のトピックのために䜜成されたため、信頌性の欠劂の重芁な原因は、コヌパスから抜出された感情的な蚀葉の正確さず関連性です。さらに、RuSentiLexは、単語が文のどこに出珟するか、およびその可胜な意味に関係なく、感情的な極性の単䞀のコンテキストに䟝存しない衚珟を提䟛したす。したがっお、このアプロヌチでは、文のコンテキストに基づいお単語のさたざたな意味を理解するこずはできたせん。RuSentiLexはもずもず他のトピックのために䜜成されたため、信頌性の欠劂の重芁な原因は、コヌパスから抜出された感情的な蚀葉の正確さず関連性です。さらに、RuSentiLexは、単語が文のどこに出珟するか、およびその可胜な意味に関係なく、感情的な極性の単䞀のコンテキストに䟝存しない衚珟を提䟛したす。したがっお、このアプロヌチでは、文のコンテキストに基づいお単語のさたざたな意味を理解するこずはできたせん。したがっお、このアプロヌチでは、文のコンテキストに基づいお単語のさたざたな意味を理解するこずはできたせん。したがっお、このアプロヌチでは、文のコンテキストに基づいお単語のさたざたな意味を理解するこずはできたせん。



4.2。教育プロセス



Kolmogorovaは、䞭囜人孊生にロシア語を教える実隓を行った[78]。圌女は、教育テキストの感情、倖囜人孊生によるトレヌニングコヌスの魅力ず有効性の䞻芳的評䟡、およびそのようなテキストでの教育の実際の成功の間の関係を枬定したした。感情を分析するために、著者はシベリア連邊倧孊の応甚蚀語孊および認知研究研究所で開発された機械孊習ベヌスの感情分類噚を䜿甚したした。感情分析モデルは、マクロ平均Fで9クラスにテキストを分類1-ポむント50。 8぀のグレヌドはLšovheim[165]の基本的な感情に察応し、最埌のグレヌドは感情的に䞭立なテキストです。トレヌニングセットでは、テキストはオヌプンな「耳にした」VKontakteグルヌプで遞択されたした。 231人のロシア人ネむティブスピヌカヌがテキストにマヌクを付け、感情の衚珟の皋床を䞻芳的に評䟡したしたが、各テキストには1぀の感情のみが割り圓おられたした。すべおのテキストは、少なくずも3人の評䟡者によっおマヌクアップされたした。 2人たたは3人の評䟡者が同じクラスをテキストに割り圓おた堎合、この感情がテキストに割り圓おられたした。それ以倖の堎合、テキストはこのクラスのトレヌニングセットから削陀されたした。 Kolmogorovaは、䞻な感情が喜び/喜びず悲しみ/憂鬱であるテキストを䜿甚したした。実隓は、3぀の等しいグルヌプに分けられた䞭囜からの30人の孊生の参加で行われたした。各グルヌプは、トピック「パンクチュ゚ヌション」を調査および調査したした。 1぀のグルヌプは楜しいテキストから、2぀目は悲しいテキストから、3぀目は䞭立的なテキストから孊びたした。実隓的研究ず詊隓を終えた埌、孊生は、コヌスぞの䞀般的な関心の皋床ずその有効性、および孊習プロセスに察する満足床を蚘した質問祚に蚘入したした。質問祚ず詊隓結果を分析した埌、コルモゎロワは、教育テキストの色調が教育プロセスの䞻芳的評䟡ずその客芳的有効性に匷く圱響するこずを発芋したした。平均しお、孊生は、楜しく䞭立的なテキストよりも悲しいテキストの間違いを少なくしたしたが、圌らず䞀緒に仕事をするこずは、満足床が最も䜎くなりたした。楜しい文章を䜿った䜜品が最倧の関心を呌んだが、同時にトレヌニングの効果は䜎かった。この研究における䞍確実性の重芁な原因は、テキストの感情的な極性を分類するために䜿甚される方法です。モデルは、ある領域からのテキストでトレヌニングされ、分類品質の远加の怜蚌なしで別の領域からのテキストに適甚されたした。著者は、分類モデルに関する詳现に぀いおは説明しおいたせん。たた、前凊理ずトレヌニングに関する詳现情報も提䟛しおいたせん。



したがっお、教科曞の分析における䞻な困難は、このトピックに関する感情的な語圙ずトレヌニングキットがないこずにありたす。研究者が感情的な語圙を䜿甚しお単語レベルでテキストを分析した堎合、通垞、文䞭の単語の䜍眮や他の考えられる意味に関係なく、感情的な極性のコンテキストに䟝存しない衚珟が単語ごずに1぀取埗されたした。さらに、文曞レベルでのテキストの分析では、教科曞のテキストは長く、1぀のテキスト党䜓で異なる感情を衚珟できるため、テキストを感情のクラスに関連付けるこずが困難になりたす。



5.混合デヌタ゜ヌス



画像

より広い範囲の資料をカバヌするために、いく぀かの研究は異なる゜ヌスからのテキストを䜿甚しおいたす。たずえば、著者がニュヌスや゜ヌシャルメディアのコンテンツを䜿甚する堎合、ニュヌス゚ヌゞェンシヌや政府機関による特定のむベントの報道の極性を枬定できるだけでなく、議論されたさたざたなトピックに察する人々の態床を枬定するこずもできたす。



Berkman Center for InternetSociety [97]に掲茉された論文で、Etlingは、さたざたなロシア語ず英語のオンラむンおよび埓来のメディアず゜ヌシャルネットワヌクでのナヌロメむダン時代のりクラむナの抗議の議論のトヌンを調査したした。この研究では、Hopkins and King [167]によっお開発された分析方法に基づくCrimsonHexagon゜フトりェア[166]を䜿甚したした。テキストは、抗議に察する態床の芳点から、ポゞティブ、ニュヌトラル、ネガティブ、および関連性のない4぀のクラスに分類されたした。 2013幎11月21日から2014幎2月26日たでの期間のデヌタ゜ヌスは、Twitter、Facebook、ブログ、フォヌラム、ニュヌスサむトでのロシア語ず英語の出版物でした。クリムゟンヘキサゎンの制限により、りクラむナ語のテキストは考慮されたせんでした。それは明らかにした、ロシア語の情報源ずナヌザヌは、予想以䞊に抗議ぞの支持を衚明した。米囜ず英囜の英語のテキストは、西偎政府のむデオロギヌ的支揎に基づいお予想よりも吊定的でした。同時に、英囜、米囜、りクラむナの゜ヌシャルネットワヌクのコンテンツは、これらの囜の埓来のメディアず比范しおよりポゞティブでした。この研究の䞻な欠点は、感情分類モデルに関連しおいたす。最初に、圌女は最小量のデヌタ、぀たり玄120〜140のマヌクアップされた出版物に぀いおトレヌニングしたした。第二に、トレヌニングデヌタには1人の評䟡者だけが泚釈を付けたしたが、これはベストプラクティス[142]、[161]、[162]ず矛盟したす。分類の信頌性ず品質はテストされおいたせん。これは、監芖察象の機械孊習モデルの基本原則ず矛盟したす[168]。さらに、分析された゜ヌスの完党なリストは提䟛されおいないため、それらの遞択の信頌性を怜蚌するこずは困難です。さらに、りクラむナのテキストは考慮されなかったため、幅広い意芋が陀倖されたした。



カズンは、2014幎から2016幎のデヌタに基づいお、アレクセむ・ナノァルニヌの掻動のメディアず゜ヌシャルネットワヌクにおける報道の匷床ずトヌンを分析したした[80]。 Medialogiaの助けを借りお、著者はロシアの新聞、りェブサむト、および3぀の最倧の連邊TVチャンネルからNavalnyに関する145,000以䞊のニュヌス蚘事を受け取りたした。感情を分析するために、カズンはMedialogyで開発されたアルゎリズムポゞティブ、ネガティブ、たたはニュヌトラルクラスぞの分類を䜿甚し、以前に手動でマヌクされた200の蚘事でそれらをチェックしたした。䌝統的なメディアは、ロシアの反察掟䞀般たたはナノァルニヌを個人的に非難するために、文曞やニュヌス蚘事を時折公開するこずを陀いお、ナノァルニヌを無芖する傟向があるこずが刀明したした。党䜓ずしお、Navalnyは他のメディアよりもブログでより積極的な報道を埗たした。ただし、これらの蚘事での議論は䞻に重芁でした。著者はたた、特城的な出版戊略ずトヌンパタヌンを明確にしお、各タむプのメディアの詳现を説明したした。䞀般的な吊定にもかかわらず、Navalnyの掻動のニュヌス報道は幎々より肯定的になっおいたす。この傟向の理由は、重芁な蚘事の数の枛少ず肯定的な蚘事の数の増加です。メディアロゞヌ感情分析アルゎリズムを䜿甚しお発芋されたすべおの䟋のように、著者はタヌゲットトピックの分類メトリックに぀いお説明しおいたせん。メディアロゞヌ感情分析アルゎリズムを䜿甚しお発芋されたすべおの䟋のように、著者はタヌゲットトピックの分類メトリックに぀いお説明しおいたせん。メディアロゞヌ感情分析アルゎリズムを䜿甚しお発芋されたすべおの䟋のように、著者はタヌゲットトピックの分類メトリックに぀いお説明しおいたせん。



圌の研究[79]で、ブラントリヌはTwitter、Facebook、YouTube、ブログ、フォヌラム、ニュヌスサむトのコンテンツに基づいお2013幎から2014幎のりクラむナ革呜を分析したした。クリムゟンヘキサゎンプラットフォヌムの助けを借りお、圌はロシア語、りクラむナ語、英語の2,809,476のテキストのコレクションを集めたした。 2013幎11月21日から2014幎3月1日たでの期間にりクラむナから発行されたテキストのみを怜蚎したした。3぀の蚀語すべおに堪胜な2人の評䟡者が、クリムゟンヘキサゎンの䞀郚でノンパラメトリックデヌタ分析アルゎリズムであるBrightViewアルゎリズムのトレヌニングデヌタセットに泚釈を付けたした。 [166]で説明されおいたす。テキストは、ポゞティブ、ニュヌトラル、ネガティブの3぀のカテゎリヌに分けられたした。クリムゟンヘキサゎンでのテストでは、手動グレヌディングず92の䞀臎が瀺されたした。収集されたデヌタずずもに、著者はトヌンデヌタセットグロヌバルナレッゞグラフずむベントデヌタセットおよびグロヌバルむベント蚀語デヌタセットからの情報を䜿甚したした[169]。りクラむナでは、政治団䜓ず蚀語的特城に関連する奜みずの間に顕著な矛盟があったこずが刀明したした。これは、りクラむナ語を話すスピヌカヌが䌝統的に反察掟ぞの支持を衚明しおきた過去の投祚結果によっおさらに確認されおいたす。オンラむンずオフラむンの関䞎を盎接比范するこずにより、ブラントレヌは、゜ヌシャルメディアが抗議の身䜓的発達に倧きな圱響を䞎えた、぀たり、路䞊での抗議者の数の増加に぀ながったず結論付けたした。りクラむナでは、政治団䜓ず蚀語的特城に関連する奜みずの間に顕著な矛盟があったこず。これは、りクラむナ語を話すスピヌカヌが䌝統的に反察掟ぞの支持を衚明しおきた過去の投祚結果によっおさらに確認されおいたす。オンラむンずオフラむンの関䞎を盎接比范するこずにより、ブラントレヌは、゜ヌシャルメディアが抗議の身䜓的発達に倧きな圱響を䞎えた、぀たり、路䞊での抗議者の数の増加に぀ながったず結論付けたした。りクラむナでは、政治団䜓ず蚀語的特城に関連する奜みずの間に顕著な矛盟があったこず。これは、りクラむナ語を話すスピヌカヌが䌝統的に反察掟ぞの支持を衚明しおきた過去の投祚結果によっおさらに確認されおいたす。オンラむンずオフラむンの関䞎を盎接比范するこずにより、ブラントレヌは、゜ヌシャルメディアが抗議の身䜓的発達に倧きな圱響を䞎えた、぀たり、路䞊での抗議者の数の増加に぀ながったず結論付けたした。その゜ヌシャルメディアは抗議の身䜓的発達に倧きな圱響を䞎えたした。぀たり、路䞊での抗議者の数の増加に぀ながりたした。その゜ヌシャルネットワヌクは抗議の身䜓的発達に倧きな圱響を䞎えたした。぀たり、路䞊での抗議者の数の増加に぀ながりたした。



さたざたな皮類の情報源を䜿甚するこずの䞻な欠点は、幅広い意芋に加えお、著者が特定の皮類の情報源に特城的な困難ず制限に盎面するこずです。それらは、代衚的なデヌタぞのアクセス、制限の培底的な説明、遞択したトピックのトレヌニングデヌタの欠劂に関連付けるこずができたす。いく぀かの研究では、感情分析ず感情指暙の集蚈は、゜ヌスの皮類によっお区別するこずなく、幅広いテキストに基づいお実行されたした。たずえば、感情を集玄する堎合、著者は゜ヌシャルメディアの出版物ずニュヌス蚘事を同等の単䜍ず芋なしたした。おそらく、そのような堎合、さたざたなタむプの゜ヌスからのテキストをより正確に分析するために、重みを適甚するより耇雑なモデルを䜿甚する方が論理的です。



6.次ぞ



数日埌、最埌の郚分がリリヌスされたす。そこでは、研究者が盎面する䞀般的な困難ず、将来の有望な方向性に぀いお話したす。蚘事党䜓を䞀床に英語で読みたい堎合は、こちらにアクセスしおください。



7.出兞



゜ヌスの完党なリストはここにありたす。



All Articles