テキストの比較
3つのテキストがあるとしましょう。2つは犬に関するもので、もう1つは猫に関するものです。それらをどのように比較しますか?
テキストに出現する各単語の数を数えることができます。この場合、猫と犬を数えます。テキストに猫よりも犬が多い場合、それら(テキスト)はほぼ同じであると結論付けることができます。
実際、これが常に当てはまるとは限りません。犬についての非常に長いテキストがあり、その中にもっと多くの単語がある状況を想像してみてください。幸い、コサイン距離を比較することで、この状況から抜け出すことができます。
bag-of-words , , , «» «» . , , . , ? . bag-of-words , «» «» .
. , , . , «» «». – . python : pymorphy pymystem. , . .
. , , .
, . , «» — «» — «», , «» «», «».
Word2Vec
, . , Word2Vec. ? , . , , . Word2Vec :
, .. . , , . 10 . .
, , , IT, .. . ? () «». «» «» , , , , .
, pyLDAvis , .
, . , . . udpipe.
, , : « ». , , «».
, udpipe , , .
すべてのツールが簡単な例を使用して検討されたという事実にもかかわらず、NLPには、従業員の要求の分類、顧客のレビューの評価、チャットボットからのメッセージの分析など、解決すべき幅広いタスクがあります。したがって、さらにいくつかの楽器が私たちの手に現れました。