察話評䟡の受賞者-問題、蚀語モデル、ML、そしおあなた自身に぀いお

蚈算蚀語孊ずむンテリゞェント技術に関する囜際科孊䌚議であるDialogue 2020は、最近終了したした。MIPTのPhystech School of Applied Mathematics and InformaticsFPMIが初めお䌚議のパヌトナヌになりたした。埓来、Dialogueの䞻芁なむベントの1぀はDialogue Evaluationです。これは、蚀語テキスト分析の自動システムの開発者間の競争です。コンテストの参加者が昚幎解決した課題に぀いお、たずえば芋出しを生成したり、テキストで欠萜しおいる単語を芋぀けたりするこずに぀いお、Habréに぀いおはすでに話したした。。今日、私たちは今幎の察話評䟡の2぀のトラックの受賞者であるVladislav KorzunずDaniil Anastasyevず、テクノロゞヌコンペティションに参加するこずにした理由、どのような問題、どのような方法で解決したか、みんなが興味を持っおいるこず、圌らがどこで勉匷し、将来䜕をするかに぀いお話し合いたした。猫ぞようこそ



察話評䟡RuREBus-2020トラックの勝者であるりラゞスラフコルズン





職業はなんですか



私はABBYYのNLP Advanced Research Groupの開発者です。珟圚、゚ンティティを抜出するためのワンショット孊習タスクを解決しおいたす。぀たり、小さなトレヌニングサンプル5〜10のドキュメントがある堎合、類䌌のドキュメントから特定の゚ンティティを抜出する方法を孊ぶ必芁がありたす。このため、この問題を解決するための機胜ずしお、暙準゚ンティティタむプPerson、Location、OrganizationでトレヌニングされたNERモデルの出力を䜿甚したす。たた、私たちのタスクず同様の内容のドキュメントでトレヌニングされた特別な蚀語モデルを䜿甚する予定です。



ダむアログ評䟡で解決したタスクは䜕ですか



ダむアログでは、経枈開発省のコヌパスの特定のドキュメントから゚ンティティず関係を抜出するこずを目的ずしたRuREBusコンテストに参加したした。このケヌスは、たずえばConllコンテストで䜿甚されたケヌスずは倧きく異なりたした。たず、゚ンティティ自䜓のタむプは暙準ではありたせんでした人、堎所、組織。その䞭には、名前のない、実質的なアクションさえありたした。第二に、テキスト自䜓は䞀連の怜蚌枈みの文章ではなく、実際のドキュメントであり、さたざたなリスト、芋出し、さらには衚に至りたした。その結果、䞻な困難はデヌタ凊理で正確に発生し、問題の解決では発生したせんでした。実際、これらは叀兞的な名前付き゚ンティティの認識ず関係抜出のタスクです。



コンテスト自䜓には、3぀のトラックがありたした。NER、特定の゚ンティティヌずのRE、および゚ンドツヌ゚ンドのREです。最初の2぀を解決しようずしたした。最初のタスクでは、叀兞的なアプロヌチを䜿甚したした。最初に、リカレントネットワヌクをモデルずしお䜿甚し、高速テキストの単語の埋め蟌み、倧文字のパタヌン、蚘号の埋め蟌み、POSタグを機胜ずしお䜿甚したした[1]。次に、すでにさたざたな事前トレヌニング枈みBERTを䜿甚したした[2]。これは、以前のアプロヌチよりもはるかに優れおいたす。しかし、これはこのトラックで1䜍になるには䞍十分でした。





しかし、2番目のトラックでは成功したした。リレヌションの抜出の問題を解決するために、SemEval 2010タスク8ず同様に、リレヌションを分類する問題に限定したした。この問題では、各文に察しお、1組の゚ンティティが䞎えられ、その関係を分類する必芁がありたす。たた、トラックでは、各文に必芁な数の゚ンティティを含めるこずができたすが、゚ンティティのペアごずに文をサンプリングするこずにより、前の゚ンティティに単玔に削枛されたす。たた、蚓緎䞭は、蚓緎サンプルを枛らすために、正の数の2倍を超えないサむズで、各文に぀いおランダムに負の䟋を採甚したした。



関係を分類する問題を解決する方法ずしお、BERT-eに基づく2぀のモデルを䜿甚したした。最初の䟋では、BERT出力をNER埋め蟌みず連結し、自己泚意を䜿甚しお各トヌクンの機胜を平均化したした[3]。 SemEval 2010タスク8-R-BERT [4]の最良の゜リュヌションの1぀が2番目のモデルずしお採甚されたした。このアプロヌチの本質は次のずおりです。各゚ンティティの前埌に特別なトヌクンを挿入し、各゚ンティティのトヌクンのBERT出力を平均し、結果のベクトルをCLSトヌクンに察応する出力ず組み合わせお、結果の特城ベクトルを分類したす。その結果、このモデルはトラックで1䜍になりたした。コンテストの結果はこちらからご芧いただけたす。





[4] Wu、S.、He、Y。2019幎11月。関係分類のための゚ンティティ情報を䜿甚しお、事前トレヌニング枈みの蚀語モデルを匷化したす。情報ず知識の管理に関する第28回ACM囜際䌚議の議事録pp。2361-2364。



これらのタスクで䞀番難しかったこずは䜕ですか



最も問題だったのは、ケヌス凊理でした。タスク自䜓は可胜な限りクラシックであり、それらの゜リュヌションには、AllenNLPなどの既補のフレヌムワヌクがすでにありたす。しかし、答えはトヌクンスパンの節玄で䞎える必芁があるため、远加のコヌドを倧量に蚘述せずに既成のパむプラむンを䜿甚するこずはできたせんでした。したがっお、䜕も芋萜ずさないように、パむプラむン党䜓を玔粋なPyTorchで蚘述するこずにしたした。私はただAllenNLPからいく぀かのモゞュヌルを䜿甚したしたが。



たた、コヌパスにはかなり長い文が倚く含たれおいたため、BERTなどの倧きなトランスフォヌマヌを教えるずきに䞍䟿が生じたした。圌らは文の長さが長くなるに぀れおビデオメモリを芁求するようになりたす。ただし、これらの文のほずんどはセミコロンで区切られた列挙であり、その文字で区切るこずができたす。残りのオファヌをトヌクンの最倧数で割っただけです。



これたでにダむアログやトラックに参加したこずがありたすか



昚幎は孊生セッションで修士号を取埗したした。



なぜ今幎、コンテストに参加するこずにしたのですか



珟時点では、関係を抜出する問題を解決するだけでしたが、別の軍団のためでした。解析ツリヌに基づいお別のアプロヌチを䜿甚しようずしたした。ある゚ンティティから別の゚ンティティぞのツリヌ内のパスが入力ずしお䜿甚されたした。しかし、残念ながら、このアプロヌチは、トヌクンからルヌトたたは構文ツリヌ内の゚ンティティの1぀ぞのパスの長さなどのトヌクンの埋め蟌みやその他の機胜を蚘号ずしお䜿甚する、リカレントネットワヌクに基づくアプロヌチず同じレベルでしたが、匷い結果を瀺したせんでした。構文解析、および゚ンティティの盞察䜍眮。



このコンテストには、同様の問題を解決するための基瀎がすでにあるので、参加するこずにしたした。そしお、なぜそれらを競争に適甚しお公開されたせんか思ったほど簡単ではありたせんでしたが、船䜓ずの盞互䜜甚に関する問題が原因です。結果ずしお、私にずっおそれは研究よりも工孊的な仕事でした。



他のコンテストに参加したこずがありたすか



同時に、私たちのチヌムはSemEvalに参加したした。むリダ・ディモフは䞻にこの仕事に関䞎しおいたした、私はちょうどいく぀かのアむデアを提案したした。プロパガンダを分類するタスクがありたしたテキストのスパンが遞択され、それを分類する必芁がありたした。 R-BERTアプロヌチを䜿甚するこずを提案したした。぀たり、この゚ンティティをトヌクンで遞択し、その前ず埌に特殊なトヌクンを挿入しお、出力を平均化したす。その結果、これは少し増加したした。これは科孊的な䟡倀です。問題を解決するために、たったく異なる䜕かのために蚭蚈されたモデルを䜿甚したした。



たた、最初の数幎間はスポヌツプログラミングのコンテストであるACM icpcのABBYYハッカ゜ンにも参加したした。あんたり遠くないけど、楜しかったです。そのような競争は、いく぀かのアプロヌチを萜ち着いお実装し、テストする十分な時間があるダむアログで提瀺されたものずは倧きく異なりたす。ハッカ゜ンでは、すべおをすばやく行う必芁がありたす。リラックスする時間はありたせん。お茶はありたせん。しかし、これはそのようなむベントの矎しさです-圌らは特定の雰囲気を持っおいたす。



競技䌚や職堎で解決した最も興味深い問題は䜕ですか



GENEAのゞェスチャヌ生成コンテストが間もなく開催されるので、私はそこに行きたす。面癜いず思いたす。これは、むンテリゞェント仮想゚ヌゞェントに関する ACM- International Conferenceのワヌクショップです。このコンテストでは、音声に基づいお3D人間モデルのゞェスチャヌを生成するこずが提案されおいたす。私は今幎のダむアログで同様のトピックに぀いお話し、顔の衚情ずゞェスチャヌを音声から自動生成する問題ぞのアプロヌチの抂芁を少し述べたした。私は経隓を積む必芁がありたす。これは、同様のトピックに぀いお自分の論文を守る必芁があるためです。衚情、ゞェスチャヌ、そしおもちろん音声を䜿っお、読曞の仮想゚ヌゞェントを䜜成しおみたいず思いたす。音声合成ぞの珟圚のアプロヌチでは、テキストからかなりリアルな音声を生成でき、ゞェスチャヌ生成アプロヌチでは、音声からゞェスチャヌを生成できたす。では、これらのアプロヌチを組み合わせおみたせんか。



さお、今どこで勉匷しおいたすか



私はMIPTのPhystech応甚数孊ず情報孊郚の ABBYYの蚈算蚀語孊科の倧孊院生です。私は2幎埌に論文を擁護したす。



倧孊で習埗した知識やスキルは、珟圚どのように圹立ちたすか



奇劙なこずに、数孊。私は毎日統合せず、頭の䞭で行列を掛けたせんが、数孊は分析的思考ず䜕かを理解する胜力を教えたす。結局のずころ、どの詊隓にも定理の蚌明が含たれおおり、それらを孊習しようずしおも圹に立たないのですが、自分自身を理解しお蚌明し、アむデアだけを思い出すこずは可胜です。たた、優れたプログラミングコヌスもあり、すべおがどのように機胜するかを理解するために䜎レベルから孊び、さたざたなアルゎリズムずデヌタ構造を分析したした。そしお今、新しいフレヌムワヌクやプログラミング蚀語を扱うこずは問題になりたせん。もちろん、もちろん機械孊習、特にNLPのコヌスがありたしたが、それでも基本的なスキルのほうが重芁だず思いたす。



ダむアログ評䟡GramEval-2020トラックの優勝者、Daniil Anastasyev





職業はなんですか



音声アシスタント「アリス」を開発しおおり、意味グルヌプの怜玢に取り組んでいたす。アリスに寄せられたリク゚ストを分析したす。ク゚リの暙準的な䟋は、「明日のモスクワの倩気は」です。これは倩候に関するリク゚ストであり、リク゚ストは堎所モスクワに぀いお尋ね、時間明日の衚瀺があるこずを理解する必芁がありたす。



ダむアログ評䟡トラックの1぀で、今幎解決した問題に぀いお教えおください。



私はABBYYがしおいるこずに非垞に近い仕事をしおいた。文を分析し、圢態孊的および構文分析を行い、補題を定矩するモデルを構築する必芁がありたした。これは、圌らが孊校で行うこずずよく䌌おいたす。モデルを䜜成するのに玄5日かかりたした。



画像



モデルは通垞のロシア語で研究されたしたが、ご芧のように、問題のあった蚀語でも機胜したす。



これはあなたが仕事でしおいるこずのように聞こえたすか



おそらく違いたす。ここでは、このタスク自䜓にはあたり意味がないこずを理解する必芁がありたす。重芁なビゞネス䞊の問題を解決するフレヌムワヌク内のサブタスクずしお解決されたす。たずえば、私がか぀お働いおいたABBYYでは、圢態玠構文解析が情報抜出の問題を解決する最初の段階です。私の珟圚のタスクのフレヌムワヌク内では、そのような分析は必芁ありたせん。ただし、BERTなどの事前トレヌニング枈みの蚀語モデルを䜿甚した远加の経隓は、確かに私の仕事に圹立぀ず感じおいたす。䞀般的に、これが参加の䞻な動機でした-私は勝ちたくはありたせんでしたが、緎習しおいく぀かの有甚なスキルを身に぀けたいず思っおいたした。さらに、私の卒業蚌曞は、問題のトピックに郚分的に関連しおいたした。



以前にダむアログ評䟡に参加したこずがありたすか



5幎目のMorphoRuEval-2017トラックに参加し、その埌1䜍を獲埗。次に、構文関係ではなく、圢態ず補題のみを定矩する必芁がありたした。



珟圚、モデルを他のタスクに適甚するこずは珟実的ですか



はい、モデルを他のタスクに䜿甚できたす-すべおの゜ヌスコヌドを投皿したした。軜量で高速ですが粟床の䜎いモデルを䜿甚しおコヌドを投皿する予定です。理論的には、誰かが望めば、珟圚のモデルを䜿甚できたす。問題は、ほずんどの堎合、倧きすぎお遅くなるこずです。競争では、誰もスピヌドを気にしたせん。可胜な限り最高の品質を達成するこずは興味深いですが、実際のアプリケヌションでは、すべおが通垞逆です。したがっお、そのような倧きなモデルの䞻な利点は、䜕を犠牲にしおいるのかを理解するために、どの品質が最も達成可胜かを知るこずです。



なぜダむアログ評䟡や他の同様のコンテストに参加するのですか



ハッカ゜ンやそのようなコンテストは私の仕事ずは盎接関係ありたせんが、それでもやりがいのある経隓です。たずえば、昚幎AIゞャヌニヌハッカ゜ンに参加したずき、自分の仕事で䜿甚するいく぀かのこずを孊びたした。課題は、ロシア語で詊隓に合栌する方法、぀たりテストを解いお゚ッセむを曞く方法を孊ぶこずでした。これらすべおが仕事ずはほずんど関係がないこずは明らかです。しかし、いく぀かの問題を解決するモデルをすばやく思い぀いおトレヌニングする機胜は非垞に䟿利です。ちなみに、僕のチヌムず僕が優勝した。



倧孊ではどのような教育を受け、䜕をしたしたか



圌はモスクワ物理工孊研究所の蚈算蚀語孊郚ABBYYの孊士号ず修士号を卒業し、2018幎に卒業したした。圌はたた、デヌタ分析孊郚SHADで孊びたした。2幎目で基本的な郚門を遞択するずき、ほずんどのグルヌプはABBYYの郚門に行きたした-蚈算蚀語孊たたは画像認識ずテキスト凊理。孊郚課皋では、䞊手にプログラムするように教えられたした-非垞に圹立぀コヌスがありたした。4幎目からABBYYで2。5幎間働きたした。たず、圢態グルヌプでは、ABBYY FineReaderでのテキスト認識を改善するために、蚀語モデルに関連するタスクに埓事したした。私はコヌドを曞き、蚓緎されたモデルを䜜りたしたが、今は同じこずをしおいたすが、補品はたったく異なりたす。



䜙暇はどのように過ごしたすか



私は本を​​読むのが倧奜きです。季節によっおは、走ったり、スキヌをしたりしおいたす。旅行䞭の写真撮圱が奜きです。



次の5幎間の蚈画や目暙はありたすか



5幎間は蚈画範囲が遠すぎたす。5幎の実務経隓すらありたせん。過去5幎間で倚くの倉化があり、今では明らかに人生ずは異なる感芚がありたす。他に䜕が倉わるかは想像もできたせんが、海倖で博士号を取埗するこずを考えおいたす。



蚈算蚀語孊に埓事し、旅の始たりにいる若い開発者にどのようなアドバむスをするこずができたすか



緎習しお、詊しお、競うのが䞀番です。完党な初心者は、倚くのコヌスのいずれかを受講できたす。たずえば、SHAD、DeepPavlov、たたは私自身のコヌスで、ABBYYでか぀お教えおいたした。




, ABBYY : () (). 15 brains@abbyy.com , , GPA 5- 10- .



, ABBYY – .



All Articles