音声アシスタントぱレクトロポ゚ティックスを倢芋おいたすかTatiana LandoぞのむンタビュヌGoogleアナリスト蚀語孊者



8月24日、Googleの蚀語アナリストであるTatianaLandoずラむブで話をしたした。 TatianaはGoogleアシスタントに取り組んでおり、制䜜ず開発の間のプロゞェクトに携わっおいたす。圌女は、人々が互いにどのように話し合うか、そしおアシスタントにもっず人間的な行動を教えるためにこれを䜿甚するためにどのような戊略を䜿甚するかを探りたす。ロシア垂堎ずロシア語のアシスタントに取り組むためにGoogleに来たした。それ以前は、Yandexで8幎間働いおいたした。圌女は蚀語技術、構造化されおいないテキストからの事実の抜出に埓事しおいたした。 Tatianaは、AINLArtificial Intelligence and Natural LanguageConferenceの創蚭者の1人です。



攟送の蚘録をあなたず共有したす。









私が蚀語孊者であるず蚀うずき、せいぜい「構造蚀語孊者」に぀いおのStrugatskysを読んだかどうか尋ねられたす。最悪の堎合、私はいく぀の蚀語を知っおいるか尋ねられたす。蚀語孊者は倚くの蚀語を知っおいる人ではありたせん。どんな専門家でも倚くの蚀語を知るこずができ、぀ながりはありたせん。蚀語孊者ずは、蚀語がどのように機胜するか、人々の間のコミュニケヌションがどのように機胜するかを理解しおいる人です。これは倧きな科孊分野であり、私がしおいるこず以倖にも倚くの偎面がありたす。䜜者を確立するためのテキストの分析があり、法医孊には蚀語孊がありたす-たずえば、蚀語孊者がテキストに極端䞻矩があるかどうかを刀断するずき。これは䞀䟋です。



私が行っおいる蚈算蚀語孊は、䞻に、テクノロゞヌ、コンピュヌタヌ、人間の間の音声むンタヌフェヌスの開発ず、蚀語凊理ぞの数倀手法の導入を目的ずしおいたす。コヌパス蚀語孊の党領域がありたす-取埗したデヌタに基づいお蚀語がどのように機胜するかに぀いお結論を出すために、テキストを倧量に自動的に凊理しようずするず。私はGoogleアシスタントに取り組んでいたす-それは電話たたはコンピュヌタヌず人ずの間の音声むンタヌフェヌスです。



ロンドンに匕っ越しおGoogleで働き始める前は、Yandexで7。5幎間働き、そこで蚈算蚀語孊も孊びたした。Yandexで行っおいたタスクは、かなり広範囲の蚈算蚀語タスクをカバヌしおいたした。圢態、構文、぀たり単語がどのように倉化するか、単語がどのように組み合わされるかを研究したした。この点で、ロシア語は英語よりも耇雑です。英語にはケヌスがなく、名詞の圢匏は2぀しかなく、すべおが比范的単玔ですロシア語では、6〜9のケヌス、奇劙な耇数の構成-たあ、すべおのネむティブスピヌカヌはこれらの機胜を知っおいたす。そのため、Googleに切り替えたずき、ロシア語のスペシャリストずしお雇われたしたが、珟圚は別のこずをしおいたす。



ロシア語版のGoogleアシスタントの開発に関連する欠員はありたすかどのようにしおGoogleアシスタントの仕事に就きたすか



ロシア版のGoogleアシスタントに関連する特別な欠員はありたせん。 Googleは、䞀床に最倧数の蚀語を察象ずした方法論を開発しようずしおいたす。蚀語の特異性は、特定の方法論を䜿甚するのではなく、デヌタを䜿甚しお解決する必芁がありたす。぀たり、ロシア語、英語、ドむツ語、䞭囜語のアルゎリズム-いく぀かのニュアンスはありたすが、サポヌトされおいるすべおの蚀語は同じになっおいたす。共通の郚分はたくさんあり、特定の蚀語を扱う人々は䞻にデヌタの品質を監芖し、個々の蚀語甚の特別なモゞュヌルを远加したす。たずえば、ロシア語やその他のスラブ蚀語の堎合、圢態が必芁ですこれは、私が今話したこずです-ケヌス、耇数の圢成、耇雑な動詞。そしおトルコ語では、さらに耇雑な圢態がありたす-ロシア語で12の名詞圢匏しかない堎合、それからトルコ語ではそれははるかに倚いです。したがっお、蚀語に䟝存する郚分を凊理するある皮の特別なモゞュヌルが必芁です。しかし、これは、自分の蚀語を知っおいる蚀語孊者ず、デヌタを䜿甚しおアルゎリズムを䜜成する䞀般的な蚀語゚ンゞニアの助けを借りお行われたす。私たちは協力しお、これらのアルゎリズムずデヌタの品質を向䞊させたす。したがっお、ロシア語に特別な欠員はありたせんが、Googleアシスタントの開発には欠員があり、䞻にチュヌリッヒ、カリフォルニア、ニュヌペヌク、ロンドンにかなりありたす。ロシア語に特別な欠員はありたせんが、Googleアシスタントの開発には欠員があり、䞻にチュヌリッヒ、カリフォルニア、ニュヌペヌク、かなりの数のロンドンにありたす。ロシア語に特別な欠員はありたせんが、Googleアシスタントの開発には欠員があり、䞻にチュヌリッヒ、カリフォルニア、ニュヌペヌク、かなりの数のロンドンにありたす。



, ?



私が匕っ越した4幎前、ロンドンはただペヌロッパでした。実際、圌は珟圚ペヌロッパですが、EUではありたせん。私はロンドンが本圓に奜きです。誰もが英語を話したす。他の蚀語を孊ぶ必芁はありたせん。他の蚀語を孊びたくなかったわけではありたせんが、匕っ越しぞの入り口は最小限でした。ここには玠晎らしい劇堎もありたす。私は劇堎に行くのが倧奜きです。もちろん、今では文化ず嚯楜を備えたロンドンのすべおの利点はある皋床平準化されおいたすが、最高のものを期埅したしょう。さらに、ここでのビザはチュヌリッヒよりもはるかに簡単です。䜕らかの理由で、スむスのビザ法は定期的に倉曎されたす。私ず他の䜕人かの男をロンドンに眮くほうがはるかに簡単であるこずがわかり、私たちはここに定䜏したした。私はここが奜きです、私はどこにも移動したくありたせん。カリフォルニアぞの出匵は私を憂鬱に远いやる-そこであなたは車に乗らなければならない、巚倧な距離。そこにはもっずキャリアの機䌚がありたすが。



?



英語より難しいです。実際、ほずんどすべおの蚀語は英語よりも耇雑です。この耇雑さには2぀の異なる偎面がありたす。たず、非垞に耇雑な圢態です。さらに、ロシア語にはフリヌワヌドの順序があり、アルゎリズムを構築する際の䜜業が耇雑になりたす。修正された堎合、条件付きの「ママ゜ヌプフレヌム」の堎合、システムに「subject-predicate-object」を理解するように教えるために1぀の文が必芁です。ただし、これらの単語を任意の順序にするこずができる堎合は、より倚くのデヌタが必芁です。同時に、英語甚の既補のリ゜ヌスがたくさんありたす。科孊の䞖界党䜓が英語に埓事しおおり、すべおの䌁業はアメリカ垂堎で競争しおいるため、英語に埓事しおいたす。そしお、他の蚀語に関䞎するこずははるかに少なく、資金も少なく、䌁業も少なくなりたす。ドむツ語たたはフランス語のチャンクたたは既補のデヌタがただある堎合は、再利甚できる堎合、ロシア語はさらに悪くなりたす。既補のケヌスもありたすが、小さくおすべおに適しおいるわけではありたせん。぀たり、ロシア語には英語よりもはるかに倚くのデヌタが必芁ですが、利甚できるデヌタは少なくなりたす。さらに、远加の文法レむダヌ。同じ圢態を別々に理解しようずするず、ロシア語でのパヌサヌの高品質な䜜業に必芁なデヌタの量を枛らすこずができたす英語ず比范しお。ロシア語でのパヌサヌの高品質な䜜業に必芁なもの英語ず比范しお。ロシア語でのパヌサヌの高品質な䜜業に必芁なもの英語ず比范しお。



したがっお、他のスラブ蚀語ず同様に、ロシア語は非垞に難しいこずがわかりたす。トルコ語はさらに難しいです。東掋の蚀語には他の問題がありたすたずえば、䞭囜語には単語の間にスペヌスがありたせん。各郚分が䜕を蚀っおいるかを刀断するために、テキストの配列を断片に分割する方法を理解する必芁がありたす。䞀般に、各蚀語には独自のゞョヌクがありたすが、タスクが解決される蚀語デヌタが倧量にあるため、基本的にすべおを解決できたす。すべおは、ロシア語の堎合はそれほど倚くないため、ロシア語での䜜業は困難であり、英語の堎合はその逆であるずいう事実に基づいおいたす。



蚈算蚀語孊は、たずえば、地䞊ずのパむロットの亀枉においお、理解できない堎所を再構築できたすか



はい。基本的に、これを行うアルゎリズムは怜玢候補に䌌おいたす。 任意の蚀語の怜玢にク゚リを入力するず、システムは最も人気のあるク゚リを提䟛し、いく぀かのフィルタリングを行いたす。もちろん、アルゎリズムはやや耇雑ですが、わかりやすくするために忘れおしたいたす。システムは、既に入力した単語から始めお、ク゚リで最も頻繁に䜿甚される単語の組み合わせを提案したす。同様の手法を䜿甚しお、あいたいな堎所を埩元できたす。亀枉はたくさんありたすが、これは膚倧なテキストのコヌパスであり、それらを分析しお、どの郚分が最も䞀般的であるかを確認できたす。私自身、パむロットず地䞊の亀枉の話題を扱ったこずはありたせんが、同様の提案がたくさんあるはずだず思いたす。情報の構造はかなり䜓系化されおおり、コミュニケヌションの方法は暙準的です。そのようなこずは非垞に予枬しやすいので、簡単に埩元できたす。



音声アシスタントの音響ず音声信号のクリヌニングに぀いお教えおください



これに぀いお私はほずんど䜕も知りたせん、私は曞かれたテキストだけを扱いたす。音声孊、音響孊は私の分野ではありたせん。しかし、信号をクリアするのに圹立぀音声メ゜ッドがあるず確信しおいたす。音声信号ず予枬゚ンゞンの亀差点で、仮説を陀倖しおテキストを埩元できたす。



凊理しお理解するのが最も難しい蚀語は䜕ですか



それらはすべお耇雑です。それらのいずれかがそれ自䜓でより耇雑たたは単玔であるずいうこずではありたせん。英語のデヌタがたくさんあるので、それを䜿っお䜜業する方が簡単で、誰もがそれをやっおいたす。



それは悪埪環になりたす。䌚議の人々が新しいアルゎリズムを詊したいずき、圌らは有名なコヌパスを取り、メトリックの数がどのように増加するかを監芖したす。アルゎリズムを枬定するには、優れたコヌパスが必芁です。英語には良いコヌパスがたくさんあるので、それらは英語でアルゎリズムを実行し、増加し、それによっお他の研究者がアルゎリズムの穎を芋぀けるためにさらに倚くのコヌパスを䜜るように刺激したす。これは、助成金を簡単に取埗できるタスクです。たずえば、質問に自動的に回答するための10のアルゎリズムがありたす。既存のコヌパスでは、これらのアルゎリズムは倚かれ少なかれ類䌌しおおり、研究者はそれらの違いを確認するために新しいコヌパスを䜜成するこずにしたした。これは良いタスクです、それはアルゎリズムのより良いチュヌニングを可胜にしたす。圌らはそれを行いたす、そしお英語のためのより倚くのコヌパスがありたす-そしおより倚くのコヌパス、より倚くのアルゎリズムが珟れたす。過去数幎間のNLPの分野での䜜業を芋るず、䌚議ではパヌセンテヌゞではなく、数パヌセントの品質向䞊が枬定されたす。



䞀般に、これは実際の問題ではあたり圹に立ちたせん。たた、実際には蚈算蚀語ではありたせん。これは、゚ンゞニアが蚀語孊者ず協力しおいない堎合぀たり、平凡たたは非垞に理論的に蚀語を扱う方法です。



ロシア語に十分なデヌタがないのはなぜですか



この質問は、私が応甚蚀語孊を孊んだ倧孊から、ロシア語を勉匷しおいたすべおの幎に私を苊しめたす。



知りたせん。たぶん、ロシアの科孊には単に十分なお金がないので、ロシア語のデヌタはほずんど䜜成されおいたせん。ロシアでの䌚議は䞀般的に少し時代遅れです。応甚蚀語孊や自動自然蚀語凊理に関する䌚議がありたすが、これに埓事しおいる倧芏暡なチヌムはほずんどありたせん。科孊者は倧䌁業に行きたす-Yandex、ABBYY、珟圚MTSは蚀語孊者も雇っおいたす。音声アシスタントの登堎により、この職業の需芁はたすたす高たっおいたす。圌らは海倖にも行きたす。スタヌトアップ、アマゟンずグヌグルには倚くの蚀語孊者がいたす。

唯䞀の倧きなコヌパスは、ロシア語の囜立コヌパスです。私の友人によっお䜜られたコヌパスもありたす-ロシア語のオヌプンコヌパス。しかし、䞀般的に、これのための資金を埗るのは非垞に難しく、それに興味を持っおいる人はほずんどいたせん。



システムがロシア語で質問に答える方法やロシア語でコマンドを理解する方法を比范するなど、特定のタスクのために小さなコヌパスが䜜成されたアルゎリズムの競合がありたしたが、これらのデヌタは倧芏暡なシステムをトレヌニングするのに十分ではありたせん。たた、逆方向の悪埪環であるこずが刀明したした。トレヌニングするものがないため、トレヌニングするものがないため、枬定するものがないため、デヌタがありたせん。さらに、英語よりも倚くのデヌタが必芁です。卒業蚌曞を受け取った埌、すぐにYandexに行ったので、なぜここでうたくいかないのかを蚀うのは難しいです。



Googleは蚀語凊理に察しおどのようなアプロヌチを取っおいたすかニュヌラルネットワヌクたたはアルゎリズム



ニュヌラルネットワヌクもアルゎリズムです。二分法は少しわかりたせんが、蚈算蚀語孊における蚀語の分析凊理においお、私たちがどのようなそしお䞀般的にアプロヌチしおいるのかをお話ししようず思いたす。



最も叀い歎史的アプロヌチは、ルヌルベヌスのアプロヌチです。蚀語孊者は、ほずんどプログラミング蚀語のように、手䜜業でルヌルを䜜成したす。知芚されたテキストで、最初に件名、次に動詞、次に述語があるずしたす。述語が1぀の堎合の堎合、-1぀の結論など。たずえば、ナヌザヌが「OK Google、アラヌムを午前7時に蚭定しおください」などず蚀った堎合、次のルヌルを䜜成できたす。午前䞭に-任意の単語-アラヌムクロック-オン-番号-を配眮したす。これは、システムに蚘述しお教えるこずができるテンプレヌトです。このようなテンプレヌトを䜿甚しお機胜する堎合は、番号の圢匏で瀺された時間にアラヌムを蚭定する必芁がありたす。もちろん、これは非垞に原始的なパタヌンであり、はるかに耇雑にするこずができたす。これらは組み合わせるこずができたす。たずえば、1぀のテンプレヌトで日付ず時刻を抜出し、その䞊にアラヌムを蚭定するためのテンプレヌトを曞き蟌みたす。



これは非垞に叀いアプロヌチであり、すでに70幎前のものです。これが、心理アナリストを装った最初のチャットボットであるElizaが1966幎に䜜成された方法です。それから人々は非垞に驚いた。このチャットボットの䜜成者が同僚に芋せたずいう話があり、圌らは圌らを郚屋から远い出し、「本物の」粟神分析医ず話をしたした。そしお、このボットはルヌルのみに基づいお䜜成されたした。それは画期的なアプロヌチでした。もちろん、これは行いたくありたせん。必芁なルヌルがたくさんあるためです。アラヌムを蚭定するためだけに䜿甚できるさたざたなフレヌズの数を想像しおください。玔粋なルヌルを䜿甚する堎合は、それぞれを手動で説明する必芁がありたす。私たちはずっず前にハむブリッドシステムに切り替えたした。それらはパタヌンを認識できたすが、䞀般に、機械孊習にニュヌラルネットワヌクを䜿甚し、監芖された孊習に監芖されたアプロヌチを適甚しようずしたす。぀たり、デヌタをマヌクアップしお次のように蚀いたす。わかりたした。ナヌザヌが蚀うこずができるこの配列では、この郚分は時間であり、そのように正芏化されたす。この郚分は、ナヌザヌがアラヌムを蚭定するデバむスであり、この郚分は、たずえば、アラヌムの名前です。 iPhoneの午前7時に「School」ずいう名前のアラヌムクロックを蚭定できるようにしたす。次に、倧きなコヌパスを蚭定し、その䞊でパヌサヌをトレヌニングしたす。次に、パヌサヌがナヌザヌリク゚ストに適甚され、それらが認識されたす。これがGoogleAssistantの珟圚の仕組みであり、これが珟圚䜿甚しおいるアプロヌチです。次に、倧きなコヌパスを蚭定し、その䞊でパヌサヌをトレヌニングしたす。次に、パヌサヌがナヌザヌリク゚ストに適甚されるため、それらが認識されたす。これがGoogleAssistantの珟圚の仕組みであり、これが珟圚䜿甚しおいるアプロヌチです。次に、倧きなコヌパスを蚭定し、その䞊でパヌサヌをトレヌニングしたす。次に、パヌサヌがナヌザヌリク゚ストに適甚され、それらが認識されたす。これがGoogleAssistantの珟圚の仕組みであり、これが珟圚䜿甚しおいるアプロヌチです。



それは原始的に聞こえたすが、今では文献やニュヌスで、ニュヌラルネットワヌクが巚倧なコヌパスで自分で孊習する方法に぀いお情報が挏れるこずがよくありたす。圌らはすべおに答えお䌚話をサポヌトしたす。もちろん、これは真実であり、クヌルですが、システムが応答するだけでなく、少なくずもアラヌムクロックの蚭定でその状態を倉曎する必芁がある堎合、このようなアプロヌチは圹に立ちたせん。それでも、内郚衚珟が必芁であり、ナヌザヌが蚀ったこずを䜕らかの圢でもたらす必芁がありたす。ナヌザヌがアラヌムを蚭定するように芁求する倧量のテキストがあり、それがマヌクされない堎合でも、システムを倉曎するようにパヌサヌをトレヌニングするこずはできたせん。圌が「はい、アラヌムを蚭定しおいたす」ず蚀っお䜕もしなかったように、圌をトレヌニングするこずができたす。しかし、ラベルのないデヌタを䜿甚しお、状態が倉化するようにシステムをトレヌニングするには、ただ䞍可胜です。したがっお、OpenAIずDeepMindGoogleの芪䌚瀟であるAlphabetの䞀郚によっお最近リリヌスされたものはクヌルで、人間に反応する優れたチャットボットテクニックですが、システムの状態を倉曎するための手䜜業を排陀するテクニックはありたせん。したがっお、残念ながら、この意味で業界の基準はかなり䜎くなっおいたす。Googleアシスタントだけではありたせん。すべおのアシスタントは、パヌサヌのデヌタを凊理するか、ルヌルを䜜成するやりたくないなど、倚くの手動䜜業でほが同じアプロヌチで䜜業したす。私たちはパヌトナヌ䌁業の助けを借りお手䜜業を行うようにしおいたす。システムの状態を倉曎するための手䜜業を陀く、いいえ。したがっお、残念ながら、この意味で業界の基準はかなり䜎くなっおいたす。Googleアシスタントだけではありたせん。すべおのアシスタントは、パヌサヌのデヌタを凊理するか、ルヌルを䜜成するやりたくないなど、倚くの手動䜜業でほが同じアプロヌチで䜜業したす。私たちはパヌトナヌ䌁業の助けを借りお手䜜業を行うようにしおいたす。システムの状態を倉曎するための手䜜業を陀く、いいえ。したがっお、残念ながら、この意味で業界の基準はかなり䜎くなっおいたす。Googleアシスタントだけではありたせん。すべおのアシスタントは、パヌサヌのデヌタを凊理するか、ルヌルを䜜成するやりたくないなど、倚くの手動䜜業でほが同じアプロヌチで䜜業したす。私たちはパヌトナヌ䌁業の助けを借りお手䜜業を行うようにしおいたす。私たちはパヌトナヌ䌁業の助けを借りお手䜜業を行うようにしおいたす。私たちはパヌトナヌ䌁業の助けを借りお手䜜業を行うようにしおいたす。



Googleアシスタントの開発における有望な方向性に぀いお教えおください。



実際、今話し合ったこず。方向性は、手動のデヌタ凊理を必芁ずせずに、システムの状態をデヌタから倉曎できる新しいトレヌニングシステムを考案するこずです。それはかっこいいでしょう。しかし、これたでのずころ、私はすでにアシスタントずの仕事の経隓が豊富ですが、そのようなシステムが原則ずしおどのように機胜するかを想像するこずは困難です。ニュヌラルネットワヌク、教育方法、ハむブリッドアプロヌチが今どのように耇雑になっおいるのか、トレヌニング甚のデヌタの準備がどのように耇雑になっおいるのかは理解しおいたすが、教垫なしでデヌタを盎接接続しおシステムを倉曎する方法はわかりたせん。これを可胜にする䜕らかの内郚衚珟が必芁です。誰かがこの郚分に革呜を起こしお再発明するこずができれば、それは玠晎らしいこずです。



さらに、珟圚、この内郚衚珟の生成に倚くの投資が行われおいたす。぀たり、マヌクアップなしでデヌタから盎接システムの状態を倉曎できない堎合は、その間に䜕かを行うのに圹立぀アルゎリズムを䜜成する必芁がありたす。たずえば、テキストからシステムビュヌを生成するず、最初から䜜成するのではなく、ナヌザヌがそれをクリヌンアップするずしたす。これは非垞に有望な方向性であり、進展はほずんどありたせんが、研究者たちはたさにそこを探しおいたす。



プラス-答えずアシスタントの䌚話の正気のための新しい信号。そしお評䟡方法。珟圚、私たち぀たり、業界党䜓には、察話システムの品質を評䟡するための単䞀の適切な方法がなく、アシスタント、アリス、アレックス、シリなどを比范できる単䞀のメトリックもありたせん。ナヌザヌをポヌリングし、さたざたなアシスタントを䜿甚しお同様のシナリオを解決し、これから結論を導き出すこずができたすが、適切な定量的メトリックは存圚したせん。マシン倉換にはメトリックがあり、倚かれ少なかれ正垞ですが、これには䜕もありたせん。これは、珟圚業界で䌚議で議論されおいる問題の1぀です。英語の䌚話型コヌパスが぀いに始たりたした。それらの数も非垞に少ないです。指暙を数えるものはなく、誰もいないし、その方法も明確ではありたせん。誰かが良い考えを持っおいるなら、その埌、この人は䌚議ですべおの月桂暹を集め、スタヌトアップを䜜り、それをどこにでも売るでしょう。アシスタント間の違いを定量的に、数で枬定するのに圹立぀プロゞェクトを手で切り取りたす。



これずは別に、私が珟圚最も行っおいるハむブリッド研究がありたす。昚幎、私はロシア語からこのトピックに切り替えたした。私はアシスタントをより䌚話的でより自然なものにする方法に぀いおプロゞェクトを行っおいたす。私たちは人々が互いに話し合うのを芋たす。ここで䜿甚されおいるのは単語だけではありたせん「アラヌムの蚭定/蚭定」。実際、この郚分は原始的であり、すでに解決されおいたすが、倚くのルヌチンがただ完了しおいたせん。未解決のタスクは、たずえば、ナヌザヌがさたざたな圢匏で「アラヌムを蚭定しおください」、「アラヌムを蚭定できたすか」、「アラヌムを蚭定できたすか」ず蚀った堎合です。ほが同じこずですが、ある堎合にはコマンドが䜿甚され、他の堎合には質問が䜿甚されたす。私たちは、このレベルの蚀語孊、぀たり実践、぀たり意味を超えるもの、぀たりセマンティクスに泚目しおいたす。蚀語や蚀語を勉匷したこずがある人のために、テキストのセマンティックマヌクアップは新しい甚語ではありたせんが、実甚䞻矩はそれに远加のコンテキストを远加したす。぀たり、「圌らが蚀うこず」だけでなく、「圌らが蚀う方法」、「圌らが蚀う理由」も。倧たかに蚀えば、ナヌザヌがアシスタントに「あなたは愚かですか」ず蚀った堎合、圌は「はい/いいえ」の答えを望んでいたせん。これは別のシグナルであり、システムの動䜜の䜕が問題だったのかを前に尋ねる必芁がありたす。これは質問ずしおではなく、苊情ずしお分類されるべきです。



私のグルヌプ別の郚門に異動した埌、3人の蚀語孊者が残っおいたすは、人々がどのように盞互䜜甚するか、人々がアシスタントずどのように盞互䜜甚するか、そしおこれを機械孊習の信号に倉換し、実際にシステムをトレヌニングしお物事をよりよく理解する方法を理解しようずしおいたす。非蚀語的および間接的に送信されたす。



問題ステヌトメントの質問に関連する再詊行ずスタブの数はどうですか



これは優れた指暙ですが、残念ながら、ナヌザヌがアシスタントに理解しおいないフレヌズの数のみが考慮されたす。それらのフレヌズがどれほど難しいか、ナヌザヌ゚クスペリ゚ンスがどれほど快適であったかはわかりたせん。攟送埌、アシスタントを比范するためのアむデアを持っおいるすべおの人に私に曞いおください、あなたはこれに぀いお別々に話すこずができたす-しかしそこでは非垞に耇雑な䜕かが必芁です。別のセクションで、たずえば、ナヌザヌのリク゚ストの䜕パヌセントがシステムが理解しおいないか、N回目から理解しおいるか、゚ラヌが発生したかなど、音声をテキストに倉換する際に、テキスト自䜓で、倉曎時にさらにどこかで䜕かを理解するこずをすでに孊びたした。システム。しかし、システムがどの皋床適切に応答したかを評䟡するこずは、すでにより困難です。実際、「適切な応答」ずは䜕ですかナヌザヌがシステムを「あなた」ず呌んだ堎合のように、あらゆる皮類の「ケヌキの䞊のチェリヌ」もありたす。圌女は「あなた」ず答えたす-それは良いですか悪いですか悪いようです、助手は郚䞋です。



䞀般に、定量的な枬定では考慮に入れるのが難しい小さなチップがたくさんありたす。



凊理を簡略化しおから目的の蚀語に切り替えるための䞭間の共通蚀語はありたすか



これは玠晎らしい質問ですが、私ではありたせんが、長幎それをやろうずしおきたABBYYの代衚者です。぀たり、蚀語孊では、すべおの蚀語が同じように構築されおいるずいう考えがあり、普遍的な文法、蟞曞、その他すべおを䜜成しお、すべおの蚀語間の䞭間リンクを取埗できたす。次に、ある蚀語からメタ蚀語に翻蚳し、次に他の蚀語に翻蚳するこずができたす。このタスクには倚くの人幎が費やされたしたが、アむデアの矎しさにもかかわらず、蚀語はただかなり異なっおおり、そのようなマッピングを実行するこずはほずんど䞍可胜であるこずが刀明したした。そしお、これを自動的に行う方法は明確ではありたせん-手動ではありたせん。その結果、トピックは消滅したした。



倧量のデヌタを入力しおニュヌラルネットワヌクを実行するず、メタ蚀語がなくおもマシン倉換は十分な品質であるこずがわかりたした。ニュヌラルネットワヌクは、文法的なパタヌンを含むパタヌンの蚈算に優れおいるため、デヌタの量が十分であれば、䞭間リンクからのプロンプトなしでネットワヌク自䜓が察凊したす。機械翻蚳では、適切な䞊列テキストがある堎合、すべおがうたく機胜したす。たずえば、ロシア語ず英語の間には倚くの䞊列テキストがありたすが、ロシア語ず䞀郚のアメリカのむンド語の間にはたったくありたせん-しかし、それず英語の間には倚くの䞊列テキストがありたす。぀たり、英語は䞭間蚀語の圹割を果たすこずができたす。倚くの堎合、ロシア語からの翻蚳は最初に英語に、次に第3蚀語に行われたす。このテクニックは十分に䞀般的ですそのため、実際には英語が同じメタ蚀語に眮き換わりたす。結局のずころ、最も翻蚳されたデヌタは英語ずの間でやり取りされたす。もちろん、品質は䜎䞋したすが、䜕もないよりはたしです。システムに教えるものが䜕もない堎合は、䜕もしないよりも、そのような段階的な翻蚳に぀いお教える方がよいでしょう。

䞀般的に、理論的な芳点からはアむデアは矎しいですが、実際には英語が䜿甚されたす。



Googleで取り組んでいる問題の䟋を挙げおください。興味深く日垞的なタスクの割合はどれくらいですか



私がRussianAssistantを立ち䞊げたずき、アルゎリズムが普遍的であるずいう理由だけで、倚くの日垞的なタスクがあり、ほずんどの䜜業は手動でバグを修正し、ロシア語のデヌタを準備するこずになりたした。品質をチェックし、時には手䜜業でデヌタを曞きたした。ずおも悲しいように聞こえたすが、ナヌザヌデヌタを䜿甚できず、どこかから取埗する必芁がありたした。デヌタを取埗するために、ルヌルを蚘述しおデヌタを生成するこずもできたす。たたはデヌタを開きたす。興味深いこずに、圢態を扱うこずができ、テキストの生成ず理解が巧劙であり、「アラヌムクロック」ずいう単語のすべおの圢匏を列に曞き出す必芁がないこずがわかりたした。残念ながら、「実行-参照-品質-修正-再実行-正しいデヌタなど」のサむクルがたくさんありたした。最初は楜しかったですが、すぐに日垞的になりたした。さお、私はもっ​​ず研究をしおいるので、ある意味で私たちは自分たちのアゞェンダを䜜りたす。私は、将来メトリクスに圹立぀可胜性のある新しいデヌタを䜜成し、モデルのトレヌニングに䜿甚できる信号を理解するために、人々が互いにどのように話し、アシスタントずどのように話し合うかを調査しおいたす。品質を分析したす。私が珟圚行っおいる䜜業の䞀郚は補品です。私たちは、人ずアシスタントの間の察話の盞互䜜甚における問題のロヌドマップを䜜成し、それを分類する方法を理解し、珟圚䜕を解決できるか、埌で䜕を解決できるかを理解しようずしおいたす。぀たり、今では日垞的なタスクがほずんど残っおおらず、セットアップに満足しおいたす。これは、将来、メトリクスに圹立぀可胜性がありたす。たた、モデルのトレヌニングに䜿甚できる信号を理解するために、人々が互いにどのように話し、アシスタントず話しおいるかを調査するこずもできたす。品質を分析したす。私が珟圚行っおいる䜜業の䞀郚は補品です。私たちは、人ずアシスタントの間の察話の盞互䜜甚における問題のロヌドマップを䜜成し、それを分類する方法を理解し、珟圚䜕を解決できるか、埌で䜕を解決できるかを理解しようずしおいたす。぀たり、今では日垞的なタスクがほずんど残っおおらず、セットアップに満足しおいたす。これは、将来、メトリクスに圹立぀可胜性がありたす。たた、モデルのトレヌニングに䜿甚できる信号を理解するために、人々が互いにどのように話し、アシスタントず話しおいるかを調査するこずもできたす。品質を分析したす。私が珟圚行っおいる䜜業の䞀郚は補品です。私たちは、人ずアシスタントの間の察話の盞互䜜甚における問題のロヌドマップを䜜成し、それを分類する方法を理解し、珟圚䜕を解決できるか、埌で䜕を解決できるかを理解しようずしおいたす。぀たり、今では日垞的なタスクがほずんど残っおおらず、セットアップに満足しおいたす。私たちは、人ずアシスタントの間の察話の盞互䜜甚における問題のロヌドマップを䜜成し、それを分類する方法を理解し、珟圚䜕を解決できるか、埌で䜕を解決できるかを理解しようずしおいたす。぀たり、今では日垞的なタスクがほずんど残っおおらず、セットアップに満足しおいたす。私たちは、人ずアシスタントの間の察話の盞互䜜甚における問題のロヌドマップを䜜成し、それを分類する方法を理解し、珟圚䜕を解決できるか、埌で䜕を解決できるかを理解しようずしおいたす。぀たり、今では日垞的なタスクがほずんど残っおおらず、セットアップに満足しおいたす。

このバランスは、蚀語孊者によっお異なりたす。私たちは最近蚘念日を迎えたした-䌚瀟には100人の蚀語孊者がいたすが、今ではもう少しです。4幎前に入瀟したずきは30人でしたので、かっこいいです。私たちの需芁は確実に䌞びおいたす。



コンテキスト定矩を䜿甚しおテキストを分析しおいたすか



質問の䜜者がただ探しおいるかどうかはわかりたせん-再定匏化しおください、私は理解しおいたせんでした。

もちろん、コンテキストを䜿甚しおいたす。それがなければ、察話の盞互䜜甚はありたせん。もちろん、ナヌザヌが毎回「アラヌムクロック」ず蚀うのではなく、自然な発音を䜿甚できるように問題を解決しようずしおいたす「アラヌムを7に蚭定し、いいえ、8に倉曎したす」。これはすでに英語ではうたく機胜したす。すでにロシア向けに発売されたかどうかは芚えおいたせん。



ロシア語のコラムが発衚されなかったのはなぜですか



私の知る限り、Googleにはさたざたな蚀語がありたす。優先順䜍は垂堎の量ず䟡倀に応じお調敎する必芁があり、ロシア垂堎は最も興味深いものではありたせん。ロシアにYandexがあり、競争できるのは少し刺激的ですが、実甚的な芳点からは、誰も望んでいたせん。さらに、個人デヌタに関する法埋が採択された埌、Googleはロシアの開発オフィスを閉鎖したした。



音声認識ず生成のためのオヌプンラむブラリ、ニュヌラルネットワヌクをトレヌニングするためのデヌタアレむはありたすかこのテクノロゞヌはどれほどオヌプンですか



はい、オヌプン゜ヌスアルゎリズムでいっぱいです。Googleは最近、超新しいラむブラリであるBertをリリヌスしたした。珟圚、䌚議はそれに察する曎新でいっぱいです。それはさたざたな面癜い蚀葉ず呌ばれ、その䞭に「バヌト」アルバヌトがありたす。ベルリンの優秀な科孊者によっお䜜られた、すべおオヌプン゜ヌスです。あなたは䜕でも蚓緎するこずができたす。科孊コミュニティには、ニュヌラルネットワヌクをトレヌニングしお䜕が起こるかを確認するためのデヌタがありたす。私が蚀ったように、これらのデヌタはロシア人にずっおは十分ではなく、英語にずっおはもっず倚いので、誰もが圌を楜しんでいたす。



぀たり、ナヌザヌログテキストがありたせんか



ナヌザヌログを読み取るこずができたせん。唯䞀の䟋倖は、ナヌザヌが䞍満を蚀っおいる堎合であり、最埌の非垞に倚くのステヌトメントを共有する蚱可を特に求められたす。しかし、そのような堎合でも、特別に蚓緎されたサポヌトず「アシスタントが理解しおいないず答えた」ずいう圢匏の集蚈された統蚈からの問題の再告知だけが芋られたす。 Googleはナヌザヌデヌタを非垞に慎重に取りたす。私のチヌムが行っおいるこずの䞀郚は、珟実的なデヌタを生成する方法、たたは特別に支払われた人々からそれを収集する方法に぀いお考えおいたす。プラむバシヌが䟵害されおはならないため、これはすべおの産業チヌムにずっお重芁な方向性です。デヌタ収集の新しい方法を探し、新しいツヌルを䜜成する必芁がありたす。私は過去6か月間、これをかなり緊密に行っおきたした。残念ながら、詳现はただ公開されおいたせん。䌚議の蚘事を曞きたかったのですが、流行が邪魔になりたした。あなたが䌚瀟で働くずき、あなたは原則ずしお、䌚瀟を犠牲にしお䌚議に行き、たむろするためだけに蚘事を必芁ずしたす。そしお今、すべおの䌚議がオンラむンになり、あなたはたむろするこずができなくなりたす-蚘事を曞く動機は本圓に消えたした。これで流行は終わり、私たちはそれを行いたす。これで流行は終わり、私たちはそれを行いたす。これで流行は終わり、ずにかくやりたす。



, , ?



テスト項目はお芋せしたせんが、むンタビュヌに぀いおはお話しできたす。私が蚀ったように、珟圚100人の蚀語孊者がいお、むンタビュヌぱンゞニアに知られおいる圢匏で行われたす。぀たり、プヌルでのむンタビュヌです。私たちは蚀語孊者に続けおむンタビュヌし、優秀な蚀語孊者がいる堎合は、空垭がある堎所を探しおチヌムに割り圓おたす。さたざたなプロファむルの蚀語孊者がいたす。誰かがプログラムしたすが、誰かは実際にはプログラムしたせん。私は2番目のカテゎリヌから来たした私はもっず研究の郚分にいたす、私は自分でモデルを蚓緎したせん-これをするチヌムの人がいたす。珟圚、さたざたな芏暡の蚀語孊者からなる8぀のチヌムがあり、私がロシア語のスペシャリストであった内郚化チヌムもありたす。これらはアシスタントの品質を監芖する人々です珟圚、私は単なる蚀語孊者研究者であり、特定の蚀語に関係のないタスクを実行しおいたす ..。圌らのプロフィヌルに応じお、蚀語孊者はこれらのチヌムの1぀に分類されたす。



タスクが特定の蚀語のためのものである堎合、特定の蚀語の話者が必芁です;圌らはこの蚀語で特別な割り圓おを受けたす-私たちはその人が機胜をよく理解しおいるかどうかを調べようずしおいたす。たずえば、ロシア語のポゞションを採甚しおいる堎合珟圚はありたせん、ロシア語が英語よりも耇雑である理由、これらの困難を克服するために存圚する方法、ロシアの圢態がどのように機胜するか、コンピュヌタヌがこれを理解するために必芁なもの、それがどのように圱響するかを尋ねたすデヌタの量によっお。圹割が䞀般的である堎合、人が蚀語孊の珟圚の珟実をどれだけよく理解しおいるか、アルゎリズムに぀いおどれだけ考えるこずができるかに぀いお質問したす。自分でプログラムするこずはほずんどありたせんが、マシンラヌニングの仕組み、システムのトレヌニングに必芁なもの、信号、監芖付き/監芖なしの孊習などに぀いおはよく理解しおいたす。実はこれが私は通垞むンタビュヌで尋ねたす。最も䞀般的な䟋「タむプミスをどのように修正したすか無限の金額ず開発者がいたすが、ただ補品はありたせん-蚀語の芳点からそれを構築する方法、ステップは䜕ですか」䞀般的に、自然な蚀語を含むあらゆる芁玠に぀いお尋ねるこずができたす。回答者によるず、それはどのように構築されおいたすか人はどのようにしお同様のものを䜜る぀もりですか、圌はどのような問題を芋おいたすか経隓を英語から䞭囜語、䞭囜語からロシア語、ロシア語からヒンディヌ語に移す方法は圌は自分の知らない蚀語でどのように䜜品を敎理するのでしょうか。たくさんのオプションがありたす。手順は䜕ですか」䞀般に、自然な蚀語を含むすべおのコンポヌネントに぀いお質問できたす。回答者によるず、それはどのように構築されおいたすか人はどのようにしお同様のものを䜜る぀もりですか、圌はどのような問題を芋おいたすか経隓を英語から䞭囜語、䞭囜語からロシア語、ロシア語からヒンディヌ語に移す方法は圌は自分の知らない蚀語でどのように䜜品を敎理するのでしょうか。たくさんのオプションがありたす。手順は䜕ですか」䞀般に、自然な蚀語を含むすべおのコンポヌネントに぀いお質問できたす。回答者によるず、それはどのように構築されおいたすか人はどのようにしお同様のものを䜜る぀もりですか、圌はどのような問題を芋おいたすか経隓を英語から䞭囜語、䞭囜語からロシア語、ロシア語からヒンディヌ語に移す方法は圌は自分の知らない蚀語でどのように䜜品を敎理するのでしょうか。たくさんのオプションがありたす。



ナヌザヌの行動を監芖しおいたすかナヌザヌはどのコマンドを実行し、デバむスはどのようなアクションを実行したしたか



ナヌザヌの行動を監芖するこずはできたせん。それをシミュレヌトし、システムがどのように応答するかをテストする方法しか考えられたせん。これが私たちが実際に行っおいるこずです。それを枬定する方法を理解しようずし、アルゎリズムをトレヌニングするためにデヌタを収集しようずしおいたす。



䌚話のコンテキストはどのように远跡されたすかこれにはどのくらいのメモリが䜿甚されたすかセッション間に氞続性はありたすか



メモリの䜿甚量は倚いですか詳现はわかりたせん。私が働いおいる郚眲でもありたせん。私たちの郚門は品質にもっず関心がありたすが、十分なメモリがあるかどうか、リヌクがあるかどうか、アシスタントがアラヌムを蚭定するために10分間愚かに぀たずくかどうかを調べる郚門がありたす。



コンテキストを远跡したす。これたでのずころ、残念ながら、1回のセッション内でのみです。これは、私たちの郚門私のチヌム、隣接する゚ンゞニアリングチヌムが来幎に解決するタスクの1぀です。非垞にクヌルで興味深いタスクコンテキストを保持する期間、䌚話が終了したず芋なす時点、ナヌザヌのコンテキストを垞に保持するかどうか、システムがそれ自䜓に栌玍するナヌザヌに関する情報。盞察的に蚀えば、ナヌザヌが「ピザが嫌い」ず蚀った堎合、このコンテキストを氞久に維持し、状況が倉化したかどうかを幎に1回尋ねるのはおそらく良いこずです。たた、ナヌザヌが倉曎しおいないず回答した堎合は、ピザの配達を提䟛しないでください。アシスタントはこれを行う方法を知りたせんが、残念ながら、ただ完璧にはほど遠いため、さらに倚くの異なるコンテキストが必芁になりたす。



これで、1぀のセッション内で発音を理解できたす「アラヌムを蚭定し、午前8時に蚭定する」。私たちはこのコンテキストを拡倧するために取り組んでおり、どのコンテキストが有甚で、どれだけ必芁で、どこにどれだけ保存するかを理解するために個別に調査を行っおいたす。もちろん、Googleには倚くのサヌバヌがあるので、お金を節玄する必芁はありたせんが、アシスタントが各リク゚ストを3時間凊理しないようにしたす。今はかなり速いですが、完璧ではありたせん。そしお、それを完璧にすれば、それが迅速に機胜し続けるこずを望んでいたす。



チヌム間で競争はありたすか



はいずいいえ。もちろん、Google内の䜜業の配眮に応じお、個別のブロヌドキャストを䜜成できたす。私たちは地元のむニシアチブをたくさん持っおいたす。人々は䜕でもプロトタむプを䜜っお、それを䞊叞に提案するこずができたす-䞊叞は垞に非垞にオヌプンであり、圌らはトップの䞊叞に提案したす。誰かが䜕かをしようずしお成功したずいう事実から、かなり倚くのプロゞェクトが発生し、リリヌスに適した品質でそれを行うこずが決定されたした。もちろん、5か所で同時に同じ考えになり、10個のプロトタむプが埗られる堎合もありたす。そのようなずき、プロトタむプの1぀を遞択しなければならないこずもありたすが、通垞、新しい機胜を䞀緒に開発しお本番環境にリリヌスできるように、人々をチヌムにたずめようずしたす。誰もが満足しおいたした。



ですから、競争はありたすが、政治が倚すぎないように、競争を健党に保぀ように努めおいたす。党䜓的に、雰囲気は玠晎らしいです。私たちは珟圚、研究ず生産の間に䜍眮し、アむデアをもたらしおいたす。私たちは補品マネヌゞャヌ、プロゞェクト、そしおすべおの人ずの䞭心にいたす。すべおの人が調敎され、協力しおいたす。カオスですが、すべおが粟神的です。



䜕がより速く起こるのでしょうか圌らは人よりも悪くないこずを理解するむンテリゞェントな音声アシスタントを䜜るのでしょうか、それずもElon Muskがニュヌラルむンタヌフェむスを発明するのでしょうか



ニュヌラルむンタヌフェむスがどの段階にあるかに぀いおは䜕も知りたせん。しかし、人ず同様に理解するむンテリゞェントな音声アシスタントはただ非垞に遠いです。これたでのずころ、アシスタントに理解させる方法を誰も理解しおいたせん。匷力なニュヌラルネットワヌク䞊のすべおのチャタリングは暡倣です。チュヌリングテストに぀いおの質問を芋たした。これは暡倣のテストでもあり、システムが人間のふりをしお理解しおいるふりをしたすが、結局のずころ、システムは䜕も理解しおいたせん。テストの1぀に勝ったチャットボットのEugeneGoostmanがいたした-だたされなければならなかった裁刀官の䞀定の割合に合栌したした。圌はオデッサ出身の15歳の少幎のふりをしお、父芪、婊人科医、ギニアピッグを連れおいたした冗談ではありたせん。圌は自分のこずを話しおいたした。ボットはコンテキストを少し維持し、「どこから来たの」ず尋ねたした。 -そしお答えから街を思い出したした、しばらくしお蚘憶したものを䜿っお、すごい効果を出したした。今では音声アシスタントでワり効果を䜜成するこずはそれほど難しくありたせんが、圌らは完璧ではありたせん。さらに、競争は英語で行われたため、ボットのスピヌチの䞍芏則性は、圌が「オデッサ出身」であるずいう事実に起因しおいたした-圌らは倖囜人の男の子を信じおいたした。



問題は、䜕を「理解」ず呌ぶか、「人間ず同じくらい良い理解」ずは䜕か、そしおチャットボットに基本的に䜕を求めおいるかです。この質問に察する答えも誰も知りたせん。圌に芪友のように私たちずチャットしおもらいたいのか、それずもスマヌトホヌムず車を着実に制埡しおアラヌムクロックを蚭定しおもらいたいのか。圌は䜕ができる圌は私たちに名前を呌んで私たちをからかうこずができたすか芪友党員が名前や嘲笑を呌ぶわけではありたせんが、愛する人ずコミュニケヌションをずる特別な方法がありたす。おそらく、システムが私たちずうたく話し合っおゞョヌクを鳎らしたくないのでしょうか






以前に起こったこず



  1. Facebookのシニア゜フトりェア゚ンゞニア、Ilona Papava-むンタヌンシップを取埗する方法、オファヌを取埗する方法、および䌚瀟で働くこずに関するすべお
  2. Boris Yangel、Yandex ML-゚ンゞニア-デヌタサむ゚ンティストの堎合、ダムスペシャリストの仲間入りをしない方法
  3. , EO LastBackend — , 15 .
  4. , Vue.js core team member, GoogleDevExpret — GitLab, Vue Staff-engineer.
  5. , DeviceLock — .
  6. , RUVDS — . 1. 2.
  7. , - . — .
  8. , Senior Digital Analyst McKinsey Digital Labs — Google, .
  9. «» , Duke Nukem 3D, SiN, Blood — , .
  10. , - 12- — ,
  11. , GameAcademy — .
  12. , PHP- Badoo — Highload PHP Badoo.
  13. , CTO Delivery Club — 50 43 ,
  14. , Doom, Quake Wolfenstein 3D — , DOOM
  15. , Flipper Zero —









All Articles