機械孊習に関する蚘事の遞択2020幎10月の事䟋、ガむド、および研究





10月には、䌝統的に、GPT-3が再び脚光を济びおいたす。OpenAIのモデルに関連するいく぀かのニュヌスがありたす-良いこずも悪いこずもありたす。



OpenAIずMicrosoftの取匕



あたり快適ではないものから始めなければなりたせん-MicrosoftがGPT-3の独占的暩利を匕き継ぎたした。この取匕は予想通り怒りを匕き起こしたした-OpenAIの創蚭者で珟圚は同瀟の取締圹䌚の元メンバヌであるElonMuskは、Microsoftが本質的にOpenAIを乗っ取ったず述べたした。



事実、OpenAIは元々、人工的なむンテリゞェンスを別の州や䌁業の手に枡さないようにするずいう高い䜿呜を持った非営利組織ずしお䜜成されたした。組織の創蚭者は、テクノロゞヌがすべおの人類の利益のために機胜するように、この分野での研究の開攟性を求めたした。



Microsoftは、その匁護においお、モデルAPIぞのアクセスを制限する぀もりはないず䞻匵しおいたす。したがっお、実際には䜕も倉曎されおいたせん。それ以前は、OpenAIもコヌドを公開しおいたせんでしたが、以前はパヌトナヌ䌁業でさえAPIを介しおのみGPT-3を䜿甚するこずが蚱可されおいた堎合、珟圚はMicrosoftが独占的に䜿甚する暩利を持っおいたす。



SberbankのruGPT3



さらに嬉しいこずに、Sberbankの研究者は、GPT-3アヌキテクチャを繰り返し、GPT-2コヌドに基づいおおり、最も重芁なこずずしお、ロシア語のコヌパスでトレヌニングされたモデルを公開したした。



ロシアの文献のコレクション、Wikipediaデヌタ、ニュヌスず質疑応答サむトのスナップショット、ポヌタルPikabu、22century.ru banki.ru、OmniaRussicaからの資料がトレヌニングのデヌタセットずしお䜿甚されたした。開発者は、コヌドの生成ずプログラミングの方法を教えるために、GitHubずStackOverflowからのデヌタも含めたした。クリヌンアップされたデヌタの合蚈量は600GBを超えおいたす。



ニュヌスは間違いなく良いですが、いく぀かの泚意点がありたす。このモデルはGPT-3に䌌おいたすが、違いたす。著者自身が認めおいる重量が1,750億のGPT-3の最倧バヌゞョンの230分の1であるため、ベンチマヌク結果を正確に繰り返すこずはできたせん。぀たり、このモデルがゞャヌナリズムのテキストず芋分けが぀かないテキストを曞くこずを期埅しないでください。



説明されおいるGPT-3アヌキテクチャが実際の実装ず異なる堎合があるこずも考慮する䟡倀がありたす。トレヌニングパラメヌタを読んだ埌でのみ確実に蚀うこずができたす。りェむトが公開される前に遅れお公開された堎合、最近のむベントに照らしお、それらを期埅するこずはできたせん。



事実、プロゞェクトの予算はトレヌニングパラメヌタの数に䟝存し、専門家によるず、GPT-3のトレヌニングには少なくずも1,000䞇ドルの費甚がかかりたす。したがっお、匷力なMLスペシャリストず匷力なコンピュヌティングリ゜ヌスを備えた倧䌁業のみがOpenAIの䜜業を再珟できたす。



AIレポヌト2020の状態



䞊蚘のすべおは、機械孊習の分野における珟状に関する第3回幎次報告曞の結論を裏付けおいたす。 AIスタヌトアップを専門ずする投資家であるNathanBenaichずIanHogarthは、テクノロゞヌ、人的資源、産業甚アプリケヌション、および法的な耇雑さをカバヌする詳现なプレれンテヌションを公開したした。



䞍思議なこずに、研究の85が゜ヌスコヌドなしで公開されおいたす。コヌドがプロゞェクトのむンフラストラクチャに組み蟌たれるこずが倚いずいう事実によっお商業組織が正圓化できるずしたら、研究機関やDeepMindやOpenAIなどの非営利䌁業はどうでしょうか。



たた、デヌタセットやモデルの増加は予算の増加に぀ながるず蚀われおおり、機械孊習の分野が停滞しおいるこずを考えるず、新しいブレヌクスルヌごずに䞍釣り合いに倧きな予算が必芁になりたすGPT-2ずGPT-3のサむズを比范しおください。倧䌁業のみ。



このドキュメントは簡朔か぀明確に蚘述されおおり、よく説明されおいるため、このドキュメントを読むこずをお勧めしたす。たた、前回のレポヌトからの2020幎の4぀の予枬はすでに実珟しおいたす。



これ以䞊誇匵するこずはありたせん。ただ良い話がありたす。そうでなければ、このコレクションは存圚したせん。



GoogleずFacebookから倚蚀語モデルを開く



mT5



Googleは、倚蚀語モデルのT5ファミリヌの゜ヌスコヌドずデヌタセットを公開しおいたす。OpenAIに関連する誇倧宣䌝のため、このニュヌスは、印象的な芏暡にもかかわらず、ほずんど気付かれたせんでした。最倧のモデルには130億のパラメヌタヌがありたす。



トレヌニングには101蚀語のデヌタセットが䜿甚され、そのうちロシア語が2䜍です。これは、私たちの偉倧で力匷い堎所がWeb䞊で2番目に人気のある堎所であるずいう事実によっお説明できたす。



M2M-100



Facebookもそれほど遅れをずっおおらず、倚蚀語モデルをレむアりトしたした。これは、圌らの声明によれば、䞭間蚀語なしで100x100の蚀語ペアを盎接翻蚳するこずを可胜にしたす。



機械翻蚳の分野では、個々の蚀語やタスクごずにモデルを䜜成しおトレヌニングするのが通䟋です。しかし、Facebookの堎合、゜ヌシャルネットワヌクのナヌザヌが160以䞊の蚀語でコンテンツを公開しおいるため、このアプロヌチは効果的に拡匵できたせん。



通垞、耇数の蚀語を䞀床に凊理する倚蚀語システムは英語に䟝存しおいたす。翻蚳は仲介され、䞍正確です。䞭囜語からフランス語ぞの翻蚳、たたはその逆の翻蚳を芋぀けるのは非垞に難しいため、デヌタが䞍十分なため、゜ヌス蚀語ずタヌゲット蚀語の間のギャップを埋めるこずは困難です。これを行うには、䜜成者は逆倉換によっお合成デヌタを生成する必芁がありたした。



この蚘事はベンチマヌクを提䟛し、モデルは英語に䟝存するアナログよりも翻蚳にうたく察凊し、デヌタセットぞのリンクも提䟛したす。







ビデオ䌚議の進歩



10月、Nvidiaからの興味深いニュヌスがすぐに珟れたした。



StyleGAN2



たず、StyleGAN2のアップデヌトを投皿したした。モデルの䜎リ゜ヌスアヌキテクチャにより、画像が3䞇未満のデヌタセットでパフォヌマンスが向䞊するようになりたした。新しいバヌゞョンでは、混合粟床のサポヌトが導入されおいたす。トレヌニングは玄1.6倍、掚論は玄1.3倍、GPU消費量は玄1.5倍枛少したした。たた、モデルハむパヌパラメヌタの自動遞択を远加したした。さたざたな解像床ずさたざたな数の利甚可胜なグラフィックプロセッサのデヌタセット甚の既補の゜リュヌションです。



NeMo



Neural Modulesは、䌚話型モデルをすばやく䜜成、トレヌニング、および調敎するのに圹立぀オヌプン゜ヌスのツヌルキットです。NeMoは、スコヌプごずにグルヌプ化されたモゞュヌルで構成される、すべおのモデルずコレクションに単䞀の「ルックアンドフィヌル」を提䟛するコアで構成されおいたす。



マキシン



別の発衚された補品は、䞊蚘の䞡方のテクノロゞヌを瀟内で䜿甚する可胜性がありたす。Maxineビデオ通話プラットフォヌムは、MLアルゎリズムの動物園党䜓を組み合わせたものです。これには、すでにおなじみの解像床の向䞊、ノむズの陀去、背景の陀去だけでなく、芖線ず圱の修正、䞻芁な顔の特城぀たり、ディヌプフェむクによる画像の埩元、サブタむトルの生成、リアルタむムでの他の蚀語ぞの音声の翻蚳が含たれたす。぀たり、以前は別々に遭遇したほずんどすべおのものが、Nvidiaが1぀のデゞタル補品に統合されたした。これで、早期アクセスを申請できたす。



Googleの新しい開発



怜疫のおかげで、今幎はビデオ䌚議の分野でリヌダヌシップを発揮するための真の競争がありたす。 Google Meetは、 Mediapipe目、頭、手の動きを远跡できるのフレヌムワヌクに基づいお、高品質の背景を陀去するためのアルゎリズムを䜜成するケヌススタディを共有したした。



Googleは、音声品質を向䞊させるiOS䞊のYouTubeストヌリヌサヌビスの新機胜も開始したした。これは興味深いケヌスです。オヌディオよりもビデオの方が䜕倍も倚くの゚ンハンサヌを利甚できるからです。このアルゎリズムは、音声ず、顔の衚情、唇の動きなどの芖芚的マヌカヌずの盞関関係を远跡および蚘録し、他のスピヌカヌからの音声を含む背景音から音声を分離するために䜿甚したす。



同瀟はたた、新しい詊みを提瀺したしたサむン蚀語認識の分野で。



ビデオ䌚議゜フトりェアに぀いお話すず、新しいディヌプフェむクアルゎリズムに぀いおも蚀及する䟡倀がありたす。



MakeItTalk



最近、オヌディオストリヌムのみに䟝存しお、写真をアニメヌション化するアルゎリズムのコヌドがオヌプンアクセスで公開されたした。通垞、ディヌプフェむクアルゎリズムはビデオを入力ずしお受け取るため、これは泚目に倀したす。







BeyondBelief



新䞖代のディヌプフェむクアルゎリズムは、顔だけでなく、髪の色、肌の色合い、䜓型など、党身を眮き換えるタスクを蚭定したす。この技術は䞻にオンラむンショッピングの分野で適甚されるため、個々のモデルを雇うこずなく、ブランド自䜓が提䟛する商品の写真を䜿甚できたす。より倚くのアプリケヌションがビデオデモで芋るこずができたす。これたでのずころ、玍埗がいかないように芋えたすが、すぐにすべおが倉わる可胜性がありたす。







Hi-Fi3Dフェむス



ニュヌラルネットワヌクは、写真から人の顔の高品質な3Dモデルを生成したす。モデルは、通垞のRGB-Dカメラからの短いビデオを入力ずしお受け入れ、出力で、生成された顔の3Dモデルを提䟛したす。プロゞェクトコヌドず3DMMモデルは公開されおいたす。







SkyAR



著者は、空をリアルタむムでビデオに眮き換えるオヌプン゜ヌステクノロゞヌを発衚したした。これにより、スタむルを制埡するこずもできたす。皲劻のような気象効果は、タヌゲットビデオで生成できたす。



パむプラむンモデルは、倚くのタスクを段階的に解決したす。グリッドは空をマットにし、移動するオブゞェクトを远跡し、スカむボックスのカラヌスキヌムに䞀臎するように画像をラップしお再描画したす。







シヌスルヌ



このツヌルは、氎䞭画像のトゥルヌカラヌを埩元するずいう䞊倖れたタスクを解決したす。぀たり、アルゎリズムは、照明を埩元し、画像から氎を陀去するために、オブゞェクトたでの深さず距離を考慮に入れたす。これたでのずころ、デヌタセットのみが利甚可胜です。



Covid-19を蚺断するためのMITモデル



結論ずしお、関連するトピックに関する興味深い事䟋を共有したす。MITの研究者は、匷制咳蚘録を䜿甚しお、コロナりむルス感染の無症候性患者ず健康な人を区別するモデルを開発したした。



モデルは、咳サンプルの䜕䞇ものオヌディオテヌプでトレヌニングされおいたす。MITによるず、アルゎリズムは98.5の粟床でCovid-19を持っおいるこずが確認された人々を識別したす。



政府圓局はすでにアプリケヌションの䜜成を承認しおいたす。ナヌザヌは自分の咳の音声録音をダりンロヌドし、その結果に基づいお、実隓宀で完党な分析を行う必芁があるかどうかを刀断できたす。



以䞊、ご枅聎ありがずうございたした



All Articles