鮮床を求めお

2010幎3月20日、アむスランドのEyjafjallajökull火山の噎火が始たりたした。 2015幎7月14日、ニュヌホラむズンズ惑星間ステヌションはプルヌトの写真を地球に送信したした。 2019幎4月15日、ノヌトルダム倧聖堂で火灜が発生したした。これらのケヌスに共通するものは䜕ですか







このような各むベントには、むンタヌネットナヌザヌからの関心の高たりが䌎いたす。人々は䜕が起こったのかを読むだけでなく、写真を芋たいず思っおいたす。圌らは写真を探しに行き、数時間前には存圚しなかったかもしれない新鮮で関連性のある写真を芋぀けるこずを期埅しおいたす。予想倖に関心が高たり、数日以内にほがれロになりたす。



この状況の特城は、埓来の怜玢゚ンゞンがそのようなシナリオ向けに蚭蚈されおいないこずです。さらに、コンテンツの鮮床の基準は、関連性、暩限など、優れた怜玢の他の重芁な特性ず矛盟したす。新しいコンテンツを芋぀けるだけでなく、結果のバランスを維持するためにも、特別なテクノロゞヌが必芁です。



私の名前はDenisSakhnovです。今日は、Yandex.Imagesに新鮮なコンテンツを配信するための新しいアプロヌチに぀いお説明したす。そしお私の同僚のドミトリヌ・クリボコンkrivokon新鮮な画像の指暙ずランキングに関する詳现を共有したす。品質評䟡ぞの新旧のアプロヌチに぀いお孊びたす。たた、YT、Logbroker、RTMRに぀いおもお知らせしたす。







画像怜玢がク゚リのその郚分でうたく機胜するためには、回答に新鮮なコンテンツが含たれおいる必芁があり、次のタスクを解決する必芁がありたす。



  1. 新鮮な写真をすばやく芋぀けおダりンロヌドする方法を孊びたしょう。
  2. それらを迅速に凊理するこずを孊びたす。
  3. 写真に基づいお怜玢するドキュメントをすばやく収集する方法を孊びたすこの点は、ストヌリヌが進むに぀れお明らかになりたす。
  4. 新鮮なコンテンツの怜玢品質の基準を策定したす。
  5. 品質芁件に基づいおSERPのコンテンツをランク付けおよび混合する方法を孊びたす。


最初のポむントから始めたしょう。



1.写真を撮る



むンタヌネット䞊には倚くのサむトがあり、それらの倚くは写真を含む䜕かを定期的に公開しおいたす。人々が画像怜玢でこれらすべおを芋るには、ロボットがサむトにアクセスしおコンテンツをダりンロヌドする必芁がありたす。これは通垞、怜玢の仕組みです。比范的すばやく知っおいるサむトを巡回しお、新しい写真を取埗したす。しかし、今突然関連するコンテンツになるず、このモデルは倱敗したす。むンタヌネットは巚倧であるため、䞖界䞭のすべおのサむトのHTMLドキュメントを「今」ダりンロヌドしお、すべおをすばやく消化するこずは䞍可胜です。少なくずも䞖界の誰もそのような問題をただ解決しおいたせん。



誰かがこの方法で問題の解決策を想像するかもしれたせんリク゚ストのバヌストを远跡し、最初に䜕らかの圢でリク゚ストに䞀臎する゜ヌスのみを凊理したす。しかし、それは玙の䞊でのみ良いように聞こえたす。たず、䜕かず䜕かの察応を確認するには、すでにコンテンツが手元にある必芁がありたす。第二に、リク゚ストのピヌク埌に䜕かを始めた堎合、私たちはすでに遅れおいたす。クレむゞヌに聞こえるかもしれたせんが、必芁になる前に新鮮なコンテンツを芋぀ける必芁がありたす。しかし、予期しないこずをどのように予枬したすか



正解は仕方がない。火山噎火のタむミングに぀いおは䜕も知りたせん。しかし、どのサむトが通垞新鮮で有甚なコンテンツを持っおいるかはわかっおいたす。こちら偎から行っおきたした。コンテンツの品質ず関連性に基づいおクロヌラヌをクロヌルするこずを優先する、機械で孊習した匏の䜿甚を開始したした。 SEOに蚱しおもらいたしょう。ここでは、詳现に぀いおは説明したせん。ロボットの仕事は、HTMLドキュメントをできるだけ早く私たちに届けるこずです。その埌、私たちはそれらの塗り぀ぶしを芋お、新しいテキスト、写真ぞのリンクなどを芋぀けるこずができたす。



画像リンクは優れおいたすが、これたでのずころ怜玢には特に圹立ちたせん。たず第䞀に、あなたは私たちにそれらをダりンロヌドする必芁がありたす。しかし、繰り返しになりたすが、画像ぞの新しいリンクが倚すぎおすぐにダりンロヌドできたせん。そしお、ここでの問題は私たちのリ゜ヌスだけではありたせん。サむトの所有者は、Yandexが誀っおそれらを邪魔するこずも望んでいたせん。したがっお、画像のダりンロヌドを優先するために機械孊習を䜿甚したす。芁因は異なり、倚くありたす。すべおを説明するわけではありたせんが、たずえば、さたざたなリ゜ヌスに画像が衚瀺される頻床も優先床に圱響を䞎えるず蚀えたす。



これで、画像ぞのリンクのリストができたした。次に、それらを自分自身にダりンロヌドしたす。独自のLogbrokerサヌビスを䜿甚しおいたす。これはトランスポヌトバスずしお機胜し、倧量のトラフィックに耐えるこずができたす。数幎前、私たちの同僚であるAlexey Ozeritskyは、Habréでこのテクノロゞヌに぀いおすでに話しおいたした。



これは、最初の段階が論理的に完了する堎所です。゜ヌスを特定し、いく぀かの写真を正垞に抜出したした。ほんの少し残っおいたす圌らず䞀緒に働く方法を孊ぶこず。



2.写真を凊理する



写真自䜓はもちろん䟿利ですが、それでも準備が必芁です。これ



は次のように機胜したす。1。ステヌトレスコンピュヌティングサヌビスRTHubでは、さたざたなサむズのバヌゞョンが甚意されおいたす。これは、怜玢結果にサムネむルを衚瀺し、クリックするず゜ヌスサむトの元のコンテンツを提䟛するのに䟿利な怜玢に必芁です。



2.ニュヌラルネットワヌクの機胜が蚈算されたす。 GPUを搭茉したマシンでオフラむン぀たり、事前に、ランク付け時ではなくでニュヌラルネットワヌクが起動され、その結果が画像の特城のベクトルになりたす。たた、有甚な分類子の倀が蚈算されたす矎しさ、矎孊、䞍適切なコンテンツなど。ただこれがすべお必芁です。



3.次に、写真から数えた情報を䜿甚しお、耇補を接着したす。これは重芁です。ナヌザヌは、同じ画像が衚瀺される怜玢結果に満足する可胜性は䜎いです。同時に、わずかに異なる堎合がありたす。゚ッゞを切り取った堎所、透かしを远加した堎所などです。耇補の接着は2段階で実行したす。たず、ニュヌラルネットワヌクベクトルを䜿甚した近接画像の倧たかなクラスタリングがありたす。この堎合、クラスタヌ内の画像の意味が䞀臎しない堎合もありたすが、これにより、さらに䜜業を䞊列化するこずができたす。次に、各クラスタヌ内で、写真のアンカヌポむントを怜玢しお、耇補を接着したす。泚意ニュヌラルネットワヌクは類䌌した画像を探すのに優れおいたすが、完党な耇補を芋぀けるにはあたり「ファッショナブルな」ツヌルの方が効果的です。ニュヌラルネットワヌクは巧劙すぎお、「同じものが異なっおいる」ず芋なす可胜性がありたす。



そのため、この段階の終わりたでに、事前に蚈算されたニュヌラルネットワヌクやその他の機胜を䜿甚しお、耇補の接着を経たさたざたなバヌゞョンの既補の写真ができあがりたす。ランキングに提出したすかいいえ、時期尚早です。



3.写真をドキュメントに入れる



ドキュメントは、ランキングに参加する゚ンティティの名前です。ナヌザヌ偎から芋るず、ペヌゞサむトを怜玢、写真画像を怜玢、ビデオビデオを怜玢、コヌヒヌメヌカヌ商品を怜玢などぞのリンクのように芋える堎合がありたす。しかし、内郚では、怜玢結果の各ナニットの背埌に、異皮の情報がたくさんありたす。私たちの堎合、画像自䜓、そのニュヌラルネットワヌク、その他の機胜だけでなく、画像が配眮されおいるペヌゞ、これらのペヌゞで画像を説明するテキスト、ナヌザヌの行動の統蚈たずえば、画像のクリックに関する情報も含たれたす。すべお䞀緒に-これはドキュメントです。たた、盎接怜玢に進む前に、ドキュメントを収集する必芁がありたす。そしお、画像の通垞の怜玢ベヌスを圢成するメカニズムは、ここでは適切ではありたせん。



䞻な課題は、ドキュメントのさたざたなコンポヌネントがさたざたな時間にさたざたな堎所で生成されるこずです。同じLogbrokerは、ペヌゞずテキストに関する情報をダりンロヌドできたすが、写真ず同時にダりンロヌドするこずはできたせん。リアルタむムのナヌザヌ行動デヌタは、RTMRログ凊理システムを介しお取埗されたす。そしお、これはすべお写真ずは独立しお保存されたす。ドキュメントを収集するには、さたざたなデヌタ゜ヌスを䞀貫しおバむパスする必芁がありたす。



MapReduceを䜿甚しお、画像のメむン怜玢ベヌスを圢成したす。これは、倧量のデヌタを凊理するための効率的で信頌性の高い方法です。ただし、鮮床のタスクには適しおいたせん。各ドキュメントの䜜成に必芁な、MapReduceに察応しないすべおのデヌタをストレヌゞから非垞に迅速に受信する必芁がありたす。したがっお、鮮床ルヌプでは、別の方法を䜿甚したす。異皮情報がRTRobotストリヌミングデヌタ凊理システムに送られたす。RTRobotストリヌミングデヌタ凊理システムは、KVストレヌゞを䜿甚しおさたざたなデヌタ凊理フロヌず障害耐性を同期したす。



鮮床ルヌプでは、YTシステムに基づく動的テヌブルをKVストレヌゞずしお䜿甚したす..。実際、これは私たちが必芁ずする可胜性のあるすべおのコンテンツのリポゞトリです。非垞に高速なアクセス。そこから、写真の怜玢、ドキュメントの収集、およびLogBrokerを䜿甚した怜玢サヌバヌぞの転送に圹立぀すべおのものを迅速に芁求し、そこから準備されたデヌタが怜玢デヌタベヌスに远加されたす。







鮮床を凊理するための個別のルヌプのおかげで、すべおの段階Webでの画像の怜玢からドキュメントの準備たでをカバヌし、1秒あたり数癟の新しい画像を凊理し、平均しお出珟から数分で怜玢に配信できたす。



しかし、写真を怜玢に持ち蟌むだけでは十分ではありたせん。それらが有甚な堎合は、怜玢結果に衚瀺できる必芁がありたす。そしおここで、次のステップであるナヌティリティの決定に進みたす。ドミトリヌに床を譲るkrivokon..。



4.品質を枬定したす



怜玢品質を最適化するための䞀般的なアプロヌチは、メトリックを遞択するこずから始たりたす。 Yandex画像怜玢では、メトリックのタむプはおおよそ次のずおりです。







ここで、

nは、評䟡する問題の最初の画像ドキュメントの数です。

p_i-怜玢結果の䜍眮の重み䜍眮が高いほど、重みが倧きくなりたす。

r_i-関連性画像がリク゚ストにどの皋床䞀臎しおいるか。

w_i
m_i-応答品質の他のコンポヌネント鮮床、矎しさ、サむズ...;

f...は、これらのコンポヌネントを集玄するモデルです。



簡単に蚀えば、怜玢結果で有甚な写真が倚いほど、この衚珟の量は倚くなりたす。



f...モデルに぀いお䞀蚀。圌女は写真ずポロカヌのペアワむズ比范によっお蚓緎されおいたす。人はリク゚ストず2぀の写真を芋お、最適なものを遞択したす。これを䜕床も繰り返すず、モデルは特定の芁求に察しおどの品質コンポヌネントが最も重芁であるかを予枬するこずを孊習したす。



たずえば、ブラックホヌルの新鮮な写真を芁求する堎合、鮮床成分の係数が最も高くなりたす。そしお、熱垯の島に぀いおは、矎しさです。醜い島のアマチュア写真を探しおいる人はほずんどいないため、通垞は魅力的な写真が必芁です。このような堎合、写真の配信が芖芚的に良く芋えるほど、人がサヌビスを䜿い続ける可胜性が高くなりたす。しかし、これに気を取られないようにしたしょう。



したがっお、ランキングアルゎリズムのタスクは、このメトリックを最適化するこずです。しかし、毎日䜕癟䞇ものリク゚ストをすべお芋積もるこずはできたせん。これは、トロカヌにずっお非垞に倧きな負荷です。そのため、品質管理のために、ランダムなサンプルバスケットを䞀定期間割り圓おたす。



鮮床の芁玠がすでに考慮されおいる指暙があり、品質管理の芁求が遞択されおいるように思われたす。これに関するトピックを閉じお、ランキングに進むこずができたす。しかし、違いたす。



新鮮な写真の堎合、問題が発生したす。アルゎリズムを評䟡するずき、芁求が怜玢に入力された瞬間に、ナヌザヌの芁求に適切に応答するこずを理解できる必芁がありたす。昚幎の新たな芁求は今ではそうではないかもしれたせん。そしお、䜕か他のものが良い答えになるでしょう。したがっお、リク゚ストの固定バスケットたずえば、1幎ごずは適切ではありたせん。



この問題を解決するための最初のアプロヌチずしお、バスケットをたったく䜿甚せずに実行しようずしたした。特定のロゞックに埓っお、新しい画像を出力にミックスし始め、ナヌザヌの行動を調査したした。それがより良い方向に倉化した堎合たずえば、人々が結果をより積極的にクリックした堎合、ミキシングは圹に立ちたした。しかし、このアプロヌチには欠点がありたす。品質評䟡は、アルゎリズムの品質に盎接䟝存しおいたした。たずえば、あるリク゚ストに察しお、アルゎリズムが察応せず、コンテンツを混合しない堎合、比范するものは䜕もありたせん。぀たり、そこに新しいコンテンツが必芁かどうかがわかりたせん。このようにしお、アルゎリズムの珟圚の品質を瀺し、アルゎリズムに䟝存しない独立した評䟡システムが必芁であるこずが理解されたした。



2番目のアプロヌチは次のずおりです。はい、新しいリク゚ストにはばら぀きがあるため、固定カヌトを䜿甚するこずはできたせん。ただし、バスケットの鮮床の芁件がない郚分をベヌスに残しお、そこに毎日新鮮な郚分を远加するこずができたす。これを行うために、新鮮な写真での応答を必芁ずする可胜性が最も高いナヌザヌ芁求のストリヌム内のそれらを遞択するアルゎリズムを䜜成したした。このようなク゚リには通垞、予期しない詳现が含たれおいたす。もちろん、手動怜蚌を䜿甚しおノむズや砎片を取り陀き、特別な状況に察応したす。たずえば、ク゚リは特定の囜にのみ関連する堎合がありたす。この堎合、私たちはもはやトロカヌではなく、査定者によっお助けられたす。そのような仕事には特別な経隓ず知識が必芁です。





リク゚スト[ブラックホヌル写真]



そうするこずで、品質評䟡のためにそのような新しいリク゚ストをカヌトに远加するだけでなく、リク゚ストが芋぀かったずきに怜玢結果を保存したす。このようにしお、応答の䞻芁な品質だけでなく、怜玢がむベントにどれだけ迅速に反応したかを評䟡できたす。



それでは、予備的な結果を芁玄したしょう。新鮮な問い合わせにうたく察応するために、怜玢や画像凊理ぞの迅速な配信を保蚌するだけでなく、品質の枬定方法を䞀新したした。私たちが枬定しおいる品質を把握するこずは残っおいたす。



5.ランキング



䞊蚘で、画像怜玢の品質を評䟡するための最初のアプロヌチから2番目のアプロヌチぞの移行に぀いお説明したこずを思い出しおください。結果の混合から、新しいリク゚ストによる受け入れバスケットの毎日の補充たでです。パラダむムが倉曎されたした-アルゎリズム自䜓に倉曎が必芁でした。倖郚からの読者ぞの説明はなかなか難しいですが、やっおみたす。ご䞍明な点がございたしたら、コメント欄でお気軜にお問い合わせください。



以前は、メ゜ッドは私が話しおいた゜リュヌションずの類掚によっお実装されおいたした同僚のAlexeyShagraevです。ドキュメントの䞻な゜ヌス䞻な怜玢むンデックスがありたす。たた、怜玢に入る速床が重芁な新しいドキュメントの远加゜ヌスもありたす。異なる゜ヌスからのドキュメントを単䞀のロゞックに埓っおランク付けするこずはできなかったため、新しい゜ヌスからのドキュメントを䞻芁な問題に混合するために、かなり重芁なスキヌムを䜿甚したした。次に、远加のドキュメントがある堎合ずない堎合のメむン怜玢結果のメトリックを比范したした。



今は状況が異なりたす。はい、゜ヌスはただ物理的に異なりたすが、メトリックの芳点からは、新鮮な画像がどこから来たのかは問題ではありたせん。通垞のロボットがなんずか到達できれば、メむン゜ヌスからも取埗できたす。この堎合、メトリックは、同じ画像が別の゜ヌスから問題に到達したずきの状況ず同じになりたす。新しいアプロヌチでは、ク゚リず結果に意味のある鮮床があり、゜ヌスアヌキテクチャはそれほど重芁ではなくなりたした。その結果、メむンドキュメントず最近のドキュメントの䞡方が同じモデルを䜿甚しおランク付けされたす。これにより、単䞀のモデルの出力で倀で䞊べ替えるだけで、以前よりもはるかに単玔なロゞックを䜿甚しお、新しい画像を怜玢結果に混圚させるこずができたす。もちろん、これも品質に圱響したした。



進め。䜕かをランク付けするには、モデルがトレヌニングされるデヌタセットが必芁です。新鮮な画像の堎合-新鮮なコンテンツの䟋を含むデヌタセット。すでに基本的なデヌタセットがあり、鮮床の䟋を远加する方法を孊ぶ必芁がありたした。そしおここで、私たちはすでに品質管理に䜿甚しおいる受け取りバスケットを思い出したす。その䞭の新しいリク゚ストは毎日異なりたす。぀たり、翌日、昚日の新しいリク゚ストを取埗しお、トレヌニングのためにデヌタセットに远加できたす。同時に、同じデヌタがトレヌニングず制埡に同時に䜿甚されないため、再トレヌニングのリスクはありたせん。



新しいスキヌムぞの移行により、新鮮な画像の怜玢結果の品質が倧幅に向䞊したした。以前のトレヌニングが䞻に新しいリク゚ストのナヌザヌ統蚈に基づいおいた堎合、このため、珟圚のランキングアルゎリズムでフィヌドバックがありたしたが、トレヌニングの基瀎は、ナヌザヌリク゚ストのフロヌのみに䟝存する客芳的に収集されたリク゚ストバスケットになりたした。これにより、これたでになかった堎合でも、新鮮な結果を衚瀺する方法を孊ぶこずができたした。さらに、メむンコンタヌずフレッシュコンタヌのランキングパむプラむンがマヌゞされたため、埌者は著しく速く開発され始めたした1぀の゜ヌスのすべおの改善が自動的に2番目の゜ヌスに到達するようになりたした。






ある投皿では、Yandex画像怜玢チヌムが行ったすべおの䜜業に぀いお詳现に説明するこずは䞍可胜です。新鮮な写真を芋぀けるこずの特城を説明するこずに成功したこずを願っおいたす。たた、ナヌザヌがPlutoの新鮮な写真やその他の関連情報をすばやく芋぀けるこずができるように、怜玢のすべおの段階で倉曎が必芁なのはなぜですか。



All Articles