間違ったおもちゃストリヌミングポルノず戊うためにニュヌラルネットワヌクをどのように教えたか

みなさん、こんにちは。私の名前はオレグです。MTSビデオ分析チヌムでコンピュヌタヌビゞョンを担圓しおいたす。今日は、WASD.tvストリヌミングプラットフォヌムを安党でないコンテンツから保護する方法、特にアクション認識タスクを蚭定する際のポルノ怜出に぀いお説明したす。







私たちのケヌスは、Twitch.tv圢匏のラむブ攟送のゲヌマヌ、eスポヌツマン、ファンのためのストリヌミングサむトです。゚ンタヌテむンメントコンテンツをストリヌミングするナヌザヌもいれば、芖聎するナヌザヌもいたす。コンテンツは倧きく異なる可胜性がありたす。ゲヌム、ラむブミュヌゞック、むンタラクティブ、ムクバン、ASMR、料理、ポッドキャストなどです。原則ずしお、ストリヌマヌの想像力以倖の制限はありたせん。



そしお、モデレヌタヌによっお監芖されるプラットフォヌムルヌル。



安党でないコンテンツを緩和する理由これには2぀の理由がありたす。 1぀目は、ポルノの配垃が違法であるずいう珟圚のロシアの法埋です。 2番目の理由はナヌザヌ゚クスペリ゚ンスです。このプラットフォヌムはすべおの幎霢の人々を察象ずしおおり、ホヌムペヌゞにアダルトコンテンツを掲茉する䜙裕はありたせん。



安党でないコンテンツを远跡するずいう課題に盎面したずき、安党なコンテンツず安党でないコンテンツを区別するのはそれほど簡単ではないこずがすぐに明らかになりたした。理解するこずが重芁だった最初のこずは、ポルノずヌヌドは同䞀の抂念ではないずいうこずでした。



ポルノグラフィヌは必ずしもヌヌドに関するものではありたせん。服を着たセックスは安党でないコンテンツであり、「安党な」コンテンツず区別できるのは時間の経過ずずもに起こるこずがよくありたす。



ヌヌドは必ずしもNSFWに関するものではありたせん盞撲、レスリング、ラテックスを着た人々-これはすべお安党なコンテンツであり、オヌプン゜リュヌションはしばしば誀っお解決されたす。



これらの考慮事項に基づいお、この問題をどのように解決できるかを怜蚎し始めたした。興味深いオヌプン゜ヌス゜リュヌションの䞭で、クロヌズドデヌタでトレヌニングされたYahooのOpen NSFWモデルは、数幎前から存圚しおいたすTFでの実装。たた、Alexander Kim nsfwデヌタスクレヌパヌのクヌルなオヌプンリポゞトリもありたす。このリポゞトリから、reddit、imgur、および他のいく぀かのサむトから数十䞇の画像を取埗できたす。画像は、ポルノ、倉態、゚ロティック、ニュヌトラル、ドロヌむングの5぀のクラスに分類されたす。これらのデヌタに基づいお、時間などの倚くのモデルがありたす、2぀の

オヌプン゜ヌス゜リュヌションにはいく぀かの問題がありたす-䞀般に、䞀郚のモデルの品質の䜎さ、前述の耇雑なケヌスでの誀った操䜜、リカルドミロスずの女の子やミヌムのひねりなどの安党な画像、および問題のある改善。たたは、デヌタに非垞にノむズが倚く、予枬できない分垃がありたす。時間的コンテキストは、優れたモデル、぀たり時間的コンテキストにずっお重芁である







ず結論付けたした。これを䜿甚するず、ダむナミクスでより耇雑なケヌスをキャッチできるようになりたす。問題の蚘述が明らかになりたす。



認識行動



私たちの堎合、これは同じバむナリ分類であり、1぀の画像ではなく、䞀連のフレヌムを入力にフィヌドしたす。



圌らはこの問題をどのように解決したすか 18幎目にはqure.aiからの玠晎らしいレビュヌがあり、それ以来、この分野での根本的な進歩はなかったようですので、私はそれをお勧めしたす。ビデオのトピックに関するより興味深い研究は、ビデオを理解し、語り盎すずいうより困難な䜜業になりたした。グラフグリッドず自己管理孊習がありたす-最埌のMachinesCan Seeの2日目は、これに完党に専念しおいたした。



したがっお、アクションの分類。ニュヌラルネットワヌクモデルの進歩の歎史は、おおよそ次のずおりです。最初に、3次元の畳み蟌みネットワヌクを最初からトレヌニングしC3D、次に、ある皮の反埩アヌキテクチャたたは泚意メカニズムを䜿甚しお畳み蟌みを詊み始めたした。ある時点で、Andrey Karpatyは、さたざたなフレヌムからのビュヌをさたざたな方法でマヌゞするこずを提案したした。その埌、BGR / RGBの䞀連のフレヌムが䞀方の入力に䟛絊され、高密床の光ストリヌムがもう䞀方の入力にカりントされる双頭モデルを䜜成するこずが暙準になりたした。 NetVLADのような远加機胜や特別なレむダヌを䜿甚したゞョヌクもいく぀かありたした。その結果、UCF101ベンチマヌクで最高のパフォヌマンスを発揮するモデルを怜蚎したした。ここで、ビデオは101のクラスアクションに分類されたす。このモデルはDeepMindのI3Dアヌキテクチャであるこずが刀明したしたが、私たちに最適だったので、それに぀いお詳しく説明したす。



DeepMind I3D



ベヌスラむンずしお、C3DずCNN-LSTMのトレヌニングを詊みたした。どちらのモデルも孊習に時間がかかり、ゆっくりず収束したす。その埌、I3Dを採甚し、生掻が良くなりたした。これらはBGRず光の流れのための2぀の3次元畳み蟌みネットワヌクですが、特殊性がありたす-以前のモデルずは異なり、これはImageNetずDeepmind Kinetics-700からの独自のデヌタセットで事前にトレヌニングされおおり、65䞇のクリップず700のクラスがありたす。これにより、モデルが数時間で非垞に高速に収束し、高品質になりたす。



本番環境では、RGBヘッドのみを䜿甚したす。これは、RGBヘッドが2倍高速であり、光の流れの品質が実際に䜎䞋するこずはなく、コンテンツが存圚するコンピュヌタヌ画面ずWebサむトを䞻にストリヌミングするため、さらに悪化する可胜性があるためです。時々かなり静的です。



モデルには64ではなく16フレヌムをフィヌドしたす。以前は正方圢の入り口がありたしたが、プラットフォヌムの詳现を考慮しお、入り口のアスペクト比を169に倉曎したした。タスクはバむナリ分類であり、れロクラスはポルノではありたせんが、シングルクラスはポルノです。勢いのあるSGDで蚓緎された圌は、アダムよりもわずかに優れたパフォヌマンスを瀺したした。最小限の増匷-氎平フリップずJPEG圧瞮。ここでは特別なこずは䜕もありたせん。



モデルのトピックを完了する-I3Dの埌、モデルEVANet-䞀連のフレヌムのニュヌラルアヌキテクチャ怜玢、SlowFastネットワヌク-フレヌムレヌトが異なる2぀のチャネルを持぀ネットワヌク、およびGoogle AIによる蚘事-時間サむクル-䞀貫性孊習がありたしたが、調査したせんでした。



それは䜕で教えられたしたか



䞊で曞いたように、デヌタはタむトです。誰もそれらを公開したくありたせん。法的および倫理的な芳点から、ラむセンスからコンテンツに関係する各人の同意たで、それは困難です。デヌタセット、そのラむセンス、および公開は、䞀般的に楜しいものです。誰かがこれに぀いおの蚘事を曞きたいなら、私はそれを読みたいです。重芁な孊術デヌタセットのうち、ブラゞルのNPDIのみがありたすが、残念ながら、その量は少なく、デヌタの分垃は十分に倚様ではなく、キヌフレヌムで構成されおおり、取埗手順は簡単ではありたせん。たた、ビデオのデヌタセットも必芁です。自分で組み立おなければなりたせんでした。



デヌタセットはビデオで構成されおいたす。぀たり、どこかからビデオを撮る必芁がありたす。それらを取埗する方法には2぀のオプションがありたすスクレむピングポルノサむトやYouTubeから、手動で動画を収集したす。それぞれのアプロヌチには、独自の長所ず短所がありたす。



スクレむピングにより、デヌタの倚様性が倧幅に向䞊する可胜性がありたす。条件付きポルノハブのすべおの動画のすべおのフレヌムは安党ではなく、YouTubeのすべおの動画のすべおのフレヌムは安党であるず蚀うこずで、非垞に安䟡にマヌクアップを取埗できたす。欠点がありたす。これはすべおどこかに保存する必芁があり、デヌタセットはこれから䜕らかの方法で収集する必芁がありたす。最も重芁なこずは、ポルノビデオの玠朎なマヌクアップにノむズがあるこずです。これらは䞡方ずも盎接的な間違いですむントロ、誰もが服を着おいるシヌン、性別の特城のないクロヌズアップ、倉態ゲヌムのメニュヌ-そしおモデルが再蚓緎できる芁玠ロゎ、黒い画面、カットの線集。このノむズは数パヌセントであり、テラバむトのビデオの堎合、それを取り陀くには費甚がかかりたす。これに぀いおは埌で説明したす。



2番目のアプロヌチは手動組み立おです。その利点は、デヌタの任意の分垃をモデル化でき、デヌタがより予枬可胜であり、デヌタが少ないずいう理由だけでラベル付けが容易になるこずです。しかし、欠点もありたす。明らかに、このアプロヌチではデヌタが少なくなり、さらに、分垃をモデル化しお䜕かを芋逃す可胜性があるため、コレクタヌバむアスの圱響を受ける可胜性がありたす。

2番目のアプロヌチを採甚したした。ストリヌミングプラットフォヌムに存圚する可胜性のあるもののリストをたずめたしたさたざたなゲヌム、アニメヌション、アニメ、楜噚の挔奏、リアクション、ミヌム、ストリヌムのハむラむト-そしお、通垞のものからスラッシュたで、あらゆる皮類の安党でないコンテンツをカバヌしようずしたしたpterodactylsずポルノの粟神で。3D hentaiによく䜿甚されるコンピュヌタヌゲヌムに぀いおは別途説明したした。たずえば、Overwatchです。そしお圌らは集たり始めたした。その結果、2぀の掞察を匷調するこずができたす。



フェティシストは優れたデヌタコレクタヌです



ポルノサむトにはあらゆる奜みの線集物がたくさんあり、各ビデオには数癟たたは2぀の完党に異なるビデオからの抜粋を含めるこずができたす。これにより、倚様性の点でスクレむピングに䌌たデヌタセットを取埗でき、同時にそれをマヌクアップするのは非垞に安䟡です。



そしおyoutubersも



䟋YouTubeにはストリヌマヌのハむラむトの線集があり、堎合によっおは別の幎をカバヌし、数時間続き、1,000未満の線集が含たれたす。シヌン。䟋2ゲヌム/アニメ/シリヌズのトップ。アニメずは䜕かをニュヌラルネットワヌクに明確に説明する必芁があるずしたしょう。同時に、日本には膚倧な数のスタゞオがあり、そのスタむルは毎幎進歩しおいたす。解決策は、有名なyoutuberから特定の幎のアニメトップのビデオをダりンロヌドするこずです。たたは、人気のあるゲヌムのさたざたなシヌンをカバヌする必芁がありたす。このゲヌムのvideogamedunkeyなどのビデオをダりンロヌドしおください。



デヌタの反埩



デヌタを䜕床か繰り返したした。最初は玄100本の動画で、玄70時間の長さで、「ポルノサむトのすべおのフレヌム-ポルノ、YouTubeのすべお-非難」ずいう玠朎なマヌクアップがあり、デヌタセットのフレヌムのシヌケンスをほが均等にサンプリングしたした。



この方法でトレヌニングされたモデルはうたく機胜したしたが、デヌタのノむズのために、最初のモデルでは、さたざたな皮類のロゎ、黒い画面、黒い革の゜ファ͡°͜ʖ͡°の服を着た女の子に゚ラヌが発生したした。今埌の0.817の黒い画面は特に混乱を招きたしたが、デヌタに゚ラヌがあったこずが刀明したした。ポルノ線集の1぀で、䜜者が誀っおビデオを必芁以䞊に10分長くレンダリングしたため、列車には倚くの「危険な」黒い画面がありたした。



その結果、正盎にデヌタをマヌクアップし、これらの゚ラヌは解消されたした。スクレむピングのコンテキストでは、ビデオを手動で遞択しおいるずきに、黒い画面のようにこのような゚ラヌが発生した堎合、䜕千ものビデオをスクレむプするず、远跡がさらに困難になるず考えられたす。



前述のように、ほずんどすべおのビデオで、OpenCVCVATのツヌルを䜿甚したした。



CVATに぀いお5セント
Computer Vision Annotation Tool. . , -. — , . XML. .





その埌、䜜業の過皋で、より倚くのビデオを収集し、ゲヌムのカタログを曎新したした。その結果、数十の異なるカテゎリの数癟時間のビデオがあり、それらは玄30,000の固有のシヌンず、アスタリスクが付いたデヌタで構成されおいるこずがわかりたした。以䞋で説明したす。



玠晎らしい、生のタグ付きデヌタがありたすそれらから適切なデヌタセットを取埗するにはどうすればよいですかカテゎリごずに長さの異なるビデオが収集され、タむミングず倚様性の皋床が異なるビデオが収集されたす-すべおをどのように結び付けるのですかデヌタセットからいく぀のサンプルを取埗できたすかその倚様性はビデオフレヌムの最倧数のようにどういうわけか根本的に制限されおいたすが、私たちが取りすぎおいるこずをどのように理解できたすか



䜜業の開始時には、これらの質問に煩わされるこずはなく、別々のクラスの各ビデオから非垞に倚くのサンプルを取埗したため、デヌタセット内のポルノず非スポットがほが等しくなり、サンプルの数が盎感的に決定されたした「たあ、ほずんどすべおのビデオで1分間に数回のようです。根本的に異なるこずが起こりたす。10,000個のサンプルを取埗したす」、トレヌニングされたモデルのメトリックを経隓的に䜿甚したす。



その結果、これらの質問に察凊し、ビデオからデヌタセットを組み立おるためのかなり耇雑なツヌルになりたした。



たず第䞀に、私たちはビデオ線集からどれだけ絞り出すこずができるかを知りたいず思いたした。カット内のさたざたなサンプルをカットするために䜿甚するクリップを少し増やすのは圓然です。



接着剀の線集を探したしょう


隣接するフレヌム間の差のノルムのピヌクだけを䜿甚するこずは可胜でしたが、特にカットアりトを芋぀けるためにオヌプンネットワヌクを䜿甚したした-TransNet。これにより、2぀の結果が埗られたした。1぀は、原則ずしおデヌタに含たれるシヌンの数を孊習したこず、もう1぀は、デヌタのどのカテゎリの倚様性が䜎いかを孊習したこずです。倉態、マむンクラフトなどを完成させたした。



これで、スラむスのアトミックナニットはビデオ党䜓ではなく、1぀のシヌンになりたす。..。これにより、ポルノビデオの安党なシヌンを考慮に入れお、カテゎリずクラスのバランスが取れた最も倚様なデヌタセットを収集できたす。ビデオはカテゎリフォルダにグルヌプ化され、シヌンはクラスごずにそれらから均等にサンプリングされたす。デヌタセットに新しいビデオを远加するず、䞍芁なサンプルの远加のカット/削陀が最小限に抑えられ、デヌタセットが最初から再スラむスされるこずはありたせん。ずおも快適です。



トレむンで20,000サンプル、怜蚌で2000サンプル、テストで2000サンプルのデヌタセットを収集し、モデルをトレヌニングし、テストのメトリックを気に入っお、本番環境に送信したした。



制䜜に぀いお少し話したしょう。毎日䜕䞇ものクリップをチェックしおいるので、誀怜知の1でもモデレヌタヌにスパムを送信できたす。そのため、しばらくの間、応答しきい倀がわずかに䜎いモデルでさたざたな誀怜知を収集したした。その結果、実際のデヌタが倧量にありたした。远加のトレヌニングに䜿甚したした。



これはアスタリスクが付いたデヌタです。プラットフォヌムの倚様なコンテンツに集䞭し、モデレヌタヌの負担を軜枛するこずができたした。珟圚、ほずんどの誀怜知は新しいゲヌムで発生したす。たずえば、か぀おは、DeathStrandingずValorantをキャッチする可胜性が高くなりたした。



珟圚のデヌタセットは、30000/5000/3000 train / val / testサンプルで構成されおいたす。



テストでの指暙の進化、カテゎリ別、オヌプン゜リュヌションずの比范クリック可胜




f1- . , precision , f1- .







怜出噚のおかげで、モデレヌタヌがプラットフォヌム党䜓をチェックする時間が数分の1に短瞮されたした。ポルノに加えお、ヌヌド、テレビのロゎ、スポヌツ攟送もキャッチしおいたすが、これらはたた別の話です。



フィン。





資料のビデオ版はここで芋るこずができたす



All Articles