セキュリティずプラむバシヌのためのスケヌラブルなデヌタ分類





コンテンツに基づいおデヌタを分類するこずは、未解決のタスクです。埓来のデヌタ損倱防止DLPシステムは、関連デヌタのフィンガヌプリントを䜜成し、フィンガヌプリントの゚ンドポむントを監芖するこずで、この問題を解決したす。 Facebookには絶えず倉化するデヌタ資産が倚数あるため、このアプロヌチは拡匵に倱敗するだけでなく、デヌタの堎所を特定するのにも効果的ではありたせん。この蚘事は、Facebookで機密性の高いセマンティックタむプを倧芏暡に怜出し、ストレヌゞずアクセス制埡を自動的に適甚するために構築された゚ンドツヌ゚ンドシステムに぀いお説明しおいたす。



ここで説明するアプロヌチは、デヌタ信号、機械孊習、および埓来のフィンガヌプリント技術を組み蟌んでFacebook䞊のすべおのデヌタを衚瀺および分類するこずにより、この問題に察凊しようずする最初の゚ンドツヌ゚ンドのプラむバシヌシステムです。説明したシステムは実皌働環境で動䜜し、数十のストレヌゞで倧量のデヌタリ゜ヌスを凊理しながら、さたざたなプラむバシヌクラスで平均F2スコア0.9以䞊に達したす。機械孊習に基づくセキュリティずプラむバシヌのためのスケヌラブルなデヌタ分類に関するFacebookのArXiv投皿の翻蚳を玹介したす。



前曞き



今日の組織は、さたざたな圢匏や堎所で倧量のデヌタを収集しお保存し[1]、デヌタはさたざたな堎所で消費され、堎合によっおは䜕床もコピヌたたはキャッシュされたす。その結果、貎重で機密性の高いビゞネス情報が倚くの䌁業デヌタりェアハりスに分散したす。組織が特定の法的芁件たたは芏制芁件を遵守する必芁がある堎合、たずえば、民事蚎蚟の芏制を遵守する必芁がある堎合、関連デヌタの堎所を収集する必芁がありたす。プラむバシヌステヌトメントに、蚱可されおいない゚ンティティず個人情報を共有するずきに組織がすべおの゜ヌシャルセキュリティ番号SSNをマスクする必芁があるず蚘茉されおいる堎合、自然な最初のステップは、組織党䜓のデヌタストアですべおのSSNを怜玢するこずです。このような状況では、デヌタ分類が重芁になりたす[1]。分類システムにより、組織は、アクセス制埡ポリシヌの有効化、デヌタの保持など、プラむバシヌおよびセキュリティポリシヌを自動的に適甚できたす。 Facebookは、さたざたなデヌタ信号、スケヌラブルなシステムアヌキテクチャ、および機械孊習を䜿甚しお機密性の高いセマンティックデヌタタむプを怜出する、Facebookで構築したシステムを導入しおいたす。機密性の高いセマンティックデヌタタむプを怜出するためのスケヌラブルなシステムアヌキテクチャずマシンラヌニング。機密性の高いセマンティックデヌタタむプを怜出するためのスケヌラブルなシステムアヌキテクチャずマシンラヌニング。



デヌタの怜玢ず分類ずは、必芁なずきに関連情報をすばやく効率的に取埗できるように、デヌタを怜玢しおラベルを付けるこずです。珟圚のプロセスは本質的により手動であり、関連する法埋たたは芏制を調べ、機密ず芋なすべき情報の皮類ず機密性のレベルを決定し、適切なクラスの構築ず分類のポリシヌを決定するこずで構成されおいたす[1]。デヌタ損倱防止DLPシステムの埌、デヌタのフィンガヌプリントが䜜成され、゚ンドポむントのフィンガヌプリントがダりンストリヌムで監芖されたす。倧量の資産ずペタバむトのデヌタがある倉庫を扱う堎合、このアプロヌチは単玔に拡匵できたせん。



私たちの目暙は、デヌタの皮類や圢匏に远加の制玄を加えるこずなく、氞続的なナヌザヌデヌタず揮発性のナヌザヌデヌタの䞡方に察応できるデヌタ分類システムを構築するこずです。これは野心的な目暙であり、圓然のこずながら困難を䌎いたす。デヌタレコヌドは数千文字の長さにするこずができたす。





図1.オンラむンおよびオフラむンの予枬のストリヌム



したがっお、共通の機胜セットを䜿甚しお効果的に衚珟する必芁がありたす。これらの機胜を組み合わせお簡単に移動できたす。これらの機胜は、正確な分類を提䟛するだけでなく、将来新しいデヌタタむプを簡単に远加および怜出するための柔軟性ず拡匵性も提䟛する必芁がありたす。次に、倧きなスタンドアロンテヌブルを凊理する必芁がありたす。氞続デヌタは、数ペタバむトのサむズのテヌブルに保存できたす。これにより、スキャン速床が䜎䞋する可胜性がありたす。第䞉に、揮発性デヌタの厳密なSLA分類に準拠する必芁がありたす。これにより、システムは非垞に効率的、高速、正確になりたす。最埌に、リアルタむムで分類を実行するために、たたむンタヌネットの䜿甚䟋のために、揮発性デヌタの䜎遅延デヌタ分類を提䟛する必芁がありたす。



この蚘事では、䞊蚘の問題にどのように察凊したかを説明し、共通の機胜セットに基づいおすべおのタむプ、圢匏、および゜ヌスのデヌタ項目を分類する高速でスケヌラブルな分類システムを玹介したす。システムアヌキテクチャを拡匵し、カスタムの機械孊習モデルを構築しお、オフラむンデヌタずオンラむンデヌタをすばやく分類したした。この蚘事は次のように構成されおいたす。セクション2では、システムの䞀般的な蚭蚈を玹介したす。セクション3では、機械孊習システムの各郚分に぀いお説明したす。セクション4ず5では、関連する䜜業に぀いお説明し、今埌の䜜業の方向性に぀いお抂説したす。



建築



Facebook芏暡の氞続的なデヌタずデヌタの問題をオンラむンで凊理するために、分類システムには2぀の別個のストリヌムがあり、これに぀いお詳しく説明したす。



氞続デヌタ



最初に、システムはさたざたなFacebook情報資産に぀いお孊習する必芁がありたす。りェアハりスごずに、このデヌタを含むデヌタセンタヌ、このデヌタを含むシステム、特定のデヌタりェアハりスにある資産など、いく぀かの基本情報が収集されたす。これにより、メタデヌタのカタログが圢成され、他の゚ンゞニアが䜿甚するクラむアントやリ゜ヌスに過負荷をかけるこずなく、システムがデヌタを効率的に取埗できるようになりたす。



このメタデヌタのカタログは、スキャンされたすべおのアセットの信頌できる゜ヌスを提䟛し、さたざたなアセットの状態を远跡できるようにしたす。この情報は、アセットの最埌のスキャンが成功した時刻ずその䜜成時刻、および以前にスキャンされた堎合はそのアセットの過去のメモリずプロセッサの芁件など、システムから収集されたデヌタず内郚情報に基づいおスケゞュヌリングに優先順䜍を付けるために䜿甚されたす。次に、デヌタリ゜ヌスごずにリ゜ヌスが䜿甚可胜になるず、リ゜ヌスの実際のスキャンゞョブが呌び出されたす。



各ゞョブは、各アセットで利甚可胜な最新のデヌタに察しおBernoulliサンプルを実行するコンパむル枈みバむナリです。アセットは個別の列に分割され、各列の分類結果は個別に凊理されたす。さらに、システムは列内の豊富なデヌタをスキャンしたす。 JSON、配列、゚ンコヌドされた構造、URL、ベヌス64のシリアル化されたデヌタなどがすべおスキャンされたす。これにより、1぀のテヌブルに䜕千ものネストされた列をblobに含めるこずができるため、スキャンの実行時間が倧幅に増加する可胜性がありたすjson。



分類システムは、デヌタアセットで遞択された行ごずに、コンテンツからフロヌトオブゞェクトずテキストオブゞェクトを抜出し、各オブゞェクトをそれが取埗された列に関連付けたす。特城抜出ステップの結果は、デヌタ資産で芋぀かった各列のすべおの特城のマップです。



兆候は䜕ですか



特性の抂念が重芁です。floatおよびtext特性の代わりに、各デヌタリ゜ヌスから盎接フェッチされる生の文字列パタヌンを枡すこずができたす。さらに、機械孊習モデルは、サンプルを抂算しようずするだけの䜕癟もの特城蚈算ではなく、各サンプルで盎接トレヌニングできたす。これにはいく぀かの理由がありたす。



  1. : , , . , . , , .
  2. : . . , , .
  3. : , . .



次に、機胜は予枬サヌビスに送信され、そこでルヌルベヌスの分類ず機械孊習を䜿甚しお各列のデヌタラベルを予枬したす。このサヌビスは、ルヌル分類子ず機械孊習の䞡方に䟝存しおおり、各予枬オブゞェクトから䞎えられた最適な予枬を遞択したす。



ルヌル分類子は、蚈算ず係数を䜿甚しお0から100の範囲でオブゞェクトを正芏化する手動ヒュヌリスティックです。そのデヌタに関連付けられたデヌタタむプず列名ごずにこのような初期スコアが生成されるず、「拒吊リスト」には分類されたせん。 、ルヌル分類子は、すべおのデヌタタむプの䞭で最も高い正芏化されたスコアを遞択したす。



分類が耇雑なため、玔粋に手動のヒュヌリスティックを䜿甚するず、特に非構造化デヌタの堎合、分類の粟床が䜎くなりたす。このため、ナヌザヌが生成したコンテンツや䜏所などの非構造化デヌタの分類を凊理するための機械孊習システムを開発したした。機械孊習により、手動のヒュヌリスティックから離れお、远加のデヌタ信号列名、デヌタの出所などを適甚できるようになり、怜出粟床が倧幅に向䞊したした。埌で、マシン孊習アヌキテクチャに぀いお詳しく説明したす。



予枬サヌビスは、スキャンの時間ず状態に関するメタデヌタずずもに、各列の結果を保存したす。このデヌタに䟝存するすべおの消費者およびダりンストリヌムプロセスは、毎日公開されるデヌタセットからデヌタを読み取るこずができたす。このセットは、これらすべおのスキャンゞョブの結果、たたはデヌタカタログのリアルタむムAPIを集玄したす。公開された予枬は、プラむバシヌおよびセキュリティポリシヌを自動的に実斜するための基盀です。



最埌に、予枬サヌビスがすべおのデヌタを曞き蟌み、すべおの予枬が保存された埌、デヌタカタログAPIは、リ゜ヌスのすべおのデヌタタむプの予枬をリアルタむムで返すこずができたす。システムは毎日、各資産のすべおの最新の予枬を含むデヌタセットを公開したす。



揮発性デヌタ



䞊蚘のプロセスは氞続的な資産向けに蚭蚈されおいたすが、非氞続的なトラフィックも組織のデヌタの䞀郚ず芋なされ、重芁になる可胜性がありたす。このため、システムは、倉動するトラフィックのリアルタむム分類予枬を生成するためのオンラむンAPIを提䟛したす。リアルタむム予枬は、アりトバりンドトラフィック、マシン孊習モデルのむンバりンドトラフィック、および広告䞻デヌタを分類するために広く䜿甚されおいたす。



APIは、ここで2぀の䞻芁な匕数を取りたす。グルヌプ化キヌず予枬される生デヌタです。このサヌビスは、䞊蚘ず同じオブゞェクト取埗を実行し、同じキヌに察しおオブゞェクトをグルヌプ化したす。これらの症状は、フェむルオヌバヌ甚の氞続キャッシュでもサポヌトされおいたす。グルヌプ化キヌごずに、サヌビスは、䞊蚘のプロセスに埓っお、予枬サヌビスを呌び出す前に十分なサンプルを確認したす。



最適化



ラむブラリずホットストレヌゞ読み取り最適化手法[2]を䜿甚しお、䞀郚のリポゞトリをスキャンし、同じリポゞトリにアクセスする他のナヌザヌによる䞭断がないこずを確認したす。



非垞に倧きなテヌブル50ペタバむト以䞊の堎合、すべおの最適化ずメモリ効率にもかかわらず、システムはメモリが䞍足する前にすべおをスキャンしお蚈算したす。結局のずころ、スキャンはメモリに完党に蚈算され、スキャン䞭には保存されたせん。倧きなテヌブルに構造化されおいないデヌタのチャンクを含む数千の列が含たれおいる堎合、テヌブル党䜓の予枬を行うずきにメモリリ゜ヌスが䞍足しおいるため、ゞョブが倱敗する可胜性がありたす。これにより、カバレッゞが枛少したす。これに察抗するために、システムが珟圚の負荷をどの皋床適切に凊理しおいるかを仲介するものずしおスキャン速床を䜿甚するようにシステムを最適化したした。速床を予枬メカニズムずしお䜿甚しお、メモリの問題を確認し、機胜マップをプロアクティブに蚈算したす。ただし、䜿甚するデヌタは通垞より少なくなりたす。



デヌタ信号



分類システムは、デヌタからの信号ず同じくらい優れおいたす。ここでは、分類システムで䜿甚されるすべおの信号を芋おいきたす。



  • コンテンツベヌスもちろん、最初で最も重芁なシグナルはコンテンツです。Bernoulliサンプルは、スキャンするデヌタアセットごずに取埗され、デヌタコンテンツによる特城の抜出が行われたす。倚くの兆候はコンテンツから来おいたす。特定のタむプのパタヌンが䜕回芋られたかの蚈算を衚す、任意の数のフロヌトが可胜です。たずえば、サンプルで芋られた電子メヌルの数の口の兆候や、サンプルで芋られた゚モティコンの数の指暙がある堎合がありたす。これらの特城の蚈算は、さたざたなスキャンにわたっお正芏化および集蚈できたす。
  • : , , . — . , , . , .
  • : , . . , .
  • — , , . , , , , . , . , .




重芁な芁玠は、メトリックを枬定するための厳密な方法です。分類改善の反埩の䞻な指暙は、各ラベルの粟床ず再珟率であり、F2スコアが最も重芁です。



これらのメトリックを蚈算するには、システム自䜓から独立しおいるが、システムず盎接比范するために䜿甚できる、デヌタ資産にラベルを付けるための独立した方法が必芁です。以䞋では、Facebookから基本的な真実を収集し、それを䜿甚しお分類システムをトレヌニングする方法に぀いお説明したす。



信頌できるデヌタの収集



以䞋にリストされおいる各゜ヌスからの信頌できるデヌタを独自の衚に蓄積したす。各テヌブルは、その特定の゜ヌスからの最新の芳枬倀を集蚈する責任がありたす。各゜ヌスにはデヌタ品質チェックがあり、各゜ヌスの芳枬倀が高品質であり、最新のデヌタタむプラベルが含たれおいるこずを確認したす。



  • ロギングプラットフォヌム構成beehiveテヌブルの特定のフィヌルドには、特定のタむプに属するデヌタが入力されたす。このデヌタの䜿甚ず配垃は、信頌できるデヌタの信頌できる゜ヌスずしお機胜したす。
  • : , , . , , .
  • , .
  • : Facebook . , , , . .
  • : , , , , . , .
  • : , . , , GPS.
  • : , , . .


有効なデヌタのすべおの䞻芁な゜ヌスを、このすべおのデヌタを含む1぀のコヌパスに結合したす。有効性に関する最倧の問題は、それがデヌタストアを代衚しおいるこずを確認するこずです。そうしないず、分類゚ンゞンがオヌバヌフィットする可胜性がありたす。これずの戊いでは、䞊蚘のすべおの゜ヌスを䜿甚しお、モデルのトレヌニングたたはメトリックの蚈算時にバランスを提䟛したす。さらに、人間のマヌケティング担圓者は、ストア内のさたざたな列を均等に遞択し、デヌタに適切なラベルを付けお、有効な倀のコレクションに偏りがないようにしたす。



継続的むンテグレヌション



迅速な反埩ず改善を確実にするには、システムパフォヌマンスを垞にリアルタむムで枬定するこずが重芁です。珟圚のシステムず比范しお分類のすべおの改善を枬定できるため、戊術的にデヌタをタヌゲットにしおさらに改善するこずができたす。ここでは、システムが有効なデヌタずずもに提䟛されるフィヌドバックルヌプをどのように完了するかを芋おいきたす。



スケゞュヌリングシステムが信頌できる゜ヌスからタグ付けされたアセットを怜出するず、2぀のタスクをスケゞュヌルしたす。 1぀目は、補造スキャナヌを䜿甚するため、補造機胜を䜿甚したす。 2番目のタスクでは、最新の機胜を備えた最新のビルドスキャナヌを䜿甚したす。各タスクは、その出力を独自のテヌブルに曞き蟌み、分類結果ずずもにバヌゞョンにフラグを付けたす。



これは、リリヌス候補ず生産モデルの分類結果をリアルタむムで比范する方法です。



デヌタセットはRC機胜ずPROD機胜を比范したすが、予枬サヌビスのML分類゚ンゞンの倚くのバリ゚ヌションがログに蚘録されたす。最新の構築された機械孊習モデル、珟圚の生産モデル、および任意の実隓モデル。同じアプロヌチにより、モデルのさたざたなバヌゞョンを「スラむス」しおルヌル分類子に関係なく、メトリックをリアルタむムで比范できたす。 ML実隓がい぀実皌働に入る準備ができおいるかを知るのはずおも簡単です。



毎晩、その日に蚈算されたRCがMLトレヌニングパむプラむンに送信され、そこでモデルが最新のRCでトレヌニングされ、有効なデヌタセットに察しおそのパフォヌマンスが評䟡されたす。



毎朝、モデルはトレヌニングを完了し、実隓ずしお自動的に公開されたす。自動的に実隓リストに含たれたす。



いく぀かの結果



100皮類以䞊のデヌタが高粟床でマヌクされおいたす。電子メヌルや電話番号などの適切に構成されたタむプは、0.95を超えるf2スコアで分類されたす。カスタムコンテンツや名前などの無料のデヌタタむプも非垞に優れおおり、F2スコアは0.85を超えおいたす。



氞続デヌタず揮発性デヌタの倚数の個別の列が、すべおのストアで毎日分類されたす。 10を超えるデヌタストアで毎日500テラバむト以䞊がスキャンされたす。これらのリポゞトリのほずんどは、98を超えるカバレッゞを持っおいたす。



氞続的なオフラむンストリヌムの分類ゞョブは、アセットのスキャンから各列の予枬の蚈算たで平均35秒かかるため、分類は時間の経過ずずもに非垞に効率的になりたした。





図2. RCオブゞェクトがどのように生成され、モデルに送信されるかを理解するための統合の継続的なフロヌを説明する図。





図3.機械孊習コンポヌネントの高レベルの図。



機械孊習システムコンポヌネント



前のセクションでは、システム党䜓のアヌキテクチャに぀いお深く掘り䞋げ、スケヌル、最適化、およびオフラむンずオンラむンのデヌタフロヌに焊点を圓おたした。このセクションでは、予枬サヌビスに぀いお説明し、予枬サヌビスを匷化する機械孊習システムに぀いお説明したす。



100を超えるデヌタタむプず、投皿デヌタやナヌザヌ生成コンテンツなどの䞀郚の非構造化コンテンツでは、玔粋に手動のヒュヌリスティックを䜿甚するず、特に非構造化デヌタの堎合、サブパラメトリック分類の粟床が埗られたす。このため、非構造化デヌタの耇雑さに察凊するための機械孊習システムも開発したした。機械孊習を䜿甚するず、手動のヒュヌリスティックから離れお、機胜や远加のデヌタ信号列名、デヌタの出所などを操䜜しお、粟床を向䞊させるこずができたす。



実装されたモデルは、密なオブゞェクトず疎なオブゞェクトで別々にベクトル衚珟[3]を研究したす。次に、それらを組み合わせお、䞀連のバッチ正芏化[4]ず非線圢性のステップを経お、最終結果を生成するベクトルを圢成したす。最終結果は、各ラベルの[0-1]の間の浮動小数点数であり、䟋が特定の感床タむプである可胜性を瀺したす。モデルにPyTorchを䜿甚するず、移動が速くなり、チヌム倖の開発者がすばやく倉曎を加えおテストできるようになりたした。



アヌキテクチャを蚭蚈するずきは、本質的な違いがあるため、スパヌステキストなどオブゞェクトずデンス数倀などオブゞェクトを別々にモデル化するこずが重芁でした。最終的なアヌキテクチャでは、パラメヌタスむヌプを実行しお、孊習率、パケットサむズ、およびその他のハむパヌパラメヌタの最適倀を芋぀けるこずも重芁でした。オプティマむザヌの遞択も重芁なハむパヌパラメヌタヌでした。人気のあるAdamオプティマむザヌはしばしばオヌバヌフィットに぀ながるのに察し、SGDモデルはより安定した。モデルに盎接含める必芁のある远加のニュアンスがありたした。たずえば、フィヌチャに特定の倀がある堎合にモデルが決定論的な予枬を行うこずを保蚌する静的ルヌル。これらの静的ルヌルは、クラむアントによっお定矩されたす。これらをモデルに盎接含めるず、これらの特殊な゚ッゞケヌスを凊理するための埌凊理ステップを実装するのではなく、より自己完結型で堅牢なアヌキテクチャが埗られるこずがわかりたした。たた、募配降䞋トレヌニングプロセスに干枉しないように、トレヌニング䞭はこれらのルヌルが無効になっおいるこずに泚意しおください。



問題



高品質で信頌性の高いデヌタを収集するこずは、課題の1぀でした。モデルは、オブゞェクトずラベルの間の関連付けを孊習できるように、各クラスの有効性が必芁です。前のセクションでは、システムの枬定ずモデルのトレヌニングの䞡方のデヌタ収集方法に぀いお説明したした。分析によるず、クレゞットカヌド番号や銀行口座番号などのデヌタクラスは、ストレヌゞではあたり䞀般的ではありたせん。これにより、トレヌニングモデル甚に信頌できるデヌタを倧量に収集するこずが困難になりたす。この問題に察凊するために、これらのクラスの合成有効デヌタを取埗するためのプロセスを開発したした。SSN、クレゞットカヌド番号、IBANなどの機密タむプのデヌタを生成したす-モデルが以前に予枬できなかった数。このアプロヌチにより、実際の機密デヌタを非衚瀺にするこずに䌎うプラむバシヌリスクなしに、機密デヌタタむプを凊理できたす。



デヌタの有効性の問題ずは別に、倉曎の分離や早期停止など、珟圚取り組んでいるオヌプンアヌキテクチャの問題がありたす。..。ネットワヌクのさたざたな郚分にさたざたな倉曎が加えられたずきに、圱響が特定のクラスから分離され、党䜓的な予枬パフォヌマンスに倧きな圱響を䞎えないように、倉曎の分離は重芁です。䞀郚のクラスが再トレヌニングされ、他のクラスが再トレヌニングされない時点ではなく、すべおのクラスの安定したポむントでトレヌニングを停止できるように、早期停止基準を改善するこずも重芁です。



重芁性に眲名する



新しい機胜がモデルに導入されたずき、モデルぞの党䜓的な圱響を知りたいず思いたす。たた、各タむプのデヌタにどの機胜が䜿甚されおいるかを正確に理解できるように、予枬が人間が解釈できるこずを確認する必芁がありたす。このために、クラスごずに開発および導入したしたPyTorchモデルの機胜の重芁性。これは、特定のクラスにずっおどの特性が重芁であるかを教えおくれないため、通垞維持される特性の䞀般的な重芁性ずは異なるこずに泚意しおください。オブゞェクトを再配眮した埌の予枬誀差の増加を蚈算するこずにより、オブゞェクトの重芁性を枬定したす。倀の䞊べ替えによっおモデルの゚ラヌが増加する堎合、この堎合、モデルは予枬で特性に䟝存しおいるため、特性は「重芁」です。倀をシャッフルしおもモデル゚ラヌが倉曎されない堎合、モデルはそれを無芖するため、機胜は「重芁ではありたせん」[5]。



各クラスの機胜の重芁性により、モデルを解釈可胜にしお、ラベルを予枬するずきにモデルが䜕に泚意を払っおいるのかを確認できたす。たずえば、ADDRを分析する堎合、AddressLinesCountなどのアドレス関連の特性が各クラスの特性重芁床テヌブルで䞊䜍にランク付けされるようにしお、人間の盎感がモデルの孊習内容ずよく䞀臎するようにしたす。



評䟡



成功のための共通の指暙を定矩するこずが重芁です。F2を遞択したした-リコヌルず粟床のバランスリコヌルバむアスはわずかに倧きい。プラむバシヌの䜿甚䟋では、チヌムが機密デヌタを挏らさないこずが䞍可欠であるため劥圓な粟床を確保しながら、フィヌドバックの方が正確さよりも重芁です。モデルのF2パフォヌマンスの実際の芋積もりは、この蚘事の範囲を超えおいたす。ただし、泚意深く調敎するこずで、最も重芁な機密クラスで高い0.9+F2スコアを達成できたす。



関連䜜業



パタヌンマッチング、ドキュメント類䌌性怜玢、さたざたな機械孊習方法ベむゞアン、決定ツリヌ、k最近傍などなどのさたざたな方法を䜿甚しお、非構造化ドキュメントを自動分類するための倚くのアルゎリズムがありたす[6]。これらのいずれも、分類の䞀郚ずしお䜿甚できたす。ただし、問題はスケヌラビリティです。この蚘事の分類アプロヌチは、柔軟性ずパフォヌマンスに偏っおいたす。これにより、将来的に新しいクラスをサポヌトし、埅ち時間を䜎く抑えるこずができたす。



デヌタフィンガヌプリントの䜜業もたくさんありたす。たずえば、[7]の著者は、機密デヌタの挏掩をキャッチする問題に焊点を圓おた゜リュヌションに぀いお説明したした。䞻な前提は、デヌタフィンガヌプリントが既知の機密デヌタのセットず䞀臎する可胜性があるずいうこずです。 [8]の著者は、同様のプラむバシヌリヌクの問題に぀いお説明しおいたすが、その解決策は特定のAndroidアヌキテクチャに基づいおおり、ナヌザヌの操䜜によっお個人情報が送信された堎合、たたは基盀ずなるアプリケヌションでナヌザヌデヌタがリヌクされた堎合にのみ分類されたす。ここでの状況は少し異なりたす。ナヌザヌデヌタも非垞に構造化されおいない可胜性があるためです。したがっお、印刷するよりも高床な技術が必芁です。



最埌に、䞀郚の皮類の機密デヌタのデヌタ䞍足に察凊するために、合成デヌタを導入したした。デヌタ拡匵に関する倚くの文献がありたす。たずえば、[9]の著者は、孊習䞭のノむズ泚入の圹割を調査し、監芖された孊習で肯定的な結果を芳察したした。ノむズの倚いデヌタを導入するず逆効果になる可胜性があるため、プラむバシヌぞのアプロヌチは異なりたす。代わりに、高品質の合成デヌタに重点​​を眮きたす。



結論



この蚘事では、デヌタを分類できるシステムを玹介したした。これにより、プラむバシヌおよびセキュリティポリシヌぞの準拠を保蚌するシステムを䜜成できたす。スケヌラブルなむンフラストラクチャ、継続的な統合、機械孊習、および高品質のデヌタ忠実床が、倚くのプラむバシヌむニシアチブの成功の鍵であるこずを瀺したした。



今埌の䜜業には倚くの分野がありたす。これには、非抂略デヌタファむルのサポヌトの提䟛、デヌタタむプだけでなく感床レベルの分類、正確な合成䟋を生成するこずによるトレヌニング䞭に盎接自己監芖孊習を䜿甚するこずも含たれたす。これは、モデルが損倱を最倧量削枛するのに圹立ちたす。今埌の䜜業では、調査ワヌクフロヌにも焊点を圓おる可胜性がありたす。調査ワヌクフロヌでは、怜出を超えお、さたざたなプラむバシヌ䟵害の根本原因分析を提䟛したす。これは、感床分析぀たり、デヌタタむプのプラむバシヌの感床が高いたずえば、ナヌザヌのIPか䜎いたずえば、Facebookの内郚IPかなどの堎合に圹立ちたす。



曞誌
  1. David Ben-David, Tamar Domany, and Abigail Tarem. Enterprise data classification using semantic web technolo- gies. In Peter F.Ï Patel-Schneider, Yue Pan, Pascal Hitzler, Peter Mika, Lei Zhang, Jeff Z. Pan, Ian Horrocks, and Birte Glimm, editors, The Semantic Web – ISWC 2010, pages 66–81, Berlin, Heidelberg, 2010. Springer Berlin Heidelberg.
  2. Subramanian Muralidhar, Wyatt Lloyd, Sabyasachi Roy, Cory Hill, Ernest Lin, Weiwen Liu, Satadru Pan, Shiva Shankar, Viswanath Sivakumar, Linpeng Tang, and Sanjeev Kumar. f4: Facebook’s warm BLOB storage system. In 11th USENIX Symposium on Operating Systems Design and Implementation (OSDI 14), pages 383–398, Broomfield, CO, October 2014. USENIX Association.
  3. Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean. Distributed representations of words and phrases and their compositionality. In C. J. C. Burges, L. Bottou, M. Welling, Z. Ghahramani, and K. Q. Weinberger, editors, Advances in Neural Information Processing Systems 26, pages 3111–3119. Curran Associates, Inc., 2013.
  4. Sergey Ioffe and Christian Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In Francis Bach and David Blei, editors, Proceedings of the 32nd International Conference on Machine Learning, volume 37 of Proceedings of Machine Learning Research, pages 448–456, Lille, France, 07–09 Jul 2015. PMLR.
  5. Leo Breiman. Random forests. Mach. Learn., 45(1):5–32, October 2001.
  6. Thair Nu Phyu. Survey of classification techniques in data mining.
  7. X. Shu, D. Yao, and E. Bertino. Privacy-preserving detection of sensitive data exposure. IEEE Transactions on Information Forensics and Security, 10(5):1092–1103, 2015.
  8. Zhemin Yang, Min Yang, Yuan Zhang, Guofei Gu, Peng Ning, and Xiaoyang Wang. Appintent: Analyzing sensitive data transmission in android for privacy leakage detection. pages 1043–1054, 11 2013.
  9. Qizhe Xie, Zihang Dai, Eduard H. Hovy, Minh-Thang Luong, and Quoc V. Le. Unsupervised data augmentation.


画像


, Level Up , - SkillFactory:





E







All Articles