🚏 👩🏻‍✈️ 🛁 セキュリティとプライバシーのためのスケーラブルなデータ分類 🙆🏾 🧥 👽

コンテンツに基づいてデータを分類することは、未解決のタスクです。従来のデータ損失防止（DLP）システムは、関連データのフィンガープリントを作成し、フィンガープリントのエンドポイントを監視することで、この問題を解決します。 Facebookには絶えず変化するデータ資産が多数あるため、このアプローチは拡張に失敗するだけでなく、データの場所を特定するのにも効果的ではありません。この記事は、Facebookで機密性の高いセマンティックタイプを大規模に検出し、ストレージとアクセス制御を自動的に適用するために構築されたエンドツーエンドシステムについて説明しています。

ここで説明するアプローチは、データ信号、機械学習、および従来のフィンガープリント技術を組み込んでFacebook上のすべてのデータを表示および分類することにより、この問題に対処しようとする最初のエンドツーエンドのプライバシーシステムです。説明したシステムは実稼働環境で動作し、数十のストレージで大量のデータリソースを処理しながら、さまざまなプライバシークラスで平均F2スコア0.9以上に達します。機械学習に基づくセキュリティとプライバシーのためのスケーラブルなデータ分類に関するFacebookのArXiv投稿の翻訳を紹介します。

前書き

今日の組織は、さまざまな形式や場所で大量のデータを収集して保存し[1]、データはさまざまな場所で消費され、場合によっては何度もコピーまたはキャッシュされます。その結果、貴重で機密性の高いビジネス情報が多くの企業データウェアハウスに分散します。組織が特定の法的要件または規制要件を遵守する必要がある場合、たとえば、民事訴訟の規制を遵守する必要がある場合、関連データの場所を収集する必要があります。プライバシーステートメントに、許可されていないエンティティと個人情報を共有するときに組織がすべてのソーシャルセキュリティ番号（SSN）をマスクする必要があると記載されている場合、自然な最初のステップは、組織全体のデータストアですべてのSSNを検索することです。このような状況では、データ分類が重要になります[1]。分類システムにより、組織は、アクセス制御ポリシーの有効化、データの保持など、プライバシーおよびセキュリティポリシーを自動的に適用できます。 Facebookは、さまざまなデータ信号、スケーラブルなシステムアーキテクチャ、および機械学習を使用して機密性の高いセマンティックデータタイプを検出する、Facebookで構築したシステムを導入しています。機密性の高いセマンティックデータタイプを検出するためのスケーラブルなシステムアーキテクチャとマシンラーニング。機密性の高いセマンティックデータタイプを検出するためのスケーラブルなシステムアーキテクチャとマシンラーニング。

データの検索と分類とは、必要なときに関連情報をすばやく効率的に取得できるように、データを検索してラベルを付けることです。現在のプロセスは本質的により手動であり、関連する法律または規制を調べ、機密と見なすべき情報の種類と機密性のレベルを決定し、適切なクラスの構築と分類のポリシーを決定することで構成されています[1]。データ損失防止（DLP）システムの後、データのフィンガープリントが作成され、エンドポイントのフィンガープリントがダウンストリームで監視されます。大量の資産とペタバイトのデータがある倉庫を扱う場合、このアプローチは単純に拡張できません。

私たちの目標は、データの種類や形式に追加の制約を加えることなく、永続的なユーザーデータと揮発性のユーザーデータの両方に対応できるデータ分類システムを構築することです。これは野心的な目標であり、当然のことながら困難を伴います。データレコードは数千文字の長さにすることができます。

図1.オンラインおよびオフラインの予測のストリーム

したがって、共通の機能セットを使用して効果的に表現する必要があります。これらの機能を組み合わせて簡単に移動できます。これらの機能は、正確な分類を提供するだけでなく、将来新しいデータタイプを簡単に追加および検出するための柔軟性と拡張性も提供する必要があります。次に、大きなスタンドアロンテーブルを処理する必要があります。永続データは、数ペタバイトのサイズのテーブルに保存できます。これにより、スキャン速度が低下する可能性があります。第三に、揮発性データの厳密なSLA分類に準拠する必要があります。これにより、システムは非常に効率的、高速、正確になります。最後に、リアルタイムで分類を実行するために、またインターネットの使用例のために、揮発性データの低遅延データ分類を提供する必要があります。

この記事では、上記の問題にどのように対処したかを説明し、共通の機能セットに基づいてすべてのタイプ、形式、およびソースのデータ項目を分類する高速でスケーラブルな分類システムを紹介します。システムアーキテクチャを拡張し、カスタムの機械学習モデルを構築して、オフラインデータとオンラインデータをすばやく分類しました。この記事は次のように構成されています。セクション2では、システムの一般的な設計を紹介します。セクション3では、機械学習システムの各部分について説明します。セクション4と5では、関連する作業について説明し、今後の作業の方向性について概説します。

建築

Facebook規模の永続的なデータとデータの問題をオンラインで処理するために、分類システムには2つの別個のストリームがあり、これについて詳しく説明します。

永続データ

最初に、システムはさまざまなFacebook情報資産について学習する必要があります。ウェアハウスごとに、このデータを含むデータセンター、このデータを含むシステム、特定のデータウェアハウスにある資産など、いくつかの基本情報が収集されます。これにより、メタデータのカタログが形成され、他のエンジニアが使用するクライアントやリソースに過負荷をかけることなく、システムがデータを効率的に取得できるようになります。

このメタデータのカタログは、スキャンされたすべてのアセットの信頼できるソースを提供し、さまざまなアセットの状態を追跡できるようにします。この情報は、アセットの最後のスキャンが成功した時刻とその作成時刻、および以前にスキャンされた場合はそのアセットの過去のメモリとプロセッサの要件など、システムから収集されたデータと内部情報に基づいてスケジューリングに優先順位を付けるために使用されます。次に、データリソースごとに（リソースが使用可能になると）、リソースの実際のスキャンジョブが呼び出されます。

各ジョブは、各アセットで利用可能な最新のデータに対してBernoulliサンプルを実行するコンパイル済みバイナリです。アセットは個別の列に分割され、各列の分類結果は個別に処理されます。さらに、システムは列内の豊富なデータをスキャンします。 JSON、配列、エンコードされた構造、URL、ベース64のシリアル化されたデータなどがすべてスキャンされます。これにより、1つのテーブルに何千ものネストされた列をblobに含めることができるため、スキャンの実行時間が大幅に増加する可能性がありますjson。

分類システムは、データアセットで選択された行ごとに、コンテンツからフロートオブジェクトとテキストオブジェクトを抽出し、各オブジェクトをそれが取得された列に関連付けます。特徴抽出ステップの結果は、データ資産で見つかった各列のすべての特徴のマップです。

兆候は何ですか？

特性の概念が重要です。floatおよびtext特性の代わりに、各データリソースから直接フェッチされる生の文字列パターンを渡すことができます。さらに、機械学習モデルは、サンプルを概算しようとするだけの何百もの特徴計算ではなく、各サンプルで直接トレーニングできます。これにはいくつかの理由があります。

: , , . , . , , .
: . . , , .
: , . .

次に、機能は予測サービスに送信され、そこでルールベースの分類と機械学習を使用して各列のデータラベルを予測します。このサービスは、ルール分類子と機械学習の両方に依存しており、各予測オブジェクトから与えられた最適な予測を選択します。

ルール分類子は、計算と係数を使用して0から100の範囲でオブジェクトを正規化する手動ヒューリスティックです。そのデータに関連付けられたデータタイプと列名ごとにこのような初期スコアが生成されると、「拒否リスト」には分類されません。、ルール分類子は、すべてのデータタイプの中で最も高い正規化されたスコアを選択します。

分類が複雑なため、純粋に手動のヒューリスティックを使用すると、特に非構造化データの場合、分類の精度が低くなります。このため、ユーザーが生成したコンテンツや住所などの非構造化データの分類を処理するための機械学習システムを開発しました。機械学習により、手動のヒューリスティックから離れて、追加のデータ信号（列名、データの出所など）を適用できるようになり、検出精度が大幅に向上しました。後で、マシン学習アーキテクチャについて詳しく説明します。

予測サービスは、スキャンの時間と状態に関するメタデータとともに、各列の結果を保存します。このデータに依存するすべての消費者およびダウンストリームプロセスは、毎日公開されるデータセットからデータを読み取ることができます。このセットは、これらすべてのスキャンジョブの結果、またはデータカタログのリアルタイムAPIを集約します。公開された予測は、プライバシーおよびセキュリティポリシーを自動的に実施するための基盤です。

最後に、予測サービスがすべてのデータを書き込み、すべての予測が保存された後、データカタログAPIは、リソースのすべてのデータタイプの予測をリアルタイムで返すことができます。システムは毎日、各資産のすべての最新の予測を含むデータセットを公開します。

揮発性データ

上記のプロセスは永続的な資産向けに設計されていますが、非永続的なトラフィックも組織のデータの一部と見なされ、重要になる可能性があります。このため、システムは、変動するトラフィックのリアルタイム分類予測を生成するためのオンラインAPIを提供します。リアルタイム予測は、アウトバウンドトラフィック、マシン学習モデルのインバウンドトラフィック、および広告主データを分類するために広く使用されています。

APIは、ここで2つの主要な引数を取ります。グループ化キーと予測される生データです。このサービスは、上記と同じオブジェクト取得を実行し、同じキーに対してオブジェクトをグループ化します。これらの症状は、フェイルオーバー用の永続キャッシュでもサポートされています。グループ化キーごとに、サービスは、上記のプロセスに従って、予測サービスを呼び出す前に十分なサンプルを確認します。

最適化

ライブラリとホットストレージ読み取り最適化手法[2]を使用して、一部のリポジトリをスキャンし、同じリポジトリにアクセスする他のユーザーによる中断がないことを確認します。

非常に大きなテーブル（50ペタバイト以上）の場合、すべての最適化とメモリ効率にもかかわらず、システムはメモリが不足する前にすべてをスキャンして計算します。結局のところ、スキャンはメモリに完全に計算され、スキャン中には保存されません。大きなテーブルに構造化されていないデータのチャンクを含む数千の列が含まれている場合、テーブル全体の予測を行うときにメモリリソースが不足しているため、ジョブが失敗する可能性があります。これにより、カバレッジが減少します。これに対抗するために、システムが現在の負荷をどの程度適切に処理しているかを仲介するものとしてスキャン速度を使用するようにシステムを最適化しました。速度を予測メカニズムとして使用して、メモリの問題を確認し、機能マップをプロアクティブに計算します。ただし、使用するデータは通常より少なくなります。

データ信号

分類システムは、データからの信号と同じくらい優れています。ここでは、分類システムで使用されるすべての信号を見ていきます。

コンテンツベース：もちろん、最初で最も重要なシグナルはコンテンツです。Bernoulliサンプルは、スキャンするデータアセットごとに取得され、データコンテンツによる特徴の抽出が行われます。多くの兆候はコンテンツから来ています。特定のタイプのパターンが何回見られたかの計算を表す、任意の数のフロートが可能です。たとえば、サンプルで見られた電子メールの数の口の兆候や、サンプルで見られたエモティコンの数の指標がある場合があります。これらの特徴の計算は、さまざまなスキャンにわたって正規化および集計できます。
: , , . — . , , . , .
: , . . , .
— , , . , , , , . , . , .

重要な要素は、メトリックを測定するための厳密な方法です。分類改善の反復の主な指標は、各ラベルの精度と再現率であり、F2スコアが最も重要です。

これらのメトリックを計算するには、システム自体から独立しているが、システムと直接比較するために使用できる、データ資産にラベルを付けるための独立した方法が必要です。以下では、Facebookから基本的な真実を収集し、それを使用して分類システムをトレーニングする方法について説明します。

信頼できるデータの収集

以下にリストされている各ソースからの信頼できるデータを独自の表に蓄積します。各テーブルは、その特定のソースからの最新の観測値を集計する責任があります。各ソースにはデータ品質チェックがあり、各ソースの観測値が高品質であり、最新のデータタイプラベルが含まれていることを確認します。

ロギングプラットフォーム構成：beehiveテーブルの特定のフィールドには、特定のタイプに属するデータが入力されます。このデータの使用と配布は、信頼できるデータの信頼できるソースとして機能します。
: , , . , , .
, .
: Facebook . , , , . .
: , , , , . , .
: , . , , GPS.
: , , . .

有効なデータのすべての主要なソースを、このすべてのデータを含む1つのコーパスに結合します。有効性に関する最大の問題は、それがデータストアを代表していることを確認することです。そうしないと、分類エンジンがオーバーフィットする可能性があります。これとの戦いでは、上記のすべてのソースを使用して、モデルのトレーニングまたはメトリックの計算時にバランスを提供します。さらに、人間のマーケティング担当者は、ストア内のさまざまな列を均等に選択し、データに適切なラベルを付けて、有効な値のコレクションに偏りがないようにします。

継続的インテグレーション

迅速な反復と改善を確実にするには、システムパフォーマンスを常にリアルタイムで測定することが重要です。現在のシステムと比較して分類のすべての改善を測定できるため、戦術的にデータをターゲットにしてさらに改善することができます。ここでは、システムが有効なデータとともに提供されるフィードバックループをどのように完了するかを見ていきます。

スケジューリングシステムが信頼できるソースからタグ付けされたアセットを検出すると、2つのタスクをスケジュールします。 1つ目は、製造スキャナーを使用するため、製造機能を使用します。 2番目のタスクでは、最新の機能を備えた最新のビルドスキャナーを使用します。各タスクは、その出力を独自のテーブルに書き込み、分類結果とともにバージョンにフラグを付けます。

これは、リリース候補と生産モデルの分類結果をリアルタイムで比較する方法です。

データセットはRC機能とPROD機能を比較しますが、予測サービスのML分類エンジンの多くのバリエーションがログに記録されます。最新の構築された機械学習モデル、現在の生産モデル、および任意の実験モデル。同じアプローチにより、モデルのさまざまなバージョンを「スライス」して（ルール分類子に関係なく）、メトリックをリアルタイムで比較できます。 ML実験がいつ実稼働に入る準備ができているかを知るのはとても簡単です。

毎晩、その日に計算されたRCがMLトレーニングパイプラインに送信され、そこでモデルが最新のRCでトレーニングされ、有効なデータセットに対してそのパフォーマンスが評価されます。

毎朝、モデルはトレーニングを完了し、実験として自動的に公開されます。自動的に実験リストに含まれます。

いくつかの結果

100種類以上のデータが高精度でマークされています。電子メールや電話番号などの適切に構成されたタイプは、0.95を超えるf2スコアで分類されます。カスタムコンテンツや名前などの無料のデータタイプも非常に優れており、F2スコアは0.85を超えています。

永続データと揮発性データの多数の個別の列が、すべてのストアで毎日分類されます。 10を超えるデータストアで毎日500テラバイト以上がスキャンされます。これらのリポジトリのほとんどは、98％を超えるカバレッジを持っています。

永続的なオフラインストリームの分類ジョブは、アセットのスキャンから各列の予測の計算まで平均35秒かかるため、分類は時間の経過とともに非常に効率的になりました。

図：2. RCオブジェクトがどのように生成され、モデルに送信されるかを理解するための統合の継続的なフローを説明する図。

図3.機械学習コンポーネントの高レベルの図。

機械学習システムコンポーネント

前のセクションでは、システム全体のアーキテクチャについて深く掘り下げ、スケール、最適化、およびオフラインとオンラインのデータフローに焦点を当てました。このセクションでは、予測サービスについて説明し、予測サービスを強化する機械学習システムについて説明します。

100を超えるデータタイプと、投稿データやユーザー生成コンテンツなどの一部の非構造化コンテンツでは、純粋に手動のヒューリスティックを使用すると、特に非構造化データの場合、サブパラメトリック分類の精度が得られます。このため、非構造化データの複雑さに対処するための機械学習システムも開発しました。機械学習を使用すると、手動のヒューリスティックから離れて、機能や追加のデータ信号（列名、データの出所など）を操作して、精度を向上させることができます。

実装されたモデルは、密なオブジェクトと疎なオブジェクトで別々にベクトル表現[3]を研究します。次に、それらを組み合わせて、一連のバッチ正規化[4]と非線形性のステップを経て、最終結果を生成するベクトルを形成します。最終結果は、各ラベルの[0-1]の間の浮動小数点数であり、例が特定の感度タイプである可能性を示します。モデルにPyTorchを使用すると、移動が速くなり、チーム外の開発者がすばやく変更を加えてテストできるようになりました。

アーキテクチャを設計するときは、本質的な違いがあるため、スパース（テキストなど）オブジェクトとデンス（数値など）オブジェクトを別々にモデル化することが重要でした。最終的なアーキテクチャでは、パラメータスイープを実行して、学習率、パケットサイズ、およびその他のハイパーパラメータの最適値を見つけることも重要でした。オプティマイザーの選択も重要なハイパーパラメーターでした。人気のあるAdamオプティマイザーはしばしばオーバーフィットにつながるのに対し、SGDモデルはより安定した。モデルに直接含める必要のある追加のニュアンスがありました。たとえば、フィーチャに特定の値がある場合にモデルが決定論的な予測を行うことを保証する静的ルール。これらの静的ルールは、クライアントによって定義されます。これらをモデルに直接含めると、これらの特殊なエッジケースを処理するための後処理ステップを実装するのではなく、より自己完結型で堅牢なアーキテクチャが得られることがわかりました。また、勾配降下トレーニングプロセスに干渉しないように、トレーニング中はこれらのルールが無効になっていることに注意してください。

問題

高品質で信頼性の高いデータを収集することは、課題の1つでした。モデルは、オブジェクトとラベルの間の関連付けを学習できるように、各クラスの有効性が必要です。前のセクションでは、システムの測定とモデルのトレーニングの両方のデータ収集方法について説明しました。分析によると、クレジットカード番号や銀行口座番号などのデータクラスは、ストレージではあまり一般的ではありません。これにより、トレーニングモデル用に信頼できるデータを大量に収集することが困難になります。この問題に対処するために、これらのクラスの合成有効データを取得するためのプロセスを開発しました。SSN、クレジットカード番号、IBANなどの機密タイプのデータを生成します-モデルが以前に予測できなかった数。このアプローチにより、実際の機密データを非表示にすることに伴うプライバシーリスクなしに、機密データタイプを処理できます。

データの有効性の問題とは別に、変更の分離や早期停止など、現在取り組んでいるオープンアーキテクチャの問題があります。..。ネットワークのさまざまな部分にさまざまな変更が加えられたときに、影響が特定のクラスから分離され、全体的な予測パフォーマンスに大きな影響を与えないように、変更の分離は重要です。一部のクラスが再トレーニングされ、他のクラスが再トレーニングされない時点ではなく、すべてのクラスの安定したポイントでトレーニングを停止できるように、早期停止基準を改善することも重要です。

重要性に署名する

新しい機能がモデルに導入されたとき、モデルへの全体的な影響を知りたいと思います。また、各タイプのデータにどの機能が使用されているかを正確に理解できるように、予測が人間が解釈できることを確認する必要があります。このために、クラスごとに開発および導入しましたPyTorchモデルの機能の重要性。これは、特定のクラスにとってどの特性が重要であるかを教えてくれないため、通常維持される特性の一般的な重要性とは異なることに注意してください。オブジェクトを再配置した後の予測誤差の増加を計算することにより、オブジェクトの重要性を測定します。値の並べ替えによってモデルのエラーが増加する場合、この場合、モデルは予測で特性に依存しているため、特性は「重要」です。値をシャッフルしてもモデルエラーが変更されない場合、モデルはそれを無視するため、機能は「重要ではありません」[5]。

各クラスの機能の重要性により、モデルを解釈可能にして、ラベルを予測するときにモデルが何に注意を払っているのかを確認できます。たとえば、ADDRを分析する場合、AddressLinesCountなどのアドレス関連の特性が各クラスの特性重要度テーブルで上位にランク付けされるようにして、人間の直感がモデルの学習内容とよく一致するようにします。

評価

成功のための共通の指標を定義することが重要です。F2を選択しました-リコールと精度のバランス（リコールバイアスはわずかに大きい）。プライバシーの使用例では、チームが機密データを漏らさないことが不可欠であるため（妥当な精度を確保しながら）、フィードバックの方が正確さよりも重要です。モデルのF2パフォーマンスの実際の見積もりは、この記事の範囲を超えています。ただし、注意深く調整することで、最も重要な機密クラスで高い（0.9+）F2スコアを達成できます。

結論

この記事では、データを分類できるシステムを紹介しました。これにより、プライバシーおよびセキュリティポリシーへの準拠を保証するシステムを作成できます。スケーラブルなインフラストラクチャ、継続的な統合、機械学習、および高品質のデータ忠実度が、多くのプライバシーイニシアチブの成功の鍵であることを示しました。

今後の作業には多くの分野があります。これには、非概略データ（ファイル）のサポートの提供、データタイプだけでなく感度レベルの分類、正確な合成例を生成することによるトレーニング中に直接自己監視学習を使用することも含まれます。これは、モデルが損失を最大量削減するのに役立ちます。今後の作業では、調査ワークフローにも焦点を当てる可能性があります。調査ワークフローでは、検出を超えて、さまざまなプライバシー侵害の根本原因分析を提供します。これは、感度分析（つまり、データタイプのプライバシーの感度が高い（たとえば、ユーザーのIP）か低い（たとえば、Facebookの内部IP）か）などの場合に役立ちます。

書誌

David Ben-David, Tamar Domany, and Abigail Tarem. Enterprise data classification using semantic web technolo- gies. In Peter F.Ï Patel-Schneider, Yue Pan, Pascal Hitzler, Peter Mika, Lei Zhang, Jeff Z. Pan, Ian Horrocks, and Birte Glimm, editors, The Semantic Web – ISWC 2010, pages 66–81, Berlin, Heidelberg, 2010. Springer Berlin Heidelberg.
Subramanian Muralidhar, Wyatt Lloyd, Sabyasachi Roy, Cory Hill, Ernest Lin, Weiwen Liu, Satadru Pan, Shiva Shankar, Viswanath Sivakumar, Linpeng Tang, and Sanjeev Kumar. f4: Facebook’s warm BLOB storage system. In 11th USENIX Symposium on Operating Systems Design and Implementation (OSDI 14), pages 383–398, Broomfield, CO, October 2014. USENIX Association.
Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean. Distributed representations of words and phrases and their compositionality. In C. J. C. Burges, L. Bottou, M. Welling, Z. Ghahramani, and K. Q. Weinberger, editors, Advances in Neural Information Processing Systems 26, pages 3111–3119. Curran Associates, Inc., 2013.
Sergey Ioffe and Christian Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In Francis Bach and David Blei, editors, Proceedings of the 32nd International Conference on Machine Learning, volume 37 of Proceedings of Machine Learning Research, pages 448–456, Lille, France, 07–09 Jul 2015. PMLR.
Leo Breiman. Random forests. Mach. Learn., 45(1):5–32, October 2001.
Thair Nu Phyu. Survey of classification techniques in data mining.
X. Shu, D. Yao, and E. Bertino. Privacy-preserving detection of sensitive data exposure. IEEE Transactions on Information Forensics and Security, 10(5):1092–1103, 2015.
Zhemin Yang, Min Yang, Yuan Zhang, Guofei Gu, Peng Ning, and Xiaoyang Wang. Appintent: Analyzing sensitive data transmission in android for privacy leakage detection. pages 1043–1054, 11 2013.
Qizhe Xie, Zihang Dai, Eduard H. Hovy, Minh-Thang Luong, and Quoc V. Le. Unsupervised data augmentation.

, Level Up , - SkillFactory:

Data Science (12 )

Machine Learning (12 )

«Machine Learning Pro + Deep Learning» (20 )

« Machine Learning Data Science» (20 )

E

«Python -» (9 )

- (8 )

(9 )

DevOps (12 )

Java- (18 )

JavaScript (12 )

UX- (9 )

Web- (7 )

セキュリティとプライバシーのためのスケーラブルなデータ分類

前書き

建築