InfoWatch TrafficMonitorが機胜しない蚀語分析の3぀のクゞラ

画像



こんにちは今日は、蚀語孊がDLPシステムの䜜業にどのように統合され、悪意のある攻撃から重芁なデヌタを保護するのにどのように圹立぀かに぀いお説明したす。



最近、䌁業が機密情報の挏掩からデヌタを保護する必芁性が倧幅に高たっおいたす。埓業員の遠隔䜜業モヌドぞの移行により、情報セキュリティの分野でサむバヌ攻撃ず犯眪が倧幅に増加したした。アナリストの報告によるず、2020幎の最初の3分の1で、ロシア䌁業からの機密情報の挏掩数は38増加し、この傟向は継続しおいたす。



原則ずしお、法的文曞、財務曞類、埓業員やクラむアントの個人デヌタなどが攻撃されおいたす。機密デヌタを䟵入者から保護するために、䌁業は情報挏えいを防ぐためにDLPデヌタ損倱防止システムをむンストヌルしたす。



コンテンツ分析は違反を怜出するためにトラフィックをフィルタリングするための䞍倉の基瀎であり、テクノロゞヌの品質が補品自䜓の品質を倧きく巊右するため、蚀語分析テクノロゞヌは倚くのDLPシステムの䜜業に深く統合されおいたす。



蚀語分析仕組み



蚀語分析テクノロゞヌを䜿甚するず、トピックで発生した甚語ずその組み合わせに基づいお、トピックず分析された情報が機密であるかどうかを自動的に刀断できたす。



たず、ドキュメントの初期分析を行いたす。顧客䌁業が機密で保護する必芁のあるドキュメントの量ず内容を決定した埌保護された情報のカテゎリごずに少なくずも10のドキュメントのサンプルがあるこずが望たしい。顧客が提䟛しなければならない文曞を理解しおいない堎合は、顧客の組織で採甚されおいる制限された情報のリストに焊点を圓おるこずができたす、蚀語孊者は甚語を匷調したす-特定の業界に特城的で、テキストの詳现を指定する単語たたはフレヌズ。ここで非垞に重芁なのは、この甚語が1぀の業界の文曞のテキストに最も頻繁に芋られ、別の業界ではめったに芋られないこずですたずえば、銀行セクタヌの堎合、䞀般的な甚語は「珟金残高」、「決枈および珟金サヌビス」たたは「預金」です。



-さらに、甚語は分類されたす。カテゎリの数は決定論的ではありたせんが、遞択するカテゎリが倚いほど、分類は䞍均䞀になりたす。甚語を䞀般的な抂念グルヌプに分類しお、情報をより明確に敎理できるようにしたす。



甚語を分類するずき、蚀語孊者はそれを「特城的」ず定矩するこずがありたす。特城的な甚語には、入力されたカテゎリにのみ含たれ、他のどのカテゎリにも含たれない甚語が含たれたす。傍受されたテキストでそのような甚語が1぀でも芋぀かった堎合、このテキストは自動的にこの甚語が配眮されおいるカテゎリに属したす。



䞀般に、カテゎリの詳现に応じお、カテゎリ内の3぀の甚語システムがテキストを機密ずしお怜出したずきに怜出される非特性甚語の最小数から数千たでの甚語が存圚する可胜性がありたす。これが特城的な甚語たずえば、「ドラッグ」、「テロリズム」などのみで構成されるカテゎリである堎合、カテゎリには数千の甚語が含たれる可胜性がありたす。カテゎリが特城のない甚語で構成されおいる堎合原則ずしお、これらは䌚瀟の文曞に基づくカテゎリ人事、䌚蚈、法埋情報です、甚語の数を数十3から50に制限するこずをお勧めしたす。



画像



-次に、蚀語孊者はカテゎリをコンテンツフィルタリングデヌタベヌスBCFに入力したす、これに基づいお蚀語分析が行われたす。コンテンツフィルタリングベヌスは、カテゎリず甚語のリストを含む階局構造の蟞曞です。



BKFは、分析された情報の䞻題分垃が発生する基準ずなる分類子ずしお機胜したす。



特城的でない甚語をBCFに远加する堎合、それらには重みが割り圓おられたす-1から10たでの数倀デフォルトでは、カテゎリを䜜成するずきに、重みは5に蚭定されたす。カテゎリ内の甚語の重みの倀は、テキスト内の甚語の䜿甚頻床の比率に比䟋する必芁があり、甚語の盞互の䜿甚頻床です-BCFに含たれおいないテキスト内の単語に察するそれらの頻床は重芁ではありたせん。たずえば、BCFカテゎリの1぀にある堎合「glokaya」、「kuzdra」、「shtekto」ずいう甚語を導入し、同じ重みを蚭定したす10たたは1の重みであるかどうかは関係ありたせん。その埌、「Glokaya kuzdra shtekoが偎面をバンブルし、bokrenkaをカヌルしたす」ずいうテキストが関連性1で怜出されたす。転送されたテキストでは、「glokaya」ず「kuzdra」ずいう単語が10回衚瀺され、「shteko」-100回衚瀺されるず、すべおの甚語で同じ重みを持぀カテゎリテキストの関連性が䜎䞋し、玄0.69になりたす。この堎合、「gloka」ず「kuzdra」ずいう甚語の重みを1に蚭定し、「shteko」ずいう甚語の重みを10に蚭定するのが劥圓です。そうするず、送信されるテキストの関連性は1になりたす。このような厳密な比率を垞に芳察できるずは限らないこずは明らかですが、努力する必芁がありたす。



特定のカテゎリに察するテキストの関連性を刀断するために、埓来の怜玢モデルの1぀であるベクトルモデルが䜿甚されたす。これは、さたざたな蚀語オブゞェクトを操䜜するためのかなり䞀般的な方法です。



画像



䞻なアむデアは次のように説明できたす。さたざたな甚語で定矩された特定のスペヌスがありたすこの堎合、これはテキスト情報を含むシステムによっおむンタヌセプトされたドキュメントです。傍受されたドキュメント甚にベクトルが䜜成されたす。ベクトルの各座暙の倀は、察応する甚語がこのドキュメントで䜿甚された回数になりたす。 BKFカテゎリごずに同様のベクトルが䜜成されたす。ベクトルの次元は、分析されたすべおのテキストで同じであり、BKFの単語数ず同じです。



次に、ベクトルの関連性の倀は、ドット積ずノルムを䜿甚しお、ベクトル間の角床のコサむンずしお蚈算できたす。



画像



むンタヌセプトされたドキュメントずBKFの甚語のコサむン類䌌床は、0から1の範囲で倉化したす。この倀が倧きいほど、ドキュメントはカテゎリごずに類䌌しおいたす。



コンテンツフィルタリングベヌスに基づく蚀語分析のテクノロゞヌには、他のテキスト分類テクノロゞヌInfoWatch蚀語孊者がドキュメントを分析するためにも䜿甚したすが、埌で詳しく説明したすに比べお倚くの利点がありたす。



BKFの䞻な特城は、その「柔軟性」ず特定の䌁業のニヌズに合わせおベヌスをカスタマむズする機胜です。蚀語孊者はBKFの内容を手動で補充および調敎し、それによっお各顧客のテクノロゞヌを埮調敎したす。



BKFに基づく蚀語分析のテクノロゞヌにより、文字倉換、タむプミスの存圚、圢態を考慮しお、必芁な甚語やフレヌズを芋぀けるこずができたす。たずえば、特定の甚語「トランスポヌトリヌス」では、システムは「トランスポヌトリヌス」ず「トランスポヌトリヌス」の䞡方に反応したす。 e。この甚語の屈折ずミスプリントのすべおの可胜な組み合わせに。怜玢は圢態孊的蟞曞に基づいお実行されたすロシア語の堎合はA.A. Zaliznyakの蟞曞であり、倖囜語の堎合は個別に䜜成された蟞曞です。タむプミス怜出噚は、圢態孊的蟞曞にある甚語を修正したせん。これは、単語ぞの反応を回避するのに圹立ちたす。Domerau-Levenshteinの距離1は1に等しくなりたす。



InfoWatchには、業界蟞曞の倧芏暡なデヌタベヌスがありたす。スペヌスから゚ネルギヌたで、さたざたなビゞネス分野向けにBKFを開発したした。たた、個々の䌁業の特定の目的のために蚭蚈された、プロファむルの狭いベヌスたずえば、むスラム教やC ++、Javaなどの゜ヌスコヌドを含むもありたす。ロシア語に加えお、33の倖囜語で95のBKFがあり、それらの倚くの圢態のサポヌトを考慮に入れおいるこずも付け加える䟡倀がありたす。



Autolinguist暙準ドキュメントの迅速な保護



原則ずしお、個々の䌁業のワヌクフロヌは、倧きな倉動性に違いはありたせん。各郚門では、䞻題ず語圙の内容が類䌌しおいる暙準のドキュメントが䜿甚されたす。



InfoWatchの「歊噚庫」でそのようなドキュメントを保護および分類するために、テキストデヌタ分析甚の別のツヌルである「Autolinguist」がありたす。



名前が瀺すように、このテクノロゞヌを䜿甚するず、手動分析に頌るこずなく、䞀般的なドキュメントを事前定矩されたカテゎリに自動的に分類できたす。



BKFの䜜成のフレヌムワヌク内でのドキュメントの分析は、通垞、長くお゚ネルギヌを消費する䜜業です平均しお、蚀語孊者が甚語を匷調衚瀺し、カテゎリを䜜成し、誀怜知ず誀怜知の応答を排陀するためにさらに䜜業するのに2〜5日かかりたす。自動蚀語孊者は、テキストの分類を蚭定するプロセスを倧幅にスピヌドアップできたす。



分類噚は、Liblinear機械孊習ラむブラリ、特にロゞスティック回垰アルゎリズム2を䜿甚したす。これにより、特定のカテゎリに属する​​テキストドキュメントの確率を取埗できたす。



ナヌザヌは、「オヌトリンギスト」の䜜業を自分でカスタマむズする機䌚がありたす。以前にドキュメントのトレヌニングコレクションをロヌドし、分類子をトレヌニングした埌、ナヌザヌは新しいカテゎリを远加したり、ドキュメントベヌスのコンテンツを調敎したりできたす。



テキストオブゞェクトregexが問題ではなく、解決策である堎合



必芁な情報を分析および怜出するためのもう1぀の匷力なツヌルは、テキストオブゞェクトです。これは、通垞の匏ご存知のずおり、ほずんどすべおの怜玢条件を指定できる非垞に柔軟で䟿利なツヌルの䜿甚に基づくテクノロゞヌであり、固定された倖郚でデヌタを保護するために䜿甚されたす。たずえば、クレゞットカヌド番号、銀行口座の詳现、電子メヌルアドレスなどを提瀺したす。



画像



テキストオブゞェクトには、通垞の衚珟たたは文字列単語たたはフレヌズ。この堎合、スペルや圢態の特殊性を考慮せずに、単語ず文字列が完党に䞀臎するものを怜玢したすの1぀以䞊のパタヌンを含めるこずができたす。



技術の゜ヌスコヌドを倉曎せずに、顧客のニヌズを考慮しお、芋぀かったテキストたたは番号ず蚭定の組み合わせを怜蚌するために、怜蚌機胜はLuaで蚘述されおいたす。



SWIFTシステムで囜際銀行コヌドを怜出するための怜蚌関数の䟋を瀺したす。



画像



この関数は、「SWIFT」プレフィックスを削陀し、区切り文字なしで残りのテキストを怜蚌しお返したす。



事前にむンストヌルされた䞀連のテキストオブゞェクトロシア語、ベラルヌシ語、カザフ語、ベトナム語、マレヌ語、アラビア語、およびほがすべおのビゞネス分野のデヌタをカバヌする倚くの囜際的なオブゞェクトに加えお、ナヌザヌは特定のビゞネスに固有の独自のテキストオブゞェクトを䜜成する機䌚がありたす。たずえば、茞送組織が車䞡のVIN番号を制埡するこず、および軍事構造軍人のIDの番号が重芁になりたす。



画像



友人の皆さん、この蚘事から、InfoWatchトラフィックモニタヌシステム内の蚀語分析の䞻な耇雑さに぀いお孊びたした。コンテンツフィルタリングデヌタベヌスずその基本-甚語ずカテゎリ。兞型的なテキストず、テンプレヌトデヌタの怜出に䜿甚されるテキストオブゞェクトを個別に分類できる「Autolinguist」テクノロゞヌ。



すでに持っおいる技術ず開発の効率が蚌明されおいるにもかかわらず、私たちはセマンティック分析を積極的に開発し続け、既存のBKFずテキストオブゞェクトを定期的に補充し、新しいBKFずテキストオブゞェクトを䜜成し、蚀語技術の範囲を拡倧しおいたす。将来的には、すべおの革新ず興味深い「チップ」に぀いお間違いなく曞きたす。



同僚の蚀語孊者、コメント、難しい質問をしたり、圹立぀リンクを投げたり、あなたの経隓を共有したりしおください䞀緒に䞖界をより良い堎所にしたしょう



著者 Volobrinskaya Valeriavaleria_volob






1. , , , , .

2. , .



All Articles