配列内のマイノリティ オブジェクトの数が不十分な ML の配列バランス

ML (機械学習) を使用してプロセスをモデル化する場合、最も骨の折れるタスクの 1 つは、高品質の特性を持つモデルを作成するのに十分な量のデータ配列を作成することです。データが足りない場合は?





クライアントから銀行に提供された財務諸表を操作する可能性を推定する数学的モデルを作成するタスクの 1 つとして、教師によるモデルのトレーニングにはデータが不十分であるという問題が修正されました。配列の対象として四半期財務報告 (FO) が選択されました。配列は数千のオブジェクトで構成されており、これで十分です。問題は、ターゲット変数の値の形成中に発生しました。アナリストは、財務報告の改ざんが証明された 20 件のみを特定しました。これは、数千のオブジェクトの配列としては非常に少ない数です。配列がランダムに分割されている場合 (この場合は 5 分割)、交差検証関数を使用すると、次の確率が高くなります。FO 操作の実績のあるケースで、フォールドのいずれにもオブジェクトがないこと。この場合、交差検証機能は役に立たず、モデルのトレーニング プロセスはエラーで終了します。  





一見すると、この問題の解決策は「インダーサンプリング」メソッドを使用することにあります。その本質は、FD 操作の事実が証明されているオブジェクトを配列に複製することです。結局のところ、インダーサンプリング法を使用することで交差検証の問題は解決されましたが、許容できる品質メトリクスでモデルを作成することはできませんでした。少数派クラスと多数派クラスのオブジェクトの数が数桁異なる場合、「インダーサンプリング」方法の使用は賢明ではないと結論付けられました。私たちの場合、duplicate メソッドは配列内に多数のオブジェクトを作成し、それらは親の完全なコピーです。この場合、配列はその一意性を失い、そのようなサンプルでのトレーニングはモデルの過剰適合につながります。この事実の証拠は、テスト サンプルのモデルの品質指標によって示されます。





サンプル内のオブジェクトの数に応じた、テスト サンプルとトレーニング サンプルの ROC_AUC メトリクス値のグラフ:





テスト サンプルで取得された ROC_AUC メトリックの最大値は 0.55 に近づきますが、この場合の結果は満足のいくものではありません。また、サンプル内のオブジェクトが増えると、ROC_AUC メトリックの値が低下します。これは、モデルが操作に適していないことを示しています。





行われた作業の結果、配列内のマイノリティ オブジェクトに類似したオブジェクトをパラメータに関して検索し、これらのオブジェクトをマイノリティ クラスに転送するメソッドを作成することが決定されました。メソッドはモデルの作成に参加した配列に対して実装されているため、メソッドの説明は省略されたバージョンで提供されます。





, «» « ». , , 20% . , 25% , , .     . , . 8 – . T/SQL :





PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY “PARAMETER”) OVER (PARTITION BY “CLIENT”)
      
      



8 , 8 .





():





= ( – _Me/_Me) *100;





= ( – _Me/ _Me) *100;





= | - |;





90% , , . 20 330. , .





ROC_AUC :





ROC_AUC, 0,84 . ROC_AUC , , .





サンプル内の少数派クラスと多数派クラスの一定のバランスを実現するには、imblearn ライブラリの SMOTE または ASMO アルゴリズムを使用できます。





どちらのアルゴリズムも「最近傍」を検索します。少数派クラスで、パラメーター内のすべてのオブジェクトがこのクラスの代表であるという確信がある場合は、このような方法を使用することをお勧めします。私たちの場合、オブジェクトはアナリストの判断に基づいて少数派クラスに分類され、開発されたアルゴリズムに基づいてサンプルのバランスをとる過程で、オブジェクトのパラメーターの点で最も顕著なものであることが判明しました彼らを少数派クラスに割り当てるための代表者。








All Articles