こんにちは、Habr!
Reksoftは、「機械学習における機能の選択」という記事をロシア語に翻訳しました。トピックに無関心ではないすべての人に役立つことを願っています。
現実の世界では、データはビジネス顧客が時々考えるほど常にクリーンであるとは限りません。そのため、データマイニングとデータラングリングが求められています。これは、人間が識別できないクエリ構造データの欠落している意味とパターンを識別するのに役立ちます。機械学習は、これらのパターンを見つけて使用し、検出されたデータ接続を使用して結果を予測するのに役立ちます。
アルゴリズムを理解するには、データ内のすべての変数を調べて、それらの変数が何を表しているのかを理解する必要があります。結果の根拠はデータの理解に基づいているため、これは重要です。データに5つまたは50の変数が含まれている場合は、それらすべてを調べることができます。それらが200個ある場合はどうなりますか?そうすると、個々の変数を調べるのに十分な時間がないだけです。さらに、一部のアルゴリズムはカテゴリデータに対して機能しないため、モデルに追加するには、すべてのカテゴリ列を定量化する必要があります(定量的に見える場合がありますが、メトリックはカテゴリであることを示します)。したがって、変数の数が増え、約500個あります。次元の削減がその答えだと思うかもしれません。寸法縮小アルゴリズムは、パラメーターの数を減らしますしかし、解釈可能性に悪影響を及ぼします。残りの部分を理解し、解釈しやすくしながら、特性を排除する他の手法がある場合はどうなりますか?
分析が回帰に基づいているか分類に基づいているかによって、機能選択アルゴリズムは異なる場合がありますが、それらの実装の主な考え方は同じです。
強く相関する変数
相互に高度に相関する変数はモデルに同じ情報を提供するため、分析にすべてを使用する必要はありません。たとえば、データセットに「オンライン時間」と「使用済みトラフィック」の属性が含まれている場合、それらはある程度相関していると想定でき、偏りのないデータのサンプルを選択しても強い相関が見られます。この場合、これらの変数の1つだけがモデルに必要です。両方を使用すると、モデルがオーバーフィットし、1つの特定の機能に偏ります。
P値
, , — . p-, . , p-, - , , , , (target).
— , . , , , . , , . . p-, . , , ( ).
, . . ( ), . p- . .
RFE / . , « » , ; ( 200-400), , - , . RFE . . . , RFE , ( , , , ).
, ( p-) ( , ). , , Random Forest, LightGBM XG Boost, , « ». , .
(bias) (variance). , (overfit) . , . , . ! :
L1 — : (.. ). , , , (.. , ).
L2 — Ridge: Ridge . Ridge , .
Ridge , , , Elastic-Net.
, : . — , , , .
! !