監視対象の学習問題に主成分法を適用する場合のリスクと警告

記事の翻訳は、機械学習の基礎コースの開始を見越して作成されました








高次元空間とその呪い



多次元になりがちな実際のデータセットを扱う場合、次元の呪いは深刻な問題です。フィーチャスペースの次元が大きくなると、構成の数が指数関数的に増加する可能性があり、その結果、観測の対象となる構成の数が減少します。



このような場合、主成分分析(PCA)が重要な役割を果たし、データセットの変動を可能な限り維持しながら、データを効果的にダウンサイジングします。



問題に飛び込む前に、主成分分析の本質を簡単に見てみましょう。



主成分法-定義



主成分分析の背後にある主な考え方は、データセットに存在する最大の多様性を維持しながら、相互に関連する多数の変数で構成されるデータセットの次元を縮小することです。



対称行列定義AXがであるm×nのマトリックス独立変数、mは列数であり、n個のデータ点の数です。行列Aは、次のように分解できます。 ここで、Dは対角行列、E列に配置されたAの固有ベクトルの行列です 主成分X



















固有ベクトルであるXX T固有ベクトル/主成分の方向が独立変数の変化に依存することを意味し、(X)が



主成分分析の無謀な適用が監督された学習問題の悩みの種であるのはなぜですか?



文献では、回帰や多重共線性の問題での主成分分析の使用について言及することがよくあります。ただし、主要コンポーネントでの回帰の使用に伴い、主要コンポーネントによる応答変数の説明可能性とその重要性の順序について多くの誤解がありました。



さまざまな記事や本で何度か遭遇する一般的な誤解は、主成分回帰を伴う監視された学習環境では、固有値が小さい独立変数の主成分が応答変数を説明する上で重要な役割を果たさないというものです。この記事の目的。応答変数を説明する上で、固有値が小さいコンポーネントは、固有値が大きい基本コンポーネントと同じくらい重要であるか、さらに重要である可能性があるという考え方です。



以下に、私が言及した出版物の例をいくつか示します。



[1]。Mansfield et al。(1977、p。38)は、低分散成分のみが除去された場合、回帰は多くの予測力を失わないことを示唆しています。

[2]。Ganst and Mason(1980)では、12ページが主成分の回帰に専念しており、議論の多くは、主成分の除去がそれらの分散のみに基づいていることを示唆しています。(pp。327–328)。

[3]。MostellerandTürki(1977、pp。397–398)はまた、自然は「トリッキー」である「均一」ではないため、低分散成分が回帰において重要である可能性は低いと主張している

[4]。Hawking(1976、p。31)は、分散に基づく回帰における主成分の保存の規則を定義する上でさらに制限的です。



理論的な説明と理解



まず、上記の仮説の正しい数学的正当性を取得してから、幾何学的な視覚化とモデリングを使用して理解を深めるために少し説明します。



仮定

Yは、応答変数で、

Xは、スペースマトリックス機能である

Zは、標準化されたバージョンXは



それがしてみましょうλλ>.λp固有値でZ T Z(相関行列)とV -固有ベクトルに対応し、W = ZVは、の列Wは、主成分表現するZを主成分回帰で使用される標準的な方法は、Yの最初のm個の主成分を回帰することであり、問​​題は以下の定理とその説明によって表すことができます[2]。



定理:



レッツW =(W₁、...、WP) -固有ベクトルX。ここで、回帰モデルについて考えてみます。







回帰係数βの真のベクトルがj番目の固有ベクトルZ T Z同一方向である場合、YからWへの回帰中に、j番目の主成分Wⱼは学習に寄与しますが、残りの成分は原則として寄与しません。 ..。



証明:うV =(V₁、...、VP) -の固有ベクトルのマトリクスZ T Z。次いで







のでここであり、式の回帰係数は。βの



場合同方向であるjは番目の固有ベクトルVⱼ、次いでVⱼ=Aβゼロ以外のスカラー値です。したがって、θJ=Vⱼᵀβ=aβᵀβとθᴋ=Vᴋᵀ β = 0、ここで、k≠J したがって、Wᴋに対応する回帰係数θᴋは、k≠jの場合、それぞれゼロに等しくなります。 変数Wᴋは二乗和を減少させないため、回帰係数が0の場合、Wjが主な寄与をもたらし、他の主要なコンポーネントは寄与しません。











幾何学的重要性とモデリング



それでは、上記の数学的計算の幾何学的表現をシミュレートして取得しましょう。説明は、仮説を視覚的に簡単に理解できるように、2次元の特徴空間(X)と1つの応答変数をモデル化することによって示されます。





図1:考慮される変数X1およびX2



の1次元および2次元プロットモデリングの最初の段階では、変数と主成分の間に非常に高い相関関係がある多変量正規分布を使用して、特徴空間をモデル化しました。





図2:PC1とPC2のヒートマップ相関(主要コンポーネント)



グラフから、主成分間に相関関係がないことが非常に明確です。 2番目のステップでは、応答変数Yの値がモデル化され、主成分のY係数の方向が2番目の主成分の方向と一致します。







応答変数を受信すると、相関行列は次のようになります。





図3:変数YとPC1およびPC2のヒートマップ。



グラフは、YPC2の間の相関がYPC1の間よりも高いことを明確に示しており、これは私たちの仮説を裏付けています。





図4:PC1とPC2によって説明されるフィーチャスペースの差異。



図はそのPC1を示しているのでXの分散の95%を説明します。次に、上記のロジックによれば、回帰ではPC2完全に無視する必要があります。



それでは、それに従って、何が起こるか見てみましょう!





図5.YとPC1による回帰の結果。



したがって0に等しいR²はPC1が分散Xの95%を与えるという事実にもかかわらず、それでも応答変数を説明しないと述べました。Xの分散の5%のみを説明 するPC2でも同じことを行い、何が起こるかを見てみましょう図6:YとPC2による回帰の結果。













ゆうふ!何が起こったのかを見てください。Xの分散の5%を説明する主成分は、Yの分散の72%与えました。このような状況をサポートする実際の例もあります。 [1] Smith and Campbell(1980)は、化学工学の例を示しました。ここでは、9つの回帰変数があり、8番目の主成分の分散が全分散の0.06%であった場合、上記のロジックにより考慮されます。





[2] 2番目の例は、Kung and Sharif(1980)によって提供されました。10個の気象変数を使用してモンスーンの開始日を予測する研究では、8番目、2番目、および10番目の要素のみが重要でした。この例は、固有値が最小の主成分でさえ、応答変数の変動性を説明する上で3番目に重要であることを示しています。



出力



上記の例は、固有値が小さい主成分を削除することは不適切であることを示しています。これは、それらが特徴空間の説明可能性にのみ影響し、応答変数には影響しないためです。したがって、部分最小二乗回帰や最小角度回帰など、監視対象の学習次元削減手法のすべてのコンポーネントを保持する必要があります。これについては、今後の記事で説明します。



ソース
[1] Jolliffe, Ian T. “A Note on the Use of Principal Components in Regression.” Journal of the Royal Statistical Society. Series C (Applied Statistics), vol. 31, no. 3, 1982, pp. 300–303. JSTOR, www.jstor.org/stable/2348005.

[2] Hadi, Ali S., and Robert F. Ling. “Some Cautionary Notes on the Use of Principal Components Regression.” The American Statistician, vol. 52, no. 1, 1998, pp. 15–19. JSTOR, www.jstor.org/stable/2685559.

[3] HAWKINS, D. M. (1973). On the investigation of alternative regressions by principal component analysis. Appl. Statist., 22, 275–286

[4] MANSFIELD, E. R., WEBSTER, J. T. and GUNST, R. F. (1977). An analytic variable selection technique for principal component regression. Appl. Statist., 26, 34–40.

[5] MOSTELLER, F. and TUKEY, J. W. (1977). Data Analysis and Regression: A Second Course in Statistics. Reading, Mass.: Addison-Wesley

[6] GUNST, R. F. and MASON, R. L. (1980). Regression Analysis and its Application: A Data-oriented Approach. New York: Marcel Dekker.

[7] JEFFERS, J. N. R. (1967). Two case studies in the application of principal component analysis. Appl. Statist., 16, 225- 236. (1981). Investigation of alternative regressions: some practical examples. The Statistician, 30, 79–88.

[8] KENDALL, M. G. (1957). A Course in Multivariate Analysis. London: Griffin.






コース「機械学習」の詳細をご覧ください基本コース」無料レッスン参加するだけでなく、このリンクから無料のウェビナーにサインアップすることができます






続きを読む:



エントロピー:意思決定ツリーが意思決定を行う方法



All Articles