わかりやすい蚀語による9぀の䞻芁な機械孊習アルゎリズム

こんにちは、ハブルNick McCullumによる蚘事「平易な英語で説明される9぀の䞻芁な機械孊習アルゎリズム」の翻蚳をあなたの泚意に提瀺したす。機械孊習MLはすでに䞖界を倉えおいたす。 GoogleはIOを䜿甚しお、ナヌザヌの怜玢に察する応答を提䟛および衚瀺したす。 Netflixはこれを䜿甚しお、倜の映画を掚奚したす。そしおFacebookはそれを䜿っおあなたが知っおいるかもしれない新しい友達を提案したす。 機械孊習はか぀おないほど重芁になり、同時に孊習するこずが非垞に困難になりたした。この分野は専門甚語でいっぱいであり、さたざたなMLアルゎリズムの数は毎幎増加しおいたす。











この蚘事では、機械孊習の基本的な抂念を玹介したす。具䜓的には、今日最も重芁な9぀のMLアルゎリズムの基本抂念に぀いお説明したす。



掚薊制床



0から完党なレコメンデヌションシステムを構築するには、線圢代数の深い知識が必芁です。このため、この分野を孊習したこずがない堎合は、このセクションの抂念の䞀郚を理解するのが難しい堎合がありたす。



ただし、心配しないでください。scikit-learnPythonラむブラリを䜿甚するず、CPを簡単に構築できたす。したがっお、機胜するCPを構築するために、線圢代数に関する深い知識は必芁ありたせん。



CPはどのように機胜したすか



掚奚システムには、䞻に2぀のタむプがありたす。



  • コンテンツベヌス
  • 協調フィルタリング


コンテンツベヌスのシステムは、すでに䜿甚した芁玠の類䌌性に基づいお掚奚を行いたす。これらのシステムは、CPの動䜜ずたったく同じように動䜜したす。



協調型CPフィルタリングは、ナヌザヌが芁玠ずどのように盞互䜜甚するかに関する知識に基づいお掚奚事項を提䟛したす*泚ナヌザヌず動䜜が類䌌しおいる他のナヌザヌの芁玠ずの盞互䜜甚が基本ずしお䜿甚されたす。蚀い換えるず、圌らは「矀衆の知恵」したがっお、メ゜ッドの名前の「共同」を䜿甚したす。



珟実の䞖界では、協調型CPフィルタリングは、コンテンツベヌスのシステムよりもはるかに䞀般的です。これは䞻に圌らが通垞より良い結果を䞎えるずいう事実によるものです。䞀郚の専門家はたた、コラボレヌションシステムを理解しやすいず感じおいたす。



CP協調フィルタリングには、コンテンツベヌスのシステムにはない独自の機胜もありたす。぀たり、圌らは自分で機胜を孊ぶ胜力を持っおいたす。



これは、このシステムが機胜するために提䟛しおいないプロパティや特性に基づいお、芁玠の類䌌性を定矩し始める可胜性さえあるこずを意味したす。



協調フィルタリングには2぀のサブカテゎリがありたす。



  • モデルベヌス
  • 近隣地域ベヌス


良いニュヌスは、MLで成功するためにこれら2぀のタむプの協調CPフィルタリングの違いを知る必芁がないこずです。いく぀かの皮類があるこずを知るだけで十分です。



たずめる



ここでは、この蚘事の掚奚システムに぀いお孊んだこずを簡単にたずめたす。



  • 実際の掚奚システムの䟋
  • さたざたなタむプのレコメンデヌションシステム、およびコンテンツベヌスのシステムよりも協調フィルタリングがより頻繁に䜿甚される理由
  • 掚奚システムず線圢代数の関係


線圢回垰



線圢回垰は、䞀連のx倀に基づいお䞀郚のy倀を予枬するために䜿甚されたす。



線圢回垰の歎史



線圢回垰LRは、1800幎にFrancis Galtonによっお発明されたした。ガルトンは、芪子の絆を研究する科孊者でした。より具䜓的には、Galtonは父芪の成長ず息子の成長の関係を調査したした。ゎヌルトンの最初の発芋は、息子の成長は、原則ずしお、圌らの父芪の成長ずほが同じであったずいう事実でした。これは驚くべきこずではありたせん。



埌に、ゎヌルトンはもっず面癜いものを発芋したした。息子の成長は、原則ずしお、自分の父芪の成長よりもすべおの人々の平均の身長に近かった。



ゎヌルトンはこの珟象を回垰ず呌んだ。具䜓的には、「息子の身長は平均身長に埌退たたはシフトする傟向がある」ず述べた。



これは、回垰ず呌ばれる統蚈ず機械孊習の分野党䜓に぀ながりたした。



線圢回垰数孊



回垰モデルを䜜成するプロセスでは、デヌタセットの各ポむントのできるだけ近くに線を匕くだけです。



このアプロヌチの兞型的な䟋は、「最小二乗」線圢回垰アプロヌチです。これは、䞊䞋方向の盎線の近さを蚈算したす。



説明の䟋







回垰モデルを䜜成する堎合、最終生成物は、事前にy倀を知らなくおもx倀のy倀を予枬するために䜿甚できる方皋匏です。



ロゞスティック回垰



ロゞスティック回垰は線圢回垰に䌌おいたすが、yの倀を蚈算する代わりに、特定のデヌタポむントがどのカテゎリに属する​​かを評䟡したす。



ロゞスティック回垰ずは䜕ですか



ロゞスティック回垰は、分類の問題を解決するために䜿甚される機械孊習モデルです。



以䞋は、MOの分類タスクの䟋です。



  • メヌルスパムスパムかどうか
  • 自動車保険金請求補償たたは修理
  • 病気の蚺断


これらの各タスクには明らかに2぀のカテゎリがあり、バむナリ分類タスクの䟋ずなっおいたす。



ロゞスティック回垰は、バむナリ分類の問題に察しお適切に機胜したす。単玔に、異なるカテゎリをそれぞれ0ず1に割り圓おたす。



なぜロゞスティック回垰かバむナリ分類予枬に線圢回垰を䜿甚できないためです。 2぀の可胜な倀を持぀デヌタセットを通る盎線を描画しようずしおいるため、単玔に機胜したせん。



この画像は、線圢回垰がバむナリ分類に適さない理由を理解するのに圹立ちたす。







この画像では、y軞は腫瘍が悪性である確率を衚したす。1-yの倀は、腫瘍が良性である確率を衚したす。ご芧のずおり、デヌタセット内のほずんどの芳枬倀の尀床を予枬するための線圢回垰モデルのパフォヌマンスは非垞に䜎くなっおいたす。



これが、ロゞスティック回垰モデルが圹立぀理由です。これは最適線に向かっお曲がっおいるため、定性的カテゎリデヌタの予枬にはるかに適しおいたす。



同じデヌタで線圢回垰モデルずロゞスティック回垰モデルを比范する䟋を次に瀺したす。







シグモむドシグモむド関数



ロゞスティック回垰がねじれおいる理由は、線圢方皋匏を䜿甚しお蚈算しないためです。代わりに、ロゞスティック回垰モデルはシグモむドロゞスティック回垰で䜿甚されるため、ロゞスティック関数ずも呌ばれたすを䜿甚しお構築されたす。



MLで成功するためにシグモむドを完党に蚘憶する必芁はありたせん。それでも、この機胜に぀いお䜕か考えがあるず圹に立ちたす。



シグモむド匏シグモむドの







䞻な特性であり、察凊する䟡倀がありたす。この関数に枡す倀に関係なく、垞に0〜1の倀が返されたす。



予枬にロゞスティック回垰モデルを䜿甚する



予枬にロゞスティック回垰を䜿甚するには、通垞、カットオフポむントを正確に定矩する必芁がありたす。このカットオフポむントは通垞0.5です。



前のグラフのがん蚺断の䟋を䜿甚しお、この原理を実際に芋おみたしょう。ロゞスティック回垰モデルが0.5未満の倀を返す堎合、そのデヌタポむントは良性ずしお分類されたす。同様に、シグモむドの倀が0.5を超える堎合、腫瘍は悪性ず分類されたす。



゚ラヌマトリックスを䜿甚したロゞスティック回垰の効果の枬定



゚ラヌマトリックスは、MOで真陜性、真陰性、停陜性、および停陰性のスコアを比范するツヌルずしお䜿甚できたす。



゚ラヌマトリックスは、ロゞスティック回垰モデルのパフォヌマンスを枬定するために䜿甚する堎合に特に圹立ちたす。以䞋は、゚ラヌマトリックスの䜿甚䟋です







。この衚では、TNは真陰性、FNは停陰性、FPは停陜性、TPは真陜性を衚したす。



゚ラヌマトリックスに「匱い」象限がある堎合、゚ラヌマトリックスはモデルを評䟡するのに圹立ちたす。䟋ずしお、圌女は異垞に倚くの停陜性を持っおいるかもしれたせん。



たた、゚ラヌマトリックスの特に危険な領域でモデルが正しく機胜しおいるこずを確認するこずも非垞に圹立ちたす。



たずえば、このがん蚺断の䟋では、モデルに停陜性が倚すぎないこずを確認したす。これは、誰かの悪性腫瘍を良性ず蚺断したこずを意味したす。



たずめる



このセクションでは、MLモデル-ロゞスティック回垰に぀いお初めお知りたした。

以䞋は、ロゞスティック回垰に぀いお孊んだこずの簡単な芁玄です。



  • ロゞスティック回垰で解くのに適した分類問題のタむプ
  • ロゞスティック関数シグモむドは垞に0ず1の間の倀を䞎えたす
  • カットオフポむントを䜿甚しおロゞスティック回垰モデルで予枬する方法
  • ゚ラヌマトリックスがロゞスティック回垰モデルのパフォヌマンスを枬定するのに圹立぀のはなぜですか


K最近傍アルゎリズム



k最近傍アルゎリズムは、2぀を超えるカテゎリがある堎合の分類問題の解決に圹立ちたす。



k最近傍アルゎリズムずは䜕ですか



これは、単玔な原理に基づく分類アルゎリズムです。実際、原則は非垞に単玔なので、䟋を挙げお説明するのが最善です。



サッカヌ遞手ずバスケットボヌル遞手の身長ず䜓重のデヌタがあるずしたす。 k最近傍アルゎリズムを䜿甚しお、新しいプレヌダヌがサッカヌ遞手かバスケットボヌル遞手かを予枬できたす。これを行うために、アルゎリズムはスタディオブゞェクトに最も近いKデヌタポむントを決定したす。



この画像は、パラメヌタK = 3でこの原理を瀺しおいたす。







この画像では、サッカヌ遞手は青、バスケットボヌル遞手はオレンゞです。分類しようずしおいる点は緑色です。緑のポむントに最も近いマヌク2/3のマヌクは青サッカヌ遞手になっおいるので、K最近傍アルゎリズムは、新しいプレヌダヌもサッカヌ遞手になるず予枬したす。



K最近傍アルゎリズムを構築する方法



このアルゎリズムを構築するための䞻な手順



  1. すべおのデヌタを収集する
  2. 新しいデヌタポむントxからデヌタセット内の他のすべおのポむントたでのナヌクリッド距離を蚈算したす
  3. デヌタセットからポむントをxたでの距離の昇順で䞊べ替え
  4. xに最も近いKデヌタのほずんどず同じカテゎリを䜿甚しお回答を予枬したす


K最近傍アルゎリズムにおけるK倉数の重芁性



これは最初から明らかではないかもしれたせんが、このアルゎリズムでK倀を倉曎するず、新しいデヌタポむントが該圓するカテゎリが倉曎されたす。



具䜓的には、K倀が小さすぎるず、モデルはトレヌニングデヌタセットを正確に予枬したすが、テストデヌタには非垞に効果がありたせん。たた、Kが高すぎるず、モデルが䞍必芁に耇雑になりたす。



次の図は、この効果を完党に瀺しおいたす。







K最近傍アルゎリズムの長所ず短所



このアルゎリズムの抂芁を芁玄するために、このアルゎリズムの䜿甚の長所ず短所に぀いお簡単に説明したす。



長所



  • アルゎリズムはシンプルで理解しやすい
  • 新しいトレヌニングデヌタの簡単なモデルトレヌニング
  • 分類タスクの任意の数のカテゎリで機胜したす
  • 倚くのデヌタに簡単にデヌタを远加する
  • モデルは2぀のパラメヌタヌのみを䜿甚したす。Kず䜿甚する距離メトリック通垞はナヌクリッド距離


マむナス



  • 蚈算コストが高い デヌタ党䜓を凊理する必芁がある
  • カテゎリパラメヌタではうたく機胜したせん


たずめる



K最近傍アルゎリズムに぀いお孊習した内容の芁玄



  • アルゎリズムが解決できる分類問題サッカヌ遞手たたはバスケットボヌル遞手の䟋
  • アルゎリズムが隣接する点たでのナヌクリッド距離を䜿甚しお、新しいデヌタポむントが属するカテゎリを予枬する方法
  • K倀が予枬に重芁な理由
  • K最近傍アルゎリズムの䜿甚の長所ず短所


決定朚ずランダムフォレスト



決定朚ずランダムフォレストは、ツリヌ法の2぀の䟋です。より正確には、デシゞョンツリヌは、デヌタセット内の各関数を1぀ず぀ルヌプしお予枬するために䜿甚されるMLモデルです。ランダムフォレストは、デヌタセット内のオブゞェクトのランダムな順序を䜿甚する決定朚の集団委員䌚です。



ツリヌメ゜ッドずは䜕ですか



MLでのツリヌベヌスのメ゜ッドの理論的基瀎に入る前に、䟋から始めるず圹立ちたす。



あなたが毎週月曜日にバスケットボヌルをしおいるず想像しおください。さらに、あなたはい぀も同じ友達を招埅しお䞀緒に遊びに来おもらいたす。友達が来るこずもあれば、来ないこずもありたす。来るかどうかの決定は倚くの芁因に䟝存したすどんな皮類の倩候、気枩、颚、疲劎。あなたはこれらの機胜に気づき始め、友達がプレむするかしないかの決定ずずもにそれらを远跡したす。



このデヌタを䜿甚しお、友達が今日来るかどうかを予枬できたす。䜿甚できる手法の1぀は、決定朚です。これはどのように芋えるかです。







各決定朚には2皮類の芁玠がありたす。



  • ノヌド特定のパラメヌタヌの倀に基づいおツリヌが分割される堎所
  • ゚ッゞ次のノヌドに぀ながる分割の結果


この図には、芋通し、湿床、

颚のノヌドがありたす。たた、これらの各パラメヌタヌの各朜圚的な倀のファセット。



開始する前に理解しおおくべき定矩がいく぀かありたす。



  • ルヌト-ツリヌの分割が始たるノヌド
  • 葉-最終結果を予枬する最終ノヌド


これで、決定朚ずは䜕かに぀いおの基本的な理解が埗られたした。このようなツリヌをれロから構築する方法に぀いおは、次のセクションで説明したす。



れロから決定朚を構築する方法



意思決定ツリヌの構築は、思ったより難しいです。これは、デヌタをどの圱響特性に分割するか゚ントロピヌずデヌタ取埗のトピックを決定するこずが数孊的に困難なタスクであるためです。



この問題を解決するために、MLスペシャリストは通垞​​、倚くの決定朚を䜿甚し、ランダムに遞択された特性のセットを適甚しお、朚をそれらに分割したす。蚀い換えるず、新しいランダムな特性のセットが、各個別のパヌティションで、個別のツリヌごずに遞択されたす。この手法はランダムフォレストず呌ばれたす。



䞀般に、専門家は通垞、ランダムなフィヌチャセットmで瀺されるのサむズを遞択したす。これにより、デヌタセット内のフィヌチャの総数pで瀺されるの平方根になりたす。぀たり、mはpの平方根であり、特定の特性はmからランダムに遞択されたす。



ランダムフォレストを䜿甚する利点



1぀の「匷い」特性を持぀倚くのデヌタを扱っおいるず想像しおください。぀たり、このデヌタセットには、このデヌタセットの他の特性よりも最終結果の点ではるかに予枬可胜な特性がありたす。



意思決定ツリヌを手動で構築しおいる堎合、ツリヌの「トップ」パヌティションにこの特性を䜿甚するこずは理にかなっおいたす。これは、予枬が非垞に盞関しおいるいく぀かのツリヌがあるこずを意味したす。



これを避けたいのは 盞関の高い倉数の平均を䜿甚しおも、分散は倧幅には枛少したせん。ランダムフォレスト内の各ツリヌにランダムな特性のセットを䜿甚するこずにより、ツリヌを非盞関化し、結果のモデルの分散を枛らしたす。この非盞関は、手䜜業で䜜成した決定朚よりもランダムフォレストを䜿甚する堎合の倧きな利点です。



たずめる



これが、決定朚ずランダムフォレストに぀いお孊んだこずの簡単な芁玄です。



  • 決定朚を䜿甚しお解決策を予枬できる問題の䟋
  • ディシゞョンツリヌの芁玠ノヌド、面、根、葉
  • ランダムな特性セットを䜿甚しお、ランダムなフォレストを構築する方法
  • 倉数の非盞関にランダムフォレストを䜿甚するず、結果のモデルの分散を枛らすのに圹立぀のはなぜですか


サポヌトベクタヌマシン



サポヌトベクタヌマシンは分類アルゎリズムであり技術的には回垰問題の解決にも䜿甚できたす、デヌタのセットをカテゎリヌ間の最倧の「ギャップ」でカテゎリヌに分割したす。この抂念は、次の䟋を芋るずより明確になりたす。



サポヌトベクタヌマシンずは



サポヌトベクタヌマシンSVMは、デヌタを分析しおパタヌンを認識する適切な孊習アルゎリズムを備えた教垫ありMLモデルです。SVMは、分類タスクず回垰分析の䞡方に䜿甚できたす。この蚘事では、サポヌトベクタヌマシンを䜿甚しお分類の問題を解決する方法に぀いお具䜓的に説明したす。



MOUはどのように機胜したすか



MOUが実際にどのように機胜するかを詳しく芋おみたしょう。



トレヌニング䟋のセットが䞎えられ、それぞれが2぀のカテゎリヌの1぀に属するものずしおマヌクされおいたす。このSVMのセットを䜿甚しお、モデルを䜜成したす。このモデルは、新しい䟋を2぀のカテゎリのいずれかに分類したす。これにより、SVMはありそうもないバむナリ線圢分類噚になりたす。



MOUはゞオメトリを䜿甚しお、カテゎリごずに予枬を行いたす。より具䜓的には、サポヌトベクタヌマシンは、デヌタポむントを空間内のポむントずしおマップし、それらをできる限り広いギャップで分離するように分類したす。新しいデヌタポむントが特定のカテゎリに属する​​ずいう予枬は、ブレヌクポむントのどちら偎に基づくかに基づいおいたす。



以䞋は、MOUの盎感を理解するのに圹立぀芖芚化の䟋です。ご芧のずおり







、新しいデヌタポむントが緑の線の巊偎にある堎合は「赀」ず呌ばれ、右偎の堎合は「青」ず呌ばれたす。この緑色の線は超平面ず呌ばれ、MOUを操䜜するための重芁な甚語です。



次のSVMの芖芚的衚珟を芋おみたしょう







。この図では、超平面は「最適な超平面」ずしおラベル付けされおいたす。サポヌトベクタヌマシン理論では、最適な超平面を、異なるカテゎリの2぀の最も近いデヌタポむント間のフィヌルドを最倧化する超平面ずしお定矩しおいたす。



ご芧のずおり、フィヌルド境界は実際に3぀のデヌタポむントに圱響したす。2぀は赀のカテゎリから、1぀は青のカテゎリからです。フィヌルドの境界に接するこれらのポむントは、サポヌトベクタヌず呌ばれるため、名前が付けられたす。



たずめる



ここでは、サポヌトベクタヌマシンに぀いお孊習した内容の簡単なスナップショットを瀺したす。



  • MOUは、監芖付きMLアルゎリズムの䟋です
  • サポヌトベクタヌは、分類問題の解決ず回垰分析の䞡方に䜿甚できたす。
  • MOUがデヌタセットのカテゎリ間のマヌゞンを最倧化する超平面を䜿甚しおデヌタを分類する方法
  • 分割フィヌルドの境界に接するデヌタポむントは、サポヌトベクタヌず呌ばれたす。これがメ゜ッドの名前の由来です。


K平均クラスタリング



K-Meansメ゜ッドは、教垫なし機械孊習アルゎリズムです。これは、タグなしのデヌタを受け入れ、デヌタ内の同様の芳枬のクラスタヌをクラスタヌ化しようずするこずを意味したす。K平均法は、実際のアプリケヌションを解くために非垞に圹立ちたす。このモデルに適合するいく぀かのタスクの䟋を次に瀺したす。



  • マヌケティングチヌムの顧客セグメンテヌション
  • 文曞の分類
  • Amazon、UPS、FedExなどの䌁業の配送ルヌトを最適化する
  • 垂内の犯眪堎所の特定ず察応
  • プロスポヌツ分析
  • サむバヌ犯眪の予枬ず防止


K平均法の䞻な目的は、デヌタセットを区別可胜なグルヌプに分割しお、各グルヌプ内の芁玠が互いに類䌌するようにするこずです。



これが実際にどのように芋えるかを芖芚的に衚したもの







です。この蚘事の次のセクションでは、K平均法の背埌にある数孊に぀いお説明したす。



K平均法はどのように機胜したすか



K平均法を䜿甚する最初のステップは、デヌタを分割するグルヌプの数を遞択するこずです。この量はKの倀であり、アルゎリズムの名前に反映されたす。K平均法でのK倀の遞択は非垞に重芁です。埌で正しいK倀を遞択する方法に぀いお説明したす



次に、デヌタセット内のポむントをランダムに遞択し、ランダムなクラスタヌに割り圓おる必芁がありたす。これにより、クラスタヌの倉曎が停止するたで次の反埩を実行する開始デヌタ䜍眮が埗られたす。



  • そのクラスタヌ内のポむントの平均ベクトルを取るこずによっお各クラスタヌの重心重心を蚈算する
  • 各デヌタポむントを、重心がポむントに最も近いクラスタヌに再割り圓おしたす。


K平均法での適切なK倀の遞択



厳密に蚀えば、適切なK倀を遞択するこずは非垞に困難です。 「最適な」K倀を遞択するのに「正しい」答えはありたせん。MLの専門家がよく䜿甚する方法の1぀は、「゚ルボヌ法」ず呌ばれたす。



この方法を䜿甚するには、たず2乗誀差の合蚈を蚈算する必芁がありたす。これは、K倀のグルヌプに察するアルゎリズムの暙準偏差です。K平均法の暙準偏差は、クラスタヌ内の各デヌタポむント間の距離の2乗の合蚈ずしお定矩されたす。そしおこのクラスタヌの重心。



このステップの䟋ずしお、2、4、6、8、および10のK倀の暙準偏差を蚈算できたす。次に、暙準偏差ずこれらのK倀のグラフを生成したす。K倀が増加するず、偏差が枛少するこずがわかりたす。



そしお、それは理にかなっおいたすデヌタのセットから䜜成するカテゎリが倚いほど、各デヌタポむントがそのポむントのクラスタヌの䞭心に近い可胜性が高くなりたす。

そうは蚀っおも、゚ルボヌ法の背埌にある䞻なアむデアは、RMSが䜎䞋率を劇的に䜎䞋させるK倀を遞択するこずです。この急激な枛少は、チャヌトの「ひじ」を圢成したす。



䟋ずしお、ここにKに察するRMSのプロットを瀺したす。この堎合、゚ルボヌ法は玄6のK倀を䜿甚するこずを提案したす







。K= 6は単に蚱容可胜なK倀の掚定倀であるこずが重芁です。K平均法には「最良の」K倀はありたせん。MLの倚くのこずず同様に、これは非垞に状況に応じた決定です。



たずめる



ここでは、このセクションで孊習した内容の簡単なスケッチを瀺したす。



  • K平均法で解くこずができる教垫なしのMLタスクの䟋
  • K平均法の基本原理
  • K-Meansの仕組み
  • ゚ルボ法を䜿甚しお、このアルゎリズムのKパラメヌタに適切な倀を遞択する方法


䞻成分分析



䞻成分分析は、倚くのパラメヌタヌを持぀デヌタセットを、より少ないパラメヌタヌを持぀新しいデヌタセットに倉換するために䜿甚されたす。このデヌタセットの新しい各パラメヌタヌは、既存のパラメヌタヌの線圢結合です。この倉換されたデヌタは、元のデヌタセットの分散の倚くをより簡単に正圓化する傟向がありたす。



䞻成分分析法ずは



䞻成分分析PCAは、倉数のセット間の関係を研究するために䜿甚されるML手法です。぀たり、PCAは倉数のセットを調べお、これらの倉数の基本構造を決定したす。PCAは、因子分析ずも呌ばれたす。



この説明に基づいお、PCAは線圢回垰に非垞に䌌おいるず考えるかもしれたせん。しかし、これはそうではありたせん。実際、これら2぀の手法にはいく぀かの重芁な違いがありたす。



線圢回垰ずPCAの違い



線圢回垰は、デヌタセット党䜓で最も適合する線を決定したす。䞻成分分析は、デヌタセットの耇数の盎亀する最適フィット線を識別したす。



盎亀ずいう甚語に慣れおいない堎合、それは単に、線が地図䞊で北、東、南、西のように互いに盎角であるこずを意味したす。

これを理解するのに圹立぀䟋を芋おみたしょう。







この画像の軞ラベルを芋おください。x軞の䞻成分は、このデヌタセットの分散の73を説明しおいたす。y軞の䞻成分は、デヌタセットの分散の玄23を説明しおいたす。



これは、分散の4が原因䞍明のたたであるこずを意味したす。分析に䞻成分を远加するこずで、この数を枛らすこずができたす。



たずめる



䞻成分分析に぀いお孊んだこずの芁玄



  • PCAは、デヌタセットの倉動性を決定する盎亀因子を芋぀けようずしたす
  • 線圢回垰ずPCAの違い
  • デヌタセットにレンダリングされたずきに盎亀䞻成分がどのように芋えるか
  • 远加の䞻成分を远加するず、デヌタセット内の分散をより正確に説明するのに圹立ちたす



All Articles