データの前処理

こんにちは!私はWeb開発者であり、数年前から機械学習に興味を持っています。日々のワークパークでは、機械学習とは関係のない、あまり興味のない問題を解決しなければならないことがあるので、一度読んだり使ったりしたことを忘れてしまうことがあります。自分用のメモを作成し、知識を強化して他の人と共有するために、この一連の機械学習に関する記事を書くことにしました。データの前処理から始めます。



この記事では、データで発生する問題、それらを解決する方法、およびさまざまなモデルにデータを供給する前にデータを準備するために最も一般的に使用される方法について説明します。



スキップ



次のデータセットについて考えてみます。私は正直にそれを思いついた、そしてこの記事でさらにそれを参照する。



ID 名前 スポーツ規律 アスリートの生年 アスリートの体重 メダル
1 イワン ローイング ロシア連邦 1985 265 B
2 ボクシング グレートブリテン 1986 54 S
3 キム グレコローマンレスリング 北朝鮮 1986 93 G
4 オレグ グレコローマンレスリング 1984年 B
ペドロ ローイング ブラジル 97 N
6 ヴァレリー ローイング ロシア連邦 2004年 97 N


, . . — , . , .



, "" , . , , .



— , - , . , "" "" . , , - - . : , , , .



. , . .



, . , . : , . — , .





:



  • "".


ID
2 1986 54 S


  • .


ID
4 - 1984 B




, :



  • .


ID
4 - 1984 (265 + 54 + 93 + 97 + 97) / 5 = 121.2 B


, " " 1 .



  • . , .


ID
4 - 1984 (54, 93, 97, 97, 265) = 97 B




, . , , . , "" . — ( ).



ID
1 1985 265 B


, , , , . :



QR=Q3-Q1



Q1 — — , 25% . Q3 — — , 75% .



, , , : :



[Q1-1.5QRQ3+1.5QR]



.





— . , [0, 1]. , . , . (, , ) .



. , , . , .



バツnew=バツold-バツmnバツmaバツ-バツmn



Z-. Z- :



((-3σ[バツ]3σ[バツ]



σ[バツ] — X.



Z- .



バツnew=バツold-M[バツ]σ[バツ]



M[X] — X.



, Z- , .



One-hot encoding



. . , " " - . : . . . ( ).



, , ? . , " " 1, "" — 2. . , , . , . .



, , . , "" 4 :



ID _ _ _ _
1 1 0 0 0
2 0 1 0 0
3 0 0 0 1 0
4 1 0 0 0
5 0 0 0 1
6 1 0 0 0


, , .





, . . , , . . , .



ここを読んだり閲覧したりしていただきありがとうございます。すべての前処理方法について説明したわけではありません。この記事は、プロのデータ科学者にはほとんど役立ちません。ただし、初心者でデータの処理方法がわからない場合は、ここに安全に戻ることができます。あなたの学習と興味深いタスクで頑張ってください!



ソースのリスト



私は科学者ではなく、この記事は科学的であるとは主張していません。したがって、GOSTに従ってソースを作成することはしません。すみません。



  1. YandexとHSEの「機械学習入門」からのコースの講義をカーソルで。
  2. 標準化、または平均除去と分散スケーリング-sklearnライブラリのドキュメント
  3. 高度な機械学習データ準備タスク-Microsoft



All Articles