こんにちは!私はWeb開発者であり、数年前から機械学習に興味を持っています。日々のワークパークでは、機械学習とは関係のない、あまり興味のない問題を解決しなければならないことがあるので、一度読んだり使ったりしたことを忘れてしまうことがあります。自分用のメモを作成し、知識を強化して他の人と共有するために、この一連の機械学習に関する記事を書くことにしました。データの前処理から始めます。
この記事では、データで発生する問題、それらを解決する方法、およびさまざまなモデルにデータを供給する前にデータを準備するために最も一般的に使用される方法について説明します。
スキップ
次のデータセットについて考えてみます。私は正直にそれを思いついた、そしてこの記事でさらにそれを参照する。
ID | 名前 | スポーツ規律 | 国 | アスリートの生年 | アスリートの体重 | メダル |
---|---|---|---|---|---|---|
1 | イワン | ローイング | ロシア連邦 | 1985 | 265 | B |
2 | ボクシング | グレートブリテン | 1986 | 54 | S | |
3 | キム | グレコローマンレスリング | 北朝鮮 | 1986 | 93 | G |
4 | オレグ | グレコローマンレスリング | 1984年 | B | ||
五 | ペドロ | ローイング | ブラジル | 97 | N | |
6 | ヴァレリー | ローイング | ロシア連邦 | 2004年 | 97 | N |
, . . — , . , .
, "" , . , , .
— , - , . , "" "" . , , - - . : , , , .
. , . .
, . , . : , . — , .
:
- "".
ID | ||||||
---|---|---|---|---|---|---|
2 | 1986 | 54 | S |
- .
ID | ||||||
---|---|---|---|---|---|---|
4 | - | 1984 | B |
, :
- .
ID | ||||||
---|---|---|---|---|---|---|
4 | - | 1984 | (265 + 54 + 93 + 97 + 97) / 5 = 121.2 | B |
, " " 1 .
- . , .
ID | ||||||
---|---|---|---|---|---|---|
4 | - | 1984 | (54, 93, 97, 97, 265) = 97 | B |
, . , , . , "" . — ( ).
ID | ||||||
---|---|---|---|---|---|---|
1 | 1985 | 265 | B |
, , , , . :
— — , 25% . — — , 75% .
, , , : :
.
— . , [0, 1]. , . , . (, , ) .
. , , . , .
Z-. Z- :
— X.
Z- .
M[X] — X.
, Z- , .
One-hot encoding
. . , " " - . : . . . ( ).
, , ? . , " " 1, "" — 2. . , , . , . .
, , . , "" 4 :
ID | _ | _ | _ | _ | ||
---|---|---|---|---|---|---|
1 | 1 | 0 | 0 | 0 | ||
2 | 0 | 1 | 0 | 0 | ||
3 | 0 | 0 | 0 | 1 | 0 | |
4 | 1 | 0 | 0 | 0 | ||
5 | 0 | 0 | 0 | 1 | ||
6 | 1 | 0 | 0 | 0 |
, , .
, . . , , . . , .
ここを読んだり閲覧したりしていただきありがとうございます。すべての前処理方法について説明したわけではありません。この記事は、プロのデータ科学者にはほとんど役立ちません。ただし、初心者でデータの処理方法がわからない場合は、ここに安全に戻ることができます。あなたの学習と興味深いタスクで頑張ってください!
ソースのリスト
私は科学者ではなく、この記事は科学的であるとは主張していません。したがって、GOSTに従ってソースを作成することはしません。すみません。