機械学習の基本コースの開始を見越して、興味深い翻訳を用意しました。また、「NLPで世界をより良い場所にする方法」というトピックに関する無料のデモレッスンを視聴することもできます。
前書き
独自のデータサイエンスプロジェクトを少なくともいくつか完了している場合は、80%の精度はそれほど悪くないことをすでに理解しているでしょう。しかし、現実の世界では、80%はもはや適切ではありません。実際、私が働いてきたほとんどの企業は、少なくとも90%の最小精度(または彼らが見ている測定基準)を期待しています。
したがって、精度を大幅に向上させるためにできる5つのことについて説明します。初心者にはわからないことがたくさんあるので、5つのポイントすべてを読むことを強くお勧めします。
この記事の終わりまでに、あなたはあなたの機械学習モデルがあなたが想像するよりどれだけうまく機能するかにおいて役割を果たす多くの変数があることに気づいたはずです。
, 5 , , !
1.
, , , , . , /, , .
, , , , , . 15 80 , 80 , .
, , « »?
, / :
: , , . , , ANOVA .
K- : K- , , , K- (.. ).
: , . , , .
2.
– . – , , . , Data Science – , . , , :
DateTime , , ..
(, 100–149, 150–199, 200–249 ..)
/ . , «Iswomenor_child», True, , False .
3.
– , / . , , , .
, :
: , XGBoost, , «» . , , .
: – (PCA). .
4. Ensemble Learning
– . , .
(Ensemble Learning) – , . , , - .
- , XGBoost, AdaBoost. , , :
. () . ? « , », .
, , , 0. 4 , 1. !
5.
, , , – . , , , , .
:
class sklearn.ensemble.RandomForestClassifier(n_estimators=100, *, criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, class_weight=None, ccp_alpha=0.0, max_samples=None
, , minimpuritydecrease, , «», ! ;)
!
, 80% 90+%. . Data Science.