🧡 🍡 👼🏾 機械学習モデルを校正する前のチェックリスト 🔋 😙 🍊

多くの場合、理論的には、モデルの操作は単純できちんと見えますが、実際のデータのセットとそれらを計算するタスクを取得すると、混乱を引き起こす可能性があります。Lamodaの元チームリードアナリティクスであり、オンラインコース「Mathematicsfor Data Science」の責任者である、PeterLukyanchenkoからの7つの役立つヒントを紹介します。上級レベル "。

こんにちは！Pyotr Lukyanchenko（PetrPavlovich）。私のチェックリストは、何年にもわたってバンプやミスでいっぱいになってきた考えをまとめたものです。

1.問題の説明

カウントしたい問題を常に再確認してください。何をする？何かを分類するには？計算しますか？タスクを明確に理解することで、次のアクションが決まります。

2.データ（ガベージイン=ガベージアウト）

データに重複がないことを常に確認してください。「GarbageIn = Garbage Out」というフレーズは、データが何らかの方法で収集された場合、結果が何らかの形で出力されることを意味します。ちなみに、それがデータエンジニアの別の職業がある理由です-しばしば英雄的な労働で、単に嫌なデータを一掃する専門家。彼らは、後のアナリストが高品質のデータセットを操作できるように、それらの異常偏差を特定し、削除し、修正する方法を知っています。

3.サブジェクトエリア

回帰を構築しているサブジェクトエリアを常に知ってください。これは、リアリズムの仮説をテストするのに役立ちます。そして、その理解のおかげで、「氷河が溶ける速度がオーストラリアのウサギの個体数の増加にどのように影響するか」というシリーズからの愚かな回帰を数えるという無駄な努力を避けることができます。

4.モデルロジック

ロジックなしでは作業できません。モデルのロジックを理解し、この関係にロジックがあるかどうかは非常に重要です。この場合、得られた結果は高品質である可能性もありますが、同時に解釈することはできません。したがって、論理がないと思われる場合は、回帰をカウントしない方がよいでしょう。この場合、それは愚かであることが判明し、新しい誤った決定につながるからです。

5.テストの指標はトレーニングの指標よりも重要です

回帰をトレーニングするときは、メトリックを使用してトレーニングします。これはMSEメトリックまたは代替です。そして、多くの回帰を数えたら、それらを互いに比較することができます。R-squareメトリックはすでにここで使用されています。

回帰トレーニングメトリックと回帰評価（テスト）メトリックは、2つの異なるメトリックです。また、モデルが十分に学習されている場合、これはモデルが十分にテストされることを意味するものではありません。これらの各メトリックは、慎重かつ正しく選択する必要があります。

6回帰が単純であるほど、うまく機能します

そして、回帰が難しいほど、何かがうまくいかない可能性が高くなります。

7.1時間後に完全になるよりも今は良い回帰

優れた回帰ソリューションを思いついた場合は、そこで停止するのが最善です。完璧で超正確なことをしようとしないでください。時々、改善しようとすると実際に悪化する可能性があります。はい、100の予測を達成したいのですが、実際には100％の品質はありません。 Kaggleの最高品質の指標でさえ96〜98％です。

現在、モデルのキャリブレーションでは、専門家による特定のスキルを必要とする多くの手動の知的労働があります。はい、私たちは皆、自動MLを目指しています。 Pythonによる最適なモデルの自動選択。しかし、これまでのところ、これは達成不可能な状態であり、数学的な装置を理解しないと、適切なモデルを選択することは不可能です。下のグラフのような時系列が表示され、「予測してください...」と尋ねられたとします。

このような日付セットでは、それぞれが独自の予測を提供する、多数の異なる回帰を作成できます。ここでは、最適な予測を選択する方法、データの異常値を特定する方法、および上級コースのデータサイエンスの数学で経験する他の多くの実用的なことを説明します。

したがって、すでにデータサイエンスの分野に取り組んでいる、または移行しようとしているが、「研究所で何かを通過した」レベルの数学を知っている場合は、ここで不足しているすべてのスキルを取得できます。Peterの作者の電報チャンネルで

さらに役立つ情報を見つけることができます。

機械学習モデルを校正する前のチェックリスト