データサイエンスで最も悲しい方程式

画像



ハンカチを買いましょう!では、統計学とデータサイエンスについて真実をお話ししましょう。あなたの目に涙が出るでしょう、約束します。



結論=データ+仮定。言い換えれば、統計はあなたに真実を伝えません。



一般的な神話



多くの場合、次の誤解を聞くことができます。



  • 「正しい方程式を見つけることができれば、誰も知らないことを学ぶことができます。」
  • 「データに数学を追加すれば、不確実性を減らすことができます。」
  • 「統計はデータを真実に変えることができます!」


まるでおとぎ話のようですね。それがそういうものだからです。



苦い真実



何もないところから何かを作成するのに役立つ魔法は、世界にはありません。気にしないで。別の統計。私の言葉を統計学として見てください。(おまけとして、この記事では、このを追うのに費やす時間を大幅に節約できます。)



残念ながら、多くのシャーラタンは、そうでなければあなたを説得しようとします。彼らは標準的な手法を使用します。「あなたは私があなたに投げた方程式を知らないので、私の利点を認め、私が言うようにしてください!



これらの難問の言葉に陥らないでください。



画像 著者について: Cassie Kozyrkovは南アフリカのデータおよび統計学者です。彼女はGoogleでDecision Intelligenceを設立し、チーフサイエンティストを務めています。




イカロスの運命を繰り返さないでください



統計的推論(簡単に言うと、「統計」)は、私たちが知っていること(私たちの通常のデータ)から私たちが知らないこと(私たちの母集団の次元)への飛躍と考えてください。



統計では、あなたが知っていることはあなたが知りたいことではありません。
たぶんあなたは明日の事実を知りたいですが、あなたは昨日に基づいてのみ結論を出すことができます。(私たちが未来を思い出さないのはとてもうんざりですよね?)すべての潜在的なユーザーがあなたの製品について考えていることを知りたいかもしれませんが、100に質問することしかできません。次に、不確実性が発生します!



これは魔法ではなく、これは推測です



知っていることから知らないことへどうやってジャンプできますか?この裂け目を埋めるには橋が必要です。そして、この橋の名前は推測です。データサイエンスで最も苦痛な方程式を思い出させてください。データ+仮定=予測。



データ+仮定=予測。
(必要に応じて、「予測」という単語を「結論」または「予測」に簡単に置き換えることができます。それはすべて同じことです:確かにわからないことについてのステートメント。)



仮定とは何ですか?



すべての事実を知っていれば(そしてそれらが難しい事実だと確信していれば)、仮定(または統計)は必要ありません。前提条件は、知っていることと知りたいことの間に架け橋を構築するために使用する醜い部分です。これらは、数値を収束させる必要があるときに使用する必要があるチートですが、十分なデータがありません。



仮定は、情報がない場所に適用する醜いパッチです。
率直に言ったらどうでしょうか。仮定は事実ではありません。十分な情報がないために思いつくのはナンセンスです。非常に正確な間隔で人を軽視することが多い場合は、仮定に基づいて真実を呼ぶのは無謀であることを覚えておいてください。意思決定のためのツールとして統計を取るほうがよい。このツールは完璧ではありませんが、(特定の状況では)何もしないよりはましです。



統計とは、不確実な世界でできることは何でもしようとする試みです。
仮定-アフリカにおける仮定。彼らは魔法の杖の波で事実に変わらない。



仮定は意思決定の一部です。



仮定なしに行われた決定をすべて表示します。考えさえせずに実際の生活で行う多くの暗黙の仮定を簡単にリストします。



例:新聞を読んだとき、すべての事実が確認されていると思いますか? 2020年の計画を立てたとき、世界的なパンデミックが発生すると予想しましたか?データを分析した場合、データはエラーなしで記録されたと思いますか?乱数ジェネレーターがランダムな結果を出すことを期待しましたか? (通常はランダムではありません。)オンラインで購入する場合、正しい金額が請求されると思いますか?最後のおやつはどうですか?彼が毒されていなかったと思いましたか?薬を服用したとき、その長期的な影響について*知っていましたか*、または...予想しましたか?



好むと好まざるとにかかわらず、仮定は意思決定の一部です。


好むと好まざるとにかかわらず、仮定は常に意思決定の一部です。現実世界のデータへの介入は、記録された多くの仮定で構成されている必要があります。同時に、データサイエンティストは、回避しなければならないすべてのコーナーを説明する必要があります。



統計を省くことを決定したとしても、おそらく仮定を使用して続行方法を決定しています。あなた自身の安全のために、あなたはあなたの決定がどのような仮定に基づいているかに注意しなければなりません。



統計の「魔法」の仕組み



統計の分野には、仮定を定式化して証拠と組み合わせることができるツールがたくさんあります。これは、賢い決定が生まれる方法です。(ここでは、統計に関する8分間の紹介をご覧いただけます。)



不確実性と確率を含む分析が、大文字の「P」を持つ真実の源であると期待するのは馬鹿げています。
はい、それが統計の魔法です。どの仮定を適用するかを選択し、それらをデータと組み合わせます。この邪悪な組合に基づいて、あなたは賢い決断を下します。以上が統計です。



画像



そのため、不確実性や確率を含む分析は、大文字の「P」を使用して真実のソースになることはできません。これを行う秘密のダークマジックはありません。



同じデータに基づいて、2人の人がまったく異なる結論に達する可能性があります。彼らが異なる仮定をするだけで十分です。
同じ理由で、2人の人が同じデータに基づいてまったく異なる結論に達する可能性があります。彼らが異なる仮定をするだけで十分です。統計は、より意識的に意思決定を行うためのツールを提供しますが、その使用に単一のルールはありません。個人の意思決定ツールです。



どれだけうまく研究を行うかは、仮定がどれだけ適切かによって異なります。



科学はどうですか?



科学者が統計を使用して結論を​​出すとどうなりますか?彼は単に意見を形成し、それを全世界と共有することを決定します。これは悪くはありません、科学者は意志ではなく意志によって時々結論を出さなければなりません、これは彼らの仕事です。私は時々これらの結論に注意することができると思います。



意志ではなく、科学者は定期的に統計に基づいて結論を出さなければなりません、それは彼らの仕事です。
私は自分よりも多くの情報や経験を持っている人のアドバイスを聞くのを楽しんでいますが、自分の意見を事実と混同することは決して許しません。確率に精通し、それを扱う科学者がいます。しかし、私はまた、あなたがあなたの人生からそれらを決して得ることができないほど多くの統計的誤りを犯した科学者とも会いました。意見は、自分で仮定を立てる準備ができていない人々に影響を与えることはできません(すべきではありません)。これらの意見は、証拠と検証されていない仮定の組み合わせによって得られました。彼らは有能であると見なすことはできません。



結果



統計は、何かがわからないときに意思決定を行うのに役立つ科学と考えてください。これは、情報が不足しているときに情報に基づいた意思決定を行うのに役立つフレームワークです。統計を使用する真の方法はありません。



いいえ、それはあなたが望む事実をあなたに与えません。事実の欠如に対処するために必要なものを提供します。統計の要点は、不確実な世界で自分の力ですべてを行うのを助けることです。



あなたは仮定をする必要があるだけです。



翻訳:ダイアナシェレミエバ



画像



有料のオンラインSkillFactoryコースを受講して、スキルと給与の要求される職業をゼロから、またはレベルアップする方法の詳細をご覧ください。











All Articles