データサイエンスにおけるトップ3の統計的パラドックス

翻訳は機械学習。プロフェッショナル コースの一部として作成されました



また、2日間のオンライン集中型の「MLモデルのデプロイ:ラップトップのダーティコードから実用的なサービスまで」に参加することをお勧めします






観測誤差とサブグループの違いは統計的パラドックスを引き起こします

観測エラーとサブグループの違いは、データサイエンスアプリケーションで統計的パラドックスを簡単に引き起こす可能性があります。これらの要素を無視すると、分析の結論が完全に信用できなくなる可能性があります。





確かに、集合体データで完全に逆転するサブグループの傾向として、このような驚くべき現象を見るのは珍しいことではありません。この記事では、データサイエンスで見られる最も一般的な統計的パラドックスのトップ3を見ていきます。





1.バークソンのパラドックス

最初の顕著な例は、COVID-19疾患の重症度と喫煙との逆相関です(たとえば、欧州委員会のWenzel 2020レビューを参照)。喫煙は呼吸器疾患のよく知られた危険因子ですが、この論争をどのように説明しますか?





Griffith 2020, Nature, , (Collider Bias), . , , : «».





: «» — - « », « COVID-19». ( )





«» . , COVID-19 . , , , .





. , ( -).





: «», COVID-19! ( )





COVID-19 , , , .





— — ! , .





  1. COVID-19 . , 1, .





  2. (- , , ), - .





  3. , COVID-19,   ! , COVID-19 - , (, - , , ).





Berkson 1946, , , .





2. ()

. - - (, , ), , .





, , , , , . , ( — . ), : , !





, . : « ».





: « » — «n » «n ». ( )





. , , , , .





. , , (.. ).





: « », ! ( )





, , , .





  • , , .





  • , , , .





3.

— , - , , . .





1975 , , , .





  • , , ,   .





  • , , .





, , : A B.





  • 100 : 80 A, 68 (85%), 20 , 12 (60%).





  • 100 : 30 , 28 (93%), 70 B, 46 (66%).





: - , ! ( )





.





: , . ( )





, , . , ( A: 80–30, B: 20–70). , B ( ), ( ). , .





, -, data science. .






"Machine Learning. Professional"





- « ML : »








All Articles