2021年にAmazonでデータサイエンティストのインタビューを受ける方法

画像



私は、関連するAmazonインタビューの質問と回答を見つけようとしている人のために記事を書くことにしました。私はここ数ヶ月で尋ねられたいくつかの面接の質問を取り、それらに簡潔で明確な答えを提供しようとしました。難しい質問もあれば、簡単な質問もありますが、いずれにせよ、どちらも役に立ちます。



Q:夫婦には2人の子供がいて、夫婦は子供のうちの1人が男の子であることを知っています。他の子供が男の子になる可能性はどのくらいですか?



ここには問題はありません。1人の子供が男の子になる確率は他の子供から独立しているので、50%です。答えが3分の1であるLeonardMlodinovの質問に混乱するかもしれません が、これはまったく別の質問であり、私たちの質問とは関係ありません。



Q:p値とは何か説明してください。



p値が何であるかをグーグルで検索すると、次の答えが得られます:「これは、確率変数の値の分布の特定の確率モデルで、統計の同じまたはより極端な値(算術)を取得する確率です。ヌル仮説が正しい場合、以前に観察されたものと比較して、平均、中央値など)。



pは意味が非常に具体的であり、誤解されることが多いため、詳細な回答。



p値のより簡単な定義は次のとおりです。「これは、サンプルの分布を前提として、観測された統計が偶然に発生する確率です。」



アルファは、帰無仮説を棄却する前に極値がどのようになければならないかの基準を設定します。p値は、データの極値を示します。



Q:赤と青のボールが4つありますが、2回の選挙で同じになる確率はどれくらいですか?



答えは、両方が赤である確率と、両方が青である確率です。この質問に置き換えがないと仮定しましょう。



  • 2つの赤の確率=(4/6)*(3/6)= 1/3または33%
  • 2青の確率=(2/6)*(1/6)= 1/18または5.6%


したがって、ボールが同じになる確率は約38.6%です。



Q:ツリー、SVM、ランダムフォレストについて説明してください。それらの長所と短所について教えてください。



デシジョンツリー:1つ以上の条件に基づいてデシジョンをモデル化するために使用されるツリーモデル。



長所:実装が簡単で、直感的で、不足している値を処理します。

短所:分散が大きく、不正確



長所:寸法精度が高い

短所:過剰適合する傾向があり、確率を直接推定しない



長所:より高い精度を達成し、欠落した値を処理し、関数のスケーリングを必要とせず、関数の重要性を判断できます。

短所:ブラックボックス、計算集約的。



次元削減は、データセット内の特徴の数を削減するプロセスです。これは、モデルの分散を減らしたい(過剰適合)場合に主に重要です。



ウィキペディアは、次元削減の4つの利点を述べています。



  • 必要な保管時間とスペースを削減します。
  • 多重共線性を削除すると、機械学習モデルのパラメーターの解釈が向上します。
  • 2Dや3Dなどの非常に小さいサイズに縮小すると、データの視覚化が容易になります。
  • 次元の呪いを回避します。


答える前に、この質問についていくつかの仮定を立てる必要があります。 Amazonで特定の商品を購入できる場所が2つあり、場所Aで商品が見つかる確率が0.6、Bが0.8であるとします。 Amazonで商品が見つかる可能性は、次のように説明できます。



上記をP(A)= 0.6およびP(B)= 0.8として再定式化できます。また、これらが独立したイベントであると仮定しましょう。つまり、あるイベントの確率が別のイベントに依存しないことを意味します。次に、次の式を使用できます...



P(AまたはB)= P(A)+ P(B)-P(AおよびB)

P(AまたはB)= 0.6 + 0.8-(0.6 * 0、8)

P(AまたはB)= 0.92



Q:同じ重さのボールが8つ、重さが少し大きいボールが1つ(合計9つのボール)ある場合、どのボールが最も重いかを判断するには、いくつの重さを量る必要がありますか?







2つの計量が必要です(上記のパートAおよびBを参照):



9つのボールを3つのグループに分けて2つのグループに計量する必要があります。スケールのバランスが取れている場合(オプション1)、重いボールは3番目のグループのボールに属していることがわかります。それ以外の場合は、重みの大きいグループを使用します(オプション2)。

次に、同じ手順に従いますが、3つのグループが3つではなく、1つのバルーンが3つのグループになります。



Q:「再トレーニング」とは何ですか?



過剰適合は、モデルがデータに「適合」しすぎて、分散が大きくバイアスが小さいモデルになる場合のエラーです。結果として、過剰適合モデルは、トレーニングデータの忠実度が高い場合でも、新しいデータポイントを不正確に予測します。



Q:2つのモデルがあります。1つは85%の精度で、もう1つは82%の精度です。どちらを選びますか?



モデルの精度だけを気にする場合、答えは85%です。しかし、インタビュアーがこれについて尋ねた場合、質問がどのような文脈で尋ねられているかを知ることはおそらく価値があります。モデルが何を予測しようとしているのか。これにより、スコアリングメトリックが実際に正確であるか、リコールやf1スコアなどの別のメトリックであるかをより正確に把握できます。



Q:単純ベイズアルゴリズムとは何ですか?



単純ベイズ分類器は、データサイエンスで使用される一般的な分類器です。この背後にある考え方は、ベイズの定理に基づいています



画像



。簡単に言えば、この方程式は次の質問に答えるために使用されます。 「y(私の出力変数)とX(私の入力変数)の確率はどれくらいですか?また、変数は特定のクラスに対して独立しているという素朴な仮定のため、次のように言うことができます。



画像



また、分母を削除することにより、P(y | X)は右側に比例すると言えます。



画像



したがって、目標は、比例確率が最も高いクラスを見つけることです。





Q:基本会費の変更は市場にどのような影響を与えますか?



この質問への答えについては100%確信が持てませんが、最善を尽くします!



基本会費の値上げの例を見てみましょう。買い手と売り手の2つの関係者が関わっています。



買い手にとって、基本会費の値上げの影響は、最終的には買い手の需要の価格弾力性に依存します。価格弾力性が高い場合、特定の価格上昇は需要の大幅な低下につながり、逆もまた同様です。会費を購入し続けるバイヤーは、おそらくAmazonの最も忠実でアクティブな顧客であり、プレミアム製品にももっと注意を払うでしょう。



アマゾン製品のバスケットを購入するコストが高くなっているため、売り手は苦しむでしょう。これにより、一部の食品はより影響を受けますが、他の食品は影響を受けない場合があります。アマゾンの最も忠実な顧客が購入しているプレミアム製品は、電子機器ほどひどく打たれることはないでしょう。



清聴ありがとうございました!



これらのインタビューと彼らが扱う問題について私が気に入っているのは、2つのことです。

  • 彼らはあなたが前に精通していなかった新しい概念を学ぶのを助けます。
  • 彼らはあなたが新しい角度から知っている概念を開きます。


これらすべてが、データサイエンスの世界への旅の準備に役立つことを願っています。



, Data Science AR- Banuba - Skillbox.



, -: , , . «» .



« ». . , , , .



:

1) , ?

2) ?

3) ?

4) , , -?

5) , ?



, .




All Articles