データサイエンスをゼロから学ぶ:マイルストーンとマイルストーン

以前書いた学習へのスパイラルアプローチの概念に従って、ここにデータサイエンスを習得するための段階的な計画があります。計画は、各段階で生徒が実際のタスクに多かれ少なかれ備えられるように設計されています。このアプローチは、学習にどれだけの時間を費やしても、いつ停止しても、そのような時間に習得できる最も需要の高い知識のセットを持つという意味で、アジャイルのイデオロギーに触発されています。





この論理は逆から説明することもできます。ニューラルネットワークをすぐに学習するのは危険です。それらについて何かを知っているが、それを実際に効果的に適用する方法を知らない人は、需要がありません。また、たとえば、300時間で一連の知識を得ることができますが、実際の問題を解決するのに十分な専門家にはならず、これらのスキルを開発し続けるための開始の仕事を見つけることさえできません。





提案された計画に従って勉強すれば、各段階でそのような仕事を見つける機会が増えるので、実際の仕事の過程でさらなる成長に必要なスキルも向上する可能性があります。





各段階で、多かれ少なかれ効果的なアプローチを条件として、必要最小限の量だけを研究する参照人件費を示します(効果のないアプローチでは、各項目を10倍長く教えることができます)





後で、別の記事で、各段階に対応する優れたコースと本を書きます(最初の段階のいくつかのコースと本は、このシリーズの最初の記事の前半ですでに示されています)。





ステージ1。基本的なデータ分析ツール:SQL、Excel

  • SQLの基本(20時間)。SQLの知識は、他の多くのタスクに役立ちます。そして、いずれにせよ、それは、アナリスト、データサイエンティスト、さらには機械学習エンジニアのポジションの欠員の大部分(ほとんど?)に必要です。





  • Excelの基本(10時間):データ、数式、vlookup、ピボットテーブルのフィルターと並べ替え、グラフの基本的な作業。同僚、パートナー、または経営陣が優れた情報を提出するため、それらをすばやく理解して調査できる必要があります。多くの場合、ExcelでPythonで実行された分析の結果を準備して表示する方が便利です。





  • (20-200, ), .. , pandas/scikit, Python .





: / / -. , , 100, 50-70 .





2. Python Pandas

  • Python (80). . .





  • pandas (20 ) - . : , , ,





  • API (requests, beatiful soup)





Python API, -.





, . , -, ( ). , , .





3.

( 200-400 , )





  :





  • -





  • Overfitting









  • Data leakage





  • ( )









, :





  • :

















    • Random forest









    • kNN





  • : k-means





  • :





  • : PCA





: dummy , one-hot encoding, tf-idf









:





  • : , ( ).





  • : "correlation does not imply causation", .





  • ., ,   : . (max likelihood), (log-likelihood). ( log log-odds), ( ""). , , . , . . , senior, :





. - (/) .





4.

- scikit-learn, pandas (numpy).





, . 100-300. - , .





feature engineering





junior data scientist. . . senior , .





, CNN, RNN/LSTM , vector embeddings. , . " " , , , , , .





, .





20-40, .





5. ,  

60-200, . , , , .. ,





  • Conda, , conda





  • bash





  • Python standard library, ( itertools, collections, contextlib), , ; context managers.





  • git, IDE: pycharm/vs code. git,





  • (matplotlib+seaborn, plotnine, plotly), .





( -, ).





, , , , (feature engineering), , , (xgboost, cat-boost). . Senior .





, 2-5

- , . , , . ( ):





  • matplotlib – , . , , -. , , "" - .





  • seaborn - , . .





  • plotnine - . - , . - seaborn , matplotlib , . , , plotnine . plotly - .





  • plotly - . . , , ().





, 10-20 .





, - PowerBI Tableau, . , , 60. SQL+Excel+PowerBI/Tableau "BI-" c 100 ., 150 . .





, ,





  • regular expressions, aka RegExp (10). regexp .





  • PySpark (40 , 100-200 ) . , (). Big data. , .. . ( , ).





    Spark , , , .. SQL , , API pandas. , . Koalas, pandas spark-, Spark.





  • html - , , , .





6

, , , .





  • Python :  , , , dunderscore ____ .





  • bash, linux





  • docker





  . , , . .. , .





- (, EDA ). , . , . , , .. . , : , , .





, . , .. . , "" .





:  . 50, , , .





, , data science









, ,









, ( 2 ) , , .





, , , , . , , , . , .





, , , .





gmail.comドメインのself.development.mentor、Oleg 








All Articles