数年前に始めたらデータサイエンスをどのように勉強するか、またはデータサイエンスを効果的に学ぶためのガイド

私が最初にデータサイエンスの旅を始めたとき、私はどこから始めるべきか、最初に何を学ぶべきか、そしてどのリソースを使うべきかを理解することに多くの時間を費やしました。過去2年間で、プログラミングと統計のどちらに重点を置くか、新しいスキルを習得するためにどのリソースを使用すべきか、それらのスキルの習得にどのように取り組むべきかなど、以前に知りたいことがいくつかありました。したがって、この記事は、データサイエンスを研究している人々に方向性と洞察を提供するために書かれています








目次:



はじめに

1.数学と統計

2.プログラミングの基礎

3.機械学習のアルゴリズムと概念

4.データサイエンスの分野のプロジェクト



前書き



私の推測では、新進のデータサイエンティストとして、さまざまな機械学習アルゴリズム、データサイエンスの概念などの概念と詳細を完全に理解する必要があります。

したがって、機械学習アルゴリズムやデータ分析アプリケーションを検討する前に、ベースから始めることをお勧めします。計算と積分、線形代数と統計の基本的な理解がない場合、さまざまなアルゴリズムの基礎となるメカニズムを理解することは困難です。同様に、Pythonの基本的な知識がない場合、知識を実際のアプリケーションに変換することは困難です。以下は、私が勉強することをお勧めするトピックの順序です。



  1. 数学と統計。

  2. プログラミングの基本。

  3. 機械学習のアルゴリズムと概念。






1.数学と統計



他のすべてと同様に、楽しいものに入る前に基本を学ぶ必要があります。私を信じてください、私がいくつかの機械学習アルゴリズムを始める前に数学と統計を学ぶことから始めたならば、それは私にとってはるかに簡単でしょう。私が見ることをお勧めする3つの一般的なトピックは、計算/積分、統計、および線形代数(順不同)です。



インテグラル



確率分布と仮説テストに関しては、積分が重要です。専門家である必要はありませんが、積分の基本を学ぶことはあなたの最大の利益です。最初の2つの記事は、積分が何であるかを理解したい人、または知識を磨く必要がある人を対象としています。積分についてまったく何も知らない場合は、カーンアカデミーコースを受講することをお勧めします。最後に、スキルを磨くためのいくつかの実用的なタスクへのリンクを次に示します。





統計学



注目すべきトピックがあるとすれば、それは統計です。結局のところ、データサイエンティストは真に現代的な統計学者であり、機械学習は統計学の現代的な用語です。時間があれば、確率、ランダム変数、確率分布、仮説テストなどの基礎をカバーする統計的手法」というタイトルのジョージアテックコースを受講することをお勧めします このコースに専念する時間がない場合は、統計に関するカーンアカデミーのビデオをご覧になることを強くお勧め します



線形代数



線形代数は、深い学習に飛び込みたい場合に特に重要ですが、それでも、主成分分析や推奨システムなど、他の基本的な機械学習の概念を知ることは有用です。線形代数をマスターするには、カーンアカデミーもお勧めし ます!




2.プログラミングの基礎



数学と統計の基本的な理解が重要であるのと同じように、プログラミングの基本的な理解は、特に実装に関しては、あなたの生活をとても楽にしてくれます。したがって、機械学習アルゴリズムに飛び込む前に、時間をかけて基本的な言語(SQLとPython)を学ぶことをお勧めします。



SQL



どこから始めても構いませんが、SQLから始めます。どうして?データサイエンティストでなくても、データ会社に雇用されているかどうかを知るのは簡単で便利です。



SQLを初めて使用する場合は、ModeのSQLチュートリアルを確認することをお勧め します。これは、非常に簡潔で詳細なためです。より高度な概念を学びたい場合は、高度なSQLを学ぶことができるリソースリストを確認してください



以下は、SQLの練習に使用できるいくつかのリソースです。





Python



私はPythonから始めましたが、おそらく私の人生の残りの間、この言語を使い続けるでしょう。オープンソースの貢献という点でははるかに進んでおり、簡単に学ぶことができます。必要に応じてRを自由に利用できますが、Rについての意見やアドバイスはありません。練習を通じてPythonを学ぶ方がはるかにやりがいがあることがわかりました。しかし、いくつかのPythonクラッシュコースを受講した後、このコースが最も完全である(そして無料である!)という結論に達しました。





パンダ



おそらく、知っておくべき最も重要なライブラリは、データの操作と分析のために特別に設計されたPandasです。以下は、学習曲線を加速する2つのリソースです。最初のリンクはRandasの使用方法に関するチュートリアルであり、2番目のリンクには知識を固めるために解決できる多くの実用的なタスクが含まれています。








3.機械学習のアルゴリズムと概念



記事のこの部分に到達した場合、それはあなたが基礎を築き、興味深いことを学ぶ準備ができていることを意味します。この部分は、機械学習アルゴリズムと機械学習の概念の2つに分かれています。



機械学習アルゴリズム



次のステップは、さまざまな機械学習アルゴリズム、それらがどのように機能し、いつ使用するかを学ぶことです。以下は、それぞれを学習するために使用できるさまざまな機械学習アルゴリズムとリソースの部分的なリストです。





機械学習の概念



さらに、機械学習のいくつかの基本的な概念も学びたいと思うでしょう。以下は、私が学ぶことを強くお勧めする概念の(網羅的ではない)リストです。多くのインタビューの質問はこれらのトピックに基づいています!








4.データサイエンス分野のプロジェクト



この時点で、強固な基盤を構築するだけでなく、機械学習の基礎についてもしっかりと理解できるようになります。今度は、いくつかの個人的なサイドプロジェクトに取り組む時が来ました。データサイエンスプロジェクトの簡単な例をいくつか見たい場合は、私のプロジェクトのいくつかをチェックしてください。



  • 分類方法を使用したワインの品質の予測(記事Github)。
  • Plotlyを使用したコロナウイルスデータの視覚化(記事Github)。
  • コラボレーティブフィルターを備えた映画推薦システム(Github)。


これは 、興味深いサイドプロジェクトを考え出すために見ることができるデータサイエンスプロジェクトのリストです



この投稿が、データサイエンスでのキャリアの方向性と助けになることを願っています。特効薬はありませんので、この投稿には懐疑的ですが、基本を学ぶことは将来的に実を結ぶと信じています。また、プロモーションコード HABRは、バナーに表示されているトレーニング割引に10%を追加します。



画像









All Articles