日付科学者のメモ:どこから始めればよいのでしょうか?



TL; DRは、データサイエンスに関する質問/回答、および専門職への参入と育成の方法に関する投稿です。この記事では、基本原則とFAQを分析し、特定の質問に答える準備ができています。コメント(または個人)に書き込んでください。数日以内にすべてに答えようとします。
「悪魔主義者の日付」というメモのサイクルの到来とともに、多くのメッセージやコメントに、どのように始めてどこを掘るかについての質問があります。今日は、出版後に生じた主なスキルと質問を分析します。



ここで言及されているすべてが究極の真実を主張するものではなく、著者の主観的な意見です。このプロセスで最も重要と思われる主な事項について説明します。



なぜこれが必要なのか



目標をより良く達成できるようにするために、少なくとも何らかの形で具体的に見えるようにするために-Facebook / Apple / Amazon / Netflix / GoogleのDSまたはリサーチサイエンティストになりたい-どのポジションに必要な要件、言語、必要なスキルを直接確認してください。採用プロセスとは何ですか?このような典型的な一日をどのように過ごしますか?そこで働く人の平均的なプロフィールはどのように見えますか?



多くの場合、一般的な状況として、人は自分が何を望んでいるのかを正確に理解しておらず、この漠然としたイメージをどのように準備するかが完全には明確ではありません。したがって、少なくともあなたが何を望んでいるのかを大まかに計画する価値があります。

現在の目標ビューを絞り込みます
途中で変更され、プレイ中に計画を変更するのが一般的である場合でも、目の前に目標を設定し、それに焦点を合わせ、定期的に評価して再考する必要があります。



それはまだ関連性がありますか



あなたがポジションに成長する時までに。



ポジションの前に博士号を取得し、業界で2〜3年間働き、一般的に修道院で瞑想しながら髪を切る必要があると想像してみてください。データサイエンスでも、かつてエコノミストや弁護士と同じ状況が発生するでしょうか。あなたがやりたい分野での認識を超えてすべてが変わるわけではありません。



誰もが今そこに急いでいる可能性は十分にありますか?職業に参入しようとしている人々の幅広い層があるときに写真が表示されます-そして、スタートのポジションはわずかです。



パスを選択するときは、労働市場の現在の状態だけでなく、それがどのように変化していてどこにあるかについてのあなたの考えも考慮することは価値があるかもしれません。



たとえば、作者は悪魔主義者のデートに行く予定はありませんでしたが、博士号の間に、スキルの点でDSに強く共鳴するサイドプロジェクトを見て、大学院を卒業した後、自然に水曜日に移動し、良い位置を確認しました。



プレイの過程で別の場所に行く必要があることが判明した場合-今はまさに動きがあり、最も興味深いアクションがすべて行われているので、自然にそこに行きます。



スキルの内訳



これらは、DSでの完全かつ効果的な作業の鍵となるスキルの条件付きカテゴリです。これとは別に、英語を強調します。CSで何をするかを学びます。次は主要なカテゴリーです。



プログラミング/スクリプティング



あなたは間違いなくどの言語に精通する必要がありますか? Python? Java?シェルスクリプト?ルア? Sql? C ++?



正確に何ができる必要があるのか​​、そしてなぜプログラミングの観点から-ここでは位置の範囲が大きく異なります。



たとえば、複雑なロジック、クエリ、モデル、分析を実装し、一般的に解釈されたシステムを開発する必要がありますが、最も一般的で合理的なものを除いて、コードの速度に関する要件はほとんどありません。



したがって、私のスキルセットは、Tensorflowライブラリを作成し、l1キャッシュなどを効率的に使用するためにコードを最適化することを考えている人とは大きく異なります。必要なものを正確に確認し、学習への正しいパスを評価してください。



たとえば、pythonの場合、人々はすでに言語学習マップを作成しています



確かに、あなたのニーズには、すでに経験豊富なアドバイスがあり、良い情報源があります-あなたはリストを決定し、それに取り組み始める必要があります。



ビジネスプロセスを理解する



それがなければ、どこにもありません。このプロセスで必要な理由、何をしているのか、そしてその理由を理解する必要があります。多くの場合、これはあなたにたくさんの時間を節約し、あなたの利益を最大化し、でたらめに時間とリソースを無駄にしないことができるものです。



私は通常、次の質問をします。



  • 私は会社で正確に何をしていますか?
  • 何のために?
  • 誰がどのように使用しますか?
  • どのようなオプションがありますか?
  • パラメータの制限は何ですか?


パラメータについてもう少し詳しく説明します。何かが犠牲になる可能性があることがわかっている場合は、作業のシナリオを大幅に変更できることがよくあります。たとえば、解釈可能性やその逆の場合、ここでは数パーセントは役割を果たさず、非常に迅速な解決策があり、クライアントはそれを必要としています。パイプラインがAWSで実行されている時間の料金を支払います。



数学



ここであなたは考え、あなた自身がすべてを理解します-基本的な数学の知識がなければ、あなたは手榴弾を持った赤ちゃん猿にすぎません(ランダムフォレストを許してください)-したがって、少なくとも基本的なことを理解する必要があります。最小限のリストを作成するとしたら、次のようになります。



  • 線形代数-膨大な量のリソースをグーグルで検索するのは簡単です。自分に最適なものを探してください。
  • 数学的分析-(少なくとも最初の2学期のボリュームで);
  • 確率論は機械学習のいたるところにあります。
  • Combinatorics-実際には理論を補完します。
  • グラフ理論-少なくともBASIC;
  • アルゴリズム-少なくとも最初の2学期のボリューム(彼の本のコーメンの推奨事項を参照)。
  • Matlogic-少なくとも基本的な。


実用的なデータ分析と視覚化



最も重要なことの1つは、データに手を汚すことを恐れず、データセット、プロジェクトの包括的な分析を実行し、データの迅速な視覚化を投入できることです。



探索的データ分析は、他のすべてのデータ変換や、unix tuzlesから単純なパイプラインをスローする機能(前の記事を参照)や、読みやすく理解しやすいラップトップを作成する機能と同様に、自然なものになるはずです。



視覚化については別途説明します。100回聞くよりも1回見る方がよいです。



グラフをマネージャーに表示することは、一連の数値よりも100倍簡単で理解しやすいため、matplotlib、seaborn、およびggplot2はあなたの友達です。



ソフトスキル



自分のアイデア、結果、懸念事項(など)を他の人に伝えることができることも同様に重要です。技術用語とビジネス用語の両方でタスクを明確に述べることができるようにしてください。



同僚、マネージャー、上司、クライアント、そしてそれを必要とするすべての人に、何が起こっているのか、どのデータを操作しているのか、どのような結果が得られているのかを説明できます。



あなたのチャートとドキュメントはあなたなしで読めるはずです。つまり、そこに書かれていることを理解するためにあなたのところに行く必要はありません。



明確なプレゼンテーションを行って、メッセージを伝えたり、プロジェクトや作業を文書化したりすることができます。



自分の立場を理にかなった感情のない方法で伝えることができます。「はい/いいえ」と言ったり、決定を質問/支持したりできます。



トレーニング



あなたがこれらすべてを学ぶことができる多くの異なった場所があります。簡単なリストを示します-私はそれからすべてを試しました、そして正直に言って、各アイテムには長所と短所があります。自分に合ったものを試して決定してください。ただし、いくつかのオプションを試して、1つにとらわれないようにすることを強くお勧めします。



  • オンラインコース:coursera、udacity、Edxなど。
  • 新しい学校:オンラインとオフライン-SkillFactory、SHAD、MADE;
  • 古典的な学校:大学の修士課程と復習コース。
  • プロジェクト-興味のあるタスクを選択し、githubにアップロードしてカットするだけです。
  • インターンシップ-何かを提案することは困難です。利用可能なものを探し、適切なオプションを見つける必要があります。


必要ですか?



結論として、おそらく私は自分自身に従おうとする3つの個人的な原則を追加します。



  • 面白いはずです。
  • 内なる喜びをもたらすため(=少なくとも苦しみを引き起こさないため);
  • « ».


なぜ正確なのですか?あなたが日々何かをしていると想像するのは難しいです、そしてあなたはそれを好きではないか、興味がないでしょう。あなたが医者であり、人々とコミュニケーションをとることを嫌うと想像してみてください-もちろん、これはどういうわけかうまくいくかもしれませんが、あなたはあなたに何かを尋ねたい患者の流れに常に不快になります。これは長期的には機能しません。



なぜ私は内面の喜びさえも具体的に言及したのですか?これは、さらなる発展のために、そして原則として、学習プロセスのために必要であるように私には思えます。複雑な機能を完成させてモデルを構築したり、重要なパラメーターを計算したりするとき、私はそれを本当に楽しんでいます。私のコードが見た目に美しく、よく書かれているとき、私は楽しんでいます。したがって、何か新しいことを研究することは興味深いことであり、大きな動機を直接必要としません。



「あなたのものであること」は、あなたがそれをやりたかったというまさにその気持ちです。少し話があります。子供の頃からロックミュージック(そしてメタル-サーモン!)が好きで、遊び方を学びたいと思った人は何人いたか、それだけです。私には聞こえも声もなかったことが判明しました-これは私をまったく気にしませんでした(そしてこれはステージ上で多くのパフォーマーを気にしないと言わなければなりません)、そして男子生徒として私はギターを手に入れました...そして私は本当に何時間も座っているのが好きではないことが明らかになりましたそしてそれを再生します。いつも何かのゴミが出てきているように見えたのですが、それはまったく楽しみではなく、お粗末で愚かで完全に無能だと感じただけでした。私は文字通り棒の下から授業のために座ることを余儀なくされました、そして一般的にそれは馬の餌ではありませんでした。



同時に、私は何時間も静かに座って、ある種のおもちゃを開発したり、スクリプトの助けを借りてフラッシュ(または他の何か)で何かをアニメートしたりすることができました。ゲームの要素を完成させたり、動きのメカニズムに対処したりすることに大いに動機付けられました。または、サードパーティのライブラリ、プラグイン、その他すべてを接続します。



そしてある時点で、ギターを弾くことは私のものではないことに気づきました。実際、私は演奏するのではなく、聞くのが好きです。そして、ゲームやコードを書いたとき(その瞬間にあらゆる種類の金属を聞いていたとき)、私の目は燃えていました。それが私が好きだったものであり、私はこれを行うべきでした。



まだ質問がありますか?



もちろん、すべてのトピックや質問に答えることはできなかったので、コメントを個人的に書いてください。質問があればいつでも喜んでいます。










All Articles