データサイエンスは、思考、直感、インスピレーションのアンプです

画像




データを保存および交換するための世界初のテクノロジーの1つ。



19世紀には、医師は気分のむらには水銀を、喘息にはヒ素を処方することができました。手術前に手を洗うことは彼らには起こらなかったかもしれません。もちろん、彼らは誰かを殺そうとはしませんでした-彼らはもっと適切な方法があることを知りませんでした。



これらの初期の医師は、ノートブックで貴重なデータをクロールしていましたが、大規模なパズルのピースは1つしかありませんでした。情報の交換と分析のための最新のツール(およびこのデータを理解するための科学)がなければ、迷信が観察された事実の「鍵穴」から見えるものに影響を与えるのを防ぐことはできません。



それ以来、人間はテクノロジーとともに長い道のりを歩んできましたが、今日の機械学習と人工知能のブームは、過去とは無縁ではありません。これはすべて、基本的な人間の本能の継続、つまり私たちの周りの世界を理解することです。この本能は、より賢明な決定を下すために必要です。そして今、私たちは今までになく大幅に優れた技術を持っています。



古くから続いているこのパターンを説明する1つの方法は、それをデータの単位ではなく、データセットの革命と考えることです。違いは些細なことではありません。大量のデータが現代の世界を形作るのに役立っています。5,000年以上前にスタイラスペンを粘土板に押し付けたシュメールの書記(現代のイラク)を考えてみましょう。そのとき、彼らは最初の書き込みシステムを発明しただけでなく、データを格納および交換するための最初のテクノロジーを発明しました。



AIが人間の能力を超えることができるという約束に触発された場合は、文房具を検討して超人的な思い出を与えてください。今日では当然のことながら情報の記録を取ることは簡単ですが、データセットを安全に保存する機能は、より高度なインテリジェンスへの画期的な最初のステップです。



残念ながら、粘土板とその電子化前の対応物から情報を抽出するのは面倒です。本を指でクリックして、その中の単語数を数えることはできません。代わりに、各単語を脳にロードして処理する必要があります。このような問題により、初期のデータ分析が面倒になり、初期の試みが非常に早い段階で行き詰まりました。王国は税収を分析することができましたが、千年の伝統が即興を奨励した医学のような分野で同じくらい効果的に推論することができるのは大胆不敵な魂だけでした。



画像



幸いなことに、人類は信じられないほどの先駆者を生み出してきました。たとえば、1858年にロンドンでコレラが発生した際に編集されたジョンスノーの死の地図は、医師がこの病気がミアズマ(有毒空気)によって引き起こされているという迷信を再考し、飲料水に注意を払うように促しました。



画像



ランプを持つ女性、フローレンスナイチンゲールの看護婦としての勇ましい思いやりを知っているなら、彼女が分析のパイオニアでもあったことを知って驚くかもしれません。クリミア戦争中の彼女の独創的なインフォグラフィックは、病院の死の主要な原因として衛生上の問題を特定し、政府が衛生に注意を払うように促したのはこのインフォグラフィックでしたので、多くの命を救いました。



画像



統一されたデータセットの時代は、情報の価値がますます多くの領域で主張し始め、コンピューターの出現につながったときに出現しました。そして、これはあなたが今日慣れている電子仲間についてではありません。 「コンピュータ」(計算機)は、特別な従業員が重要性を評価するために手動で計算を実行し、データを処理したときに、人間の職業として生まれました。



画像



これらの人々はすべてコンピュータでした! 1950年代に超音速圧力トンネルのスタッフが撮影した写真



データの優れた点は、薄い空気よりも意味のあるものから判断を下すことができることです。データを見ると、フローレンスナイチンゲールとジョンスノーの足跡をたどって、新しい質問をするように促されます。これが分析の分野です。つまり、研究を通じてモデルと仮説を刺激することです。



データセットからデータ分割へ



20世紀初頭、不確実性に直面してより良い意思決定をしたいという願望が、統計学という平行した専門家の誕生につながりました。統計学者は、アナリストが現在のデータセット(およびそれ以降)で発見した現象に従って行動することが妥当かどうかを確認するのに役立ちます。



有名な例は、統計に関する世界初の教科書を開発したロナルドA.フィッシャーです。フィッシャーは、友人の主張に応じて仮説検定を実行すると、ミルクがお茶の前または後にお茶に追加されたかどうかを判断できると述べています。データに基づいて、これが真実ではないことを証明することを望んで、彼は彼の友人が本当にそれをすることができたであろうと結論しなければなりませんでした。



分析と統計には大きなアキレス腱があります。同じデータを使用して仮説を生成し、それをテストすると、不正行為になります。厳密な統計では、適切なアクションを実行する前に、意図を宣言する必要があります。 Analyticsは、より遡及的なゲームです。次の大きな革命(データ共有)がすべてを変えるまで、分析と統計は苛立たしいほど互換性がありませんでした。



データの共有は簡単なアイデアですが、私のような科学者にとって最も重要なアイデアの1つです。データセットが1つしかない場合は、分析(根拠のないインスピレーション)と統計(強力な推論)のどちらかを選択する必要があります。トリックしたいですか?データセットを2つに分割すると、オオカミの餌と羊の金庫の両方が手に入ります。



2つのデータセットの時代は、分析と統計の間の緊張を取り除き、2つの異なるタイプのデータサイエンティスト間の協調作業を導入します。アナリストは1つのデータセットを使用して質問を作成し、統計担当者は別のデータセットを使用して強力な回答を提供します。



この贅沢はデータ量に厳しい要求を課します。実際に実装するよりも、分離について話す方が簡単です。少なくとも1つのまともなデータセットについて十分な情報を収集しようとした場合、これが何であるかがわかります。ダブルデータセットの時代は、より優れたデータ処理装置、より低いストレージコスト、および収集された情報をインターネット経由で共有する機能と連動する新しい開発です。



実際、ダブルデータセットの時代につながった技術革新は、次のフェーズ、つまり自動3データセットの時代に急速に幕を開けました。



これには、より身近な用語である機械学習があります。



データセットを使用すると、統計的厳密性のソースとしての純度が失われます。チャンスは1つしかないので、どの分析的洞察がテストする価値があるかをどのようにして知るのでしょうか。 3番目のデータセットがある場合は、それを使用してアイデアをテストできます。このプロセスは検証と呼ばれ、機械学習を機能させる中心的な役割を果たします。



すべてをテストして確実なアイデアを自由に見ることができたら、誰でも信頼して解決策を見つけることができます。経験豊富なアナリスト、インターン、占い用の茶葉、さらにはビジネスの問題に関するコンテキスト外で機能するアルゴリズムです。検証プロセスで最高のパフォーマンスを発揮するソリューションは、適切な統計テストの候補になります。インスピレーションを自動化する機能で自分自身に力を与えました!



自動化されたインスピレーション



これが、機械学習がデータだけでなくデータセットに革命を起こす理由です。これは、3方向のパーティションに十分なデータを持つという贅沢さのすべてです。



AIはこの画像にどのように適合しますか?多層ニューラルネットワークを使用した機械学習は、技術的にはディープラーニングと呼ばれていますが、音声で定着している別のニックネーム、AIを受け取りました。 AIはかつて異なる意味を持っていましたが、今日ではディープラーニングと同じ意味で使用されている可能性が高いです。



ディープニューラルネットワークは、多数の複雑な問題に対して従来の機械学習アルゴリズムを打ち負かして話題を呼んでいます。ただし、それらをトレーニングするにはより多くのデータが必要であり、データ処理機能の要件は従来のラップトップの機能を超えています。そのため、最新のAIの出現はクラウドテクノロジーに関連しています。クラウドテクノロジーでは、ハードウェアを自分で組み立てるのではなく、他の誰かのデータセンターを借りることができるため、投資を始める前に最新のAIテクノロジーを試すことができます。



このパズルのピースを使用して、機械学習とAIの専門家、アナリスト、統計学者の完全なセットの職業を手に入れました。それぞれを説明する一般的な用語は、データを有用にする科学であるデータサイエンスの専門家です。



データサイエンスは、トリプルデータセットの時代の産物です。今日の業界の多くの業界は、十分なデータを定期的に生成しています。では、4つのデータセットアプローチは可能ですか?



トレーニングしたモデルの検証値が低い場合、次のステップは何ですか?あなたがほとんどの人のように振る舞うなら、あなたはすぐに理由を見つけるように要求します!残念ながら、あなたの質問に答えられるデータセットはありません。検証データセットを掘り下げたくなるかもしれませんが、悲しいことに、デバッグはモデルを効果的に検証する機能を壊します。



検証データセットを分析することで、基本的に3つのデータセットを2つに戻します。何か便利なことをする代わりに、思わず過去に戻りました!



ソリューションは、すでに使用している3つのデータセットの外にあります。よりスマートな学習の反復とハイパーパラメトリックチューニングを実現するには、4つのデータセットの時代というベストプラクティスに近づくことをお勧めします。



3つのデータセットがインスピレーション、学習の反復、および厳密なテストを提供すると想定すると、4番目のデータセットは、各反復でどのアプローチを試すことができるかについての洞察を提供する高度な分析によってAI開発サイクルを加速します。 4方向のデータ共有を使用することで、豊富なデータを活用できます。未来へようこそ。



画像



SkillFactoryの有料オンラインコースを受講して、スキルと給与の注目の職業をゼロから取得する方法の詳細をご覧ください。











All Articles