2021年に関連する2020年のデータサイエンスの主な傾向

こんにちはHabr!今日は、データサイエンスの分野がどのように発展しているかをお話します。2020年は世界全体のターニングポイントになり、データセクターは活発に改善しており、今日ではすでに今年の結果をまとめることができます。2020〜 2021年のDSトレンドに対応します。



KDPVを作成し、ニューラルネットワークを使用して処理しました。誰がその映画を認めたのか-その仲間!:-)




AIとニューラルネットワーク



人工知能はまだチューリングテストで困難を抱えていますが、この分野では成功しています。


2020年5月、OpenAIチームは新しいGPT-3自然言語処理アルゴリズムをリリースしました。これは間違いなく、この目的のために今日存在する最良のアルゴリズムです。



以前のバージョンのGPT-2に対するシステムの改善は非常に大きいです。アルゴリズムパラメータの数は100倍以上に増加しました。 GPT-3は1,750億のパラメーターを使用しますが、GPT-2は15億しか使用しませんでした。







以前は、ニューラルネットワークが人間にほぼ似たテキストを生成できた場合、その機能ははるかに広くなりました。



彼のApolosアカウントの1人の学生は、GPT-3によって書かれた記事を投稿 しましたやる気を起こさせるトレーナーのスタイルで、それほど難しいことではありません。そして、記事が人によって書かれたものではないと疑った読者は、数万人に1人だけでした。







実際、これがOpenAIが無料アクセスのアルゴリズムをリリースしない理由です-その助けを借りて、偽のニュースの雪崩の下にインターネットを簡単に埋めることができます。



GPT-3の潜在的なメリットは計り知れません。新世代の音声アシスタントの作成から、RPGをまったく新しいレベルに引き上げる適応型ゲームメカニズムの開発まで。



ちなみに、GPT-3がプレイするテキストベースのゲーム、AIダンジョンを試したことはあります か?そうでない場合は、試してみてください。非常に興味深い体験です。この 記事では、これらの経験の1つについて説明します。


意思決定インテリジェンス



意思決定科学は、意思決定に関する科学理論を研究するかなり最近の分野です。そのため、意思決定者の主観的な経験や感情に基づいてではなく、データの分析と比較を通じて決定が下されます。



DIを使用すると、意思決定者の負担を軽減して、日常的および運用上の決定を自動化できます。



InferVision, Alpha Go, 2015 , 2020 . , . . 10 30 .



InferVision, 5 . , . . , , , .



意思決定インテリジェンスは、AIと深い学習に基づいています。たとえば、InferVisionは10万件のケースでトレーニングを受けています。



もちろん、現在の技術開発では、AIは、複数のバリアントを持つシステムで客観的に優れた決定を下すことはできません。それは単に分析のためのパワーと入力データを欠いています。しかし、多くの場合、それはあなたが人の衝動性、彼の偏見、そして平凡な思考の誤りを排除することを可能にします。また、日常的な意思決定プロセスを自動化し、複雑な問題を解決するための専門家の時間を節約します。



クラウド分析



クラウド分析システムは以前から存在していましたが、2020年には、その開発のダイナミクスが大幅に向上しました。



クラウド分析は、頻繁に更新される大規模なデータセットを使用するプロセスを簡素化します。会社のすべての部門のための統一された分析システムは、分析結果を更新し、それらの使用を加速するのに役立ちます。



リアルタイム分析は、多くの企業が目指している次のステップです。数秒前に行われた分析のホットな結果で操作することをお勧めします。結局のところ、昨日行われた分析はすでに不正確である可能性があります。



クラウド分析は、すべての支店に分析部門を持つ大手企業にとって有望なツールです。したがって、今日のIBMなどの大企業は、このようなシステムの開発に密接に取り組んでいます。



データマーケットプレイス



クラウド関連の分析ですが、別の現象です。 



データ品質は分析にとって重要です。スタートアップがグローバルなマーケティング調査を実施する機会がない場合、ターゲットオーディエンスの実際のニーズを知らずに盲目的に移動するリスクがあります。 



しかし今、分析を購入することができます。データマーケットプレイスは、本格的な情報マーケットです。有名な Statistaはそのような最初の市場の1つですが、現在、業界は驚異的なペースで成長しています。



当然、(少なくとも合法的に)個人データを販売する人は誰もいません。名前と姓、住所、電話番号、電子メールは法律で保護されています。ただし、匿名化されたデータは販売できます。そして、ビジネスに役立つものはたくさんあります。年齢と性別、社会的地位、好み、仕事の範囲、趣味、国籍、およびiOSまたはAndroidでのガジェットの選択に至るまで、ネットワークに残す他の何百ものパラメーター。私たちは古い真実を覚えています-ネットワーク上の何かが無料であるなら、おそらくあなた自身が支払いです。


2020年のビッグデータ市場 1,389億ドルです。専門家は、2025年までに2,294億に成長すると予測しています。これは巨大な規模であり、その大部分は情報の採掘ではなく、情報の販売によって占められます。



分析におけるブロックチェーン



ブロックチェーンの誇大宣伝はすでに少し進んでいます。怠惰な人だけが暗号通貨を立ち上げたくないのは2017年で、2020年にはブロックチェーンがより実用的な目的で使用されます。



ブロックチェーンとビッグデータの組み合わせは、完全な結合と呼ばれます。ブロックチェーンは信頼できるデータの抽出と記録に重点を置いており、データサイエンスは大量のデータを分析して開発パターンを見つけ、予測を行います。



ビッグデータは量であり、ブロックチェーンは質です。

ブロックチェーンをビッグデータ分析に統合することには、多くの潜在的なメリットがあります。



  • データと分析結果のセキュリティを向上させます。

  • 最大のデータ整合性を維持します。

  • 虚偽のデータの使用を防止します。

  • リアルタイム分析。 

  • ビッグデータの品質を向上させます。



KYCのブロックチェーン(顧客を知る)。この技術は銀行や政府機関によって使用されています。ただし、異なる組織間に共通のデータストアがないため、それぞれを個別に識別する必要があります。ブロックチェーンはこの問題を解決します。 



韓国で発売されたSamsungのNexlegerプラットフォームは、このスキームを簡素化します。これで、1つの銀行または組織で完全な識別手順を実行するだけで十分です。プロジェクトシステムに含まれている銀行口座を作成する必要がある場合、これは数分で行うことができます。今、官僚的な地獄のすべてのサークルは一度だけ通過する必要があります-それだけです。


グラフデータベース



最も一般的で普及しているタイプのDBMSではありません。これは、ノードとその関係を含むトポロジを格納するために特別に設計されています。これは、従来のテーブル形式の単なるデータセットではありません。彼らの本質は異なります。



グラフは、エンティティ自体ではなく、エンティティ間の関係に基づいています。







そして、これはマーケティングのための単なるクロンダイクです。結局のところ、グラフデータベース分析は、ソーシャルネットワーク上のオピニオンリーダーやインフルエンサーの分析、広告のパーソナライズ、ロイヤルティプログラム、バイラルキャンペーンの分析、SEOの強化などに使用できます。



グラフを使用すると、リレーショナルデータベースを使用してモデル化するのに問題となる複雑な階層構造を分析できます。



2020年には、グラフ分析を積極的に使用して、中国およびそれ以降のウイルスの拡散を追跡しました。この調査は、200か国の動的データに基づいており、世界の状況の将来の進展を予測し、その影響を軽減するための対策を講じることができます。興味があれば、完全な研究はここにあり ます


2020年には、グラフDBMSへの関心が大幅に高まりました。これらは、Ebay、Airbnb、IBM、Adobe、NBC News、およびその他の数十の大企業で使用されています。そして、グラフデータベースをうまく操作する方法を知っている専門家は、金の価値があります。



データサイエンスにおけるPython



Pythonは、引き続き世界の分析および開発市場を獲得しています。そして彼の立場はますます強くなっています。あなたこの記事でもっと読むこと ができます。



PYPLランキングでは、Googleトレンドを分析するPythonが自信を持ってリードしています。 



Pythonは、プルリクエストの数でGitHubランキングの2番目にランク付けされています。これは、すべてのプルリクエストの総数の15.9%です。ちなみに、Pythonが常に分析で競合しているR言語は、すでに33位であり、プルリクエストの0.09%しか占めていません。 



Pythonに精通した分析の専門家がさらに必要です。最近 、ロシアのデータサイエンスの求人市場を分析しましたそして、空席の81%でPythonの習熟が必要であるが、R(Pythonなし)は3%のケースでのみ必要であることがわかりました。



Rは依然として分析に適した言語ですが、Pythonはほぼ完全に市場を獲得しています。2012年に彼らがほぼ同じ立場にあったとしたら、今やPythonのリーダーシップは否定できません。そして、これは考慮されなければなりません。



ビッグデータ分析の分野自体が現在活発に発展しているため、2020年はデータサイエンスに多くの新しいものをもたらしました。もちろん、これらは言及する価値のあるすべての傾向からはほど遠いものです。 そして、データサイエンティストへの別の質問-今年あなたの仕事に最も影響を与えたプロのトレンドは何ですか?大変興味を持っております。



画像









All Articles