これらすべての データ レイク(データの沼)、 QCD (データの企業の墓場)、 データ マイニング(見て、弱体化しないでください)、 データ ガバナンス(データの奴隷になる) などは、ストーリーから消えず、定期的に置き換えられます。お互い。別の HYIP の寿命が 1 年か 2 年を超えることはめったにありませんが、ご希望があれば、ほとんど忘れられている技術を喜んで掘り起こしてくれるでしょう。
同時に、大きな日付は、空飛ぶカーペット、ウォーキング ブーツ、またはシャマカンの女王 (関連する人) など、さまざまな奇跡を得ることができる魔法の箱として販売されています。しかし、原則として、空飛ぶじゅうたんは魔法の mo eatenに食われます - そして、それはもはや飛ぶことはなく、ブーツの靴底は落ちました - そして、それらの中を歩くのは不便ですが、老朽化した女王については何も言うことはありません.
この記事では、今でも機能する古き良きテクノロジーについてお話したいと思います。上記のHYIP技術から何を学ぶことができるか - そして、私たちのような単なる人間のために、月給1万ドル以上のデータサイエントロジストを雇うことなく、これらすべてを使用する方法について.
この記事は次のサイクルを続けています:
夢の会社の構築: マスター データと統合
夢の会社の構築: データ品質の管理
コンテンツ
1. ビッグデータ: 問題文
2. マスターデータ: 不朽の名作
3. データの保存方法: QCD が必要
か 4. 正規化、またはなぜデータスワンプが必要なのか
5. データサイエンティストはなぜ多くのアナリストを獲得し、より少ない分析を行うのか?
6. データ バス vs マイクロサービス
7. 誇大広告にまったく乗ら ないためには?
1. ビッグデータ: 問題文
現代文明の発展におけるビッグデータの役割は印象的です。しかし、あなたが考える理由ではありません。
ポルノやソーシャル ネットワーク (メッセンジャー) のおかげで、すべての村とすべての電話にインターネットが出現した場合、ビッグ データはハード ドライブと RAM のメーカーに数兆ドルを寄付しました。
問題は、現代のビッグデータの (広い意味での) すべての人類にとっての本当の利点が、ポルノグラフィーの利点に近いことです。いくつかの例外を除いて ... ゼロ!
どうだろう、驚くだろう。結局、コンサルタントや営業担当者は、航空機エンジンの状態の診断に関するゼネラル エレクトリックから、Google のターゲット広告まで、12 の例を話します。
より正確には、問題は結果の再現性です。ビッグデータの営業担当者が短いベンチを持っているという秘密を教えてあげましょう。彼らにさらにいくつかの例を尋ねると、リストは 2 番目の 10 で終わります。私は、彼らがもっと多くのメッセンジャーやポルノ サイトの名前を挙げられると確信しています :) 単に物理的にもっと多くのサイトがあるからです。
もちろん、データ サイエンティストの仕事の結果はありますが、顧客を満足させることはめったにありません。なぜなら、1 年間の作業と数百万の設備と給与を費やして、最終的には、ライン マネージャーやフィールド スペシャリストにとって明らかな、まったく些細な結論とパターンを与えるからです。たとえば、最も売れている製品は人間の目の高さに配置されます。
そしてゼネラル・エレクトリックは、大学の数学コースに見られる数学的分析と統計の方法に基づいて、競争上の優位性を築いてきました。当時はビッグデータという概念は存在しませんでした。
しかし、微積分について誇大広告をすることはできません。また、大企業の経営者は、200 年前のフーリエとコーシーの手法について耳にすることはほとんどありません。結局のところ、そこにあるものはすべて退屈で退屈で、よく考える必要があり、銀の弾丸や魔法の薬は絶対にありません 。
何をすべきか?作業!長い間、退屈で憂鬱で、アクティブな思考を促進する雰囲気を作り出そうとしました。 Bell Labs または同じ GE の標準的な例のように。さらに、あなたや私のようなごく普通の人々も、正しい方法で彼らに動機を与えれば、それを実現できる可能性は十分にあります。
そして、あなたは始める必要があります...
2. マスター データ: 不朽の名作
マスター データは、会社にある情報を構造化するためのアプローチです。ある時点で、1 つまたは別のエンティティが会社の 2 つ以上のシステムで同時に使用されていることに気付いた場合 (たとえば、内部サイト、1C-Accounting データベースまたは CRM システムの従業員のリスト)、それを別のマスター データ システム (MDM) に配置し、すべてのシステムでこのディレクトリのみを使用するように強制します。その過程で、すべての参加者が必須フィールドと属性に同意し、このデータの品質を管理するための多くのルールを作成する必要があります。
30 歳未満のデータ サイエンティストの間では、MDM の採用の時期は 2008 年頃に始まり、2012 年から 2015 年頃に終わったと信じられています。その後、非常に多くの新しいツール (あらゆる種類の Hadoop と Spark) があり、マスター データを気にする必要はなく、すべてのシステムの所有者と交渉する必要もありません。 MDM アーキテクチャと各ディレクトリの各特定の属性。
彼らにとって、そしてあなたにとって幸運なことに、このウィンドウは閉じませんでした。MDM システムは、会計システムや顧客インタラクション システムと同じくらい関連性があります。そして、あなたはまだ考え、交渉する必要があります。
3. データの保存方法: QCD は必要ですか
いいえ、企業データの墓場は必要ありません。
分析目的で、すべてのデータのセットを特別に準備する必要があるという考え (QCD のイデオロギーは、この単語を太字で強調表示するだけでなく、二重線で下線を引いています) はばかげています。これらのデータの実際の使用率は最小限であり、99% は使用されていません。
ただし、事前に作成されたデータセットのアイデア自体は問題ありません。事前ではなく、潜在的な使用の前にそれらのみを準備する必要があります。そして、もちろん、そのようなトレーニングのための実用的な方法論を持つ必要があります。
4. 正規化、またはなぜデータスワンプが必要なのか
これは「データレイク」または「データスワンプ」に関するセクションです。伝説によると、すべてのデータを無差別に 1 つの大きなヒープにダンプできると言われています。すべてのデータを 1 つの形式に変換する必要も、正規化してクリーンアップする必要もありません。
そして、このようなデータのダンプから有用な結論を導き出し、魔術師のように必要な規則性を得ることができる特別なソフトウェアがあるということです。
実際、データ レイクから得られる最も「価値のある」結論は、1 月の休暇中は会社がほとんど機能しないということです。
そして、主な問題は、一部の詐欺師がどのようにして少なくとも誰かにこのアプローチの効率性を納得させたのかということです。私は催眠になりがちです:)
5. データ サイエンティストはなぜ、より多くの分析を行い、より少ない分析を行うのですか?
マーケティング、有能な自己表現、最大の自信。催眠術も否定しません:)
6. データバスとマイクロサービス
テクノロジーの誤用の私のお気に入りの例。かなり大きな会社では、開発の特定の段階でデータ バスが登場します。必ずしも同じで「科学的に」というわけではありませんが、機能自体はうまく実装されています。前回の記事では、アプローチについてより体系的に読むことができます 。
別の方法として、成功しつつある若い企業は、使用するシステムごとに異なるマイクロサービスまたは一連のオープン API を使用することを提案されます。
はい、マイクロサービスは、他の人が統合できる単一の製品を作成するときに非常に役立ちます。マイクロサービスは、作成しやすく、テストしやすい傾向にあり、開発中にネゴシエートする必要がありません。このため、開発者と管理者の両方に愛されています。
実践が示すように、任意の 2 つのシステムは、マイクロサービスを通じて完全に統合されます。どれでもいいです。すべてを非常に注意深く文書化し、自動テストでそれをハングアップする場合、どの 5 つでも許容されます。
すでに 10 のシステムで、最初は見栄えの良いアーキテクチャでしたが、特定のフローが停止して数か月間機能しない場合、アプローチは一種のもつれ、つまり Web に変わります。
数十のシステム (この数字は印象的なだけに見えますが、どの企業でももっと多くの情報システムが使用されています) では、アプローチ自体が埋もれています。そして数年後、ある種の中央集権化とバスがあります。原則として、それは他の人によって行われます。
7. 誇大広告にまったく巻き込まれないようにする方法は?
アプローチやテクノロジーが役に立たない場合の誇大広告の例をいくつか見てきました。そして、これは、世界の統計によると、IT の開発と実装のために成功したプロジェクトの割合が 40% を超えることはめったにないという事実を考慮に入れています。
失敗した、または役に立たないプロジェクトの後味は、別の影響力のあるマネージャーが別の誇大広告に「またがる」まで、会社が一時的に IT イニシアチブを完全に放棄するようなものになる可能性があります。
誇大広告に乗らないために、次の実装の前に、次のことを知る必要があります。
- テクノロジーには大きな「ベンチ」があります。成功したアプリケーションの例の数は数十を超える必要があり、「ここで何らかの魔法が起こっている」という印象を与えてはなりません。
- テクノロジーは「おばあちゃんのテスト」に合格する必要があります (エッセンスの説明は、あなたのおばあちゃんでもマスターできるように明確でなければなりません - 繰り返しますが、魔法はありません)。
- テクノロジーには、結果としてあなたの会社が受け取る成果の具体的でデジタル化されたリストが必要です。 MDM、CRM、または同じ 1C 会計部門の実装者は、特定のタスクの例を使用して、ソリューションの利点について何時間も話すことができます。 「一般的に」ビッグデータの実装者は、最初に大量のデータを収集し、次にそのデータをどう処理するかを検討すると言い始めます。
- そして最後に、技術は (ポッパーの基準の意味で)改ざんされなければなりません 。実装者は明らかにそのアプリケーションと関連性の範囲を理解しなければならない-と主張することができる に対して(!) 実装。顕微鏡で釘を打ち込む必要はありません。たとえば、一般的に、クライアントが少ない場合、スーパー デューパー CRM が必要ですか?
概して、これはただ仕事を続けるのに十分であり、HYIP に気を散らされることはありません。
他の基準を提案できますか?
私はあなたを議論に招待します!