データレイク
データ湖は、非構造化および半構造の両方の生の生データの大きなリポジトリです。データはさまざまなソースから収集され、簡単に保存されます。これらは特定の目的のために変更されておらず、どの形式にも変換されていません。このデータを分析するには、データを均一にするために、長い事前準備、クリーニング、およびフォーマットが必要です。データレイクは、インフラストラクチャの中断、交通、犯罪、または人口統計に関連する情報を保存する市政府やその他の組織にとって優れたリソースです。このデータは、後で予算を変更したり、ユーティリティや緊急サービスに割り当てられたリソースを修正したりするために使用できます。
データストア
データウェアハウスは、品質とフォーマットの点を統一して、その単一の中央リポジトリに異なるソースから集計されたデータです。データサイエンティストは、データマイニング、 人工知能(AI)、 機械学習などの分野でストレージからのデータを活用できます そしてもちろん、ビジネスインテリジェンスにおいて。大都市では、データウェアハウスを使用して、スピード違反切符や物品税などのデータなど、さまざまな部門からの電子取引に関する情報を収集できます。開発者は、データウェアハウスを使用して、自動車センサーによって生成されたテラバイトのデータを収集することもできます。これは、自動運転の技術を開発する際に正しい決定を下すのに役立ちます。
データショーケース
データマートは、会社またはその部門のユーザーの特定の円のために設計されたデータウェアハウスです。データマートは、製造会社のマーケティング部門がマーケティング計画を作成するときにターゲットオーディエンスを特定するために使用できます。また、製造部門がパフォーマンスとエラー率を分析して、継続的なプロセス改善の条件を作成するために使用することもできます。データマートのデータセットは、分析と実用的な結果のためにリアルタイムで使用されることがよくあります。
湖、倉庫、データマート:主な違い
上記のすべてのリポジトリはデータの保存に使用されますが、それらの間には大きな違いがあります。たとえば、データウェアハウスとデータレイクは大規模なリポジトリですが、レイクはほとんどが非構造化データを格納するため、通常、実装と保守のコストの点で費用対効果が高くなります。
データレイクアーキテクチャは過去数年間で進化し、現在ではより多くのデータとクラウドコンピューティングをサポートできるようになっています。さまざまなソースから一元化されたリポジトリに大量のデータが流れます。
データウェアハウスは、次の3つの方法のいずれかで編成できます。
- クラウドプロバイダーが提供するマネージドサービスとして。
- , .
- , , .
倉庫内のデータは、湖内のデータよりもさまざまな目的に使用する方が簡単です。これは、ウェアハウス内のデータが構造化されており、取得と分析が容易であるためです。
データマートには、特定の人々のグループまたは会社の部門が使用するために分類された倉庫や湖と比較して、少量のデータが含まれています。データマートは、論理データ構造によって定義されたさまざまなスキーマ(星、雪片、または金庫室)で表すことができます。データボールト形式は、最も柔軟性があり、用途が広く、スケーラブルです。
データマートには次の3つのタイプがあります。
- エンタープライズデータウェアハウスの一部で構成される依存データマート。これには、ウェアハウスのプライマリデータのセットが含まれています。
- , , .
- , . .
データリポジトリのタイプと構造の選択は、企業のニーズと要件に大きく依存します。それが重要な場合 は、柔軟性と拡張性を備えたハイブリッドクラウドストレージと、問題解決と意思決定に対するより包括的で情報に基づいたアプローチを活用してください。
IBMは、さまざまなクラウドストレージおよびデータマイニングソリューションを提供しています。 Tanmay Sinhaプログラムディレクター、Db2ポートフォリオブログリンク