Data-Officeの作成方法





こんにちは、私はIldar Raimanovであり、社内のBIソリューションの開発を担当するBARSGroupの部門の責任者です。データの取り扱いに豊富な経験を持ち、業界の専門知識を持っていることから、大量のデータを処理できるコンピテンスセンターを設立し、顧客の特定の主題の要求に応じた知識形成サービスを提供できるようにすることにしました。



データオフィス一度に複数のコンポーネントが含まれます。これは、「ビッグデータレイク」と準備されたマートの両方、ソースシステムからデータを入力するプロセス、データ品質をチェックするメカニズムを含む、十分に開発されたストレージです。これらまたはこれらの数字は、業界の仕様に応じての話、および様々なソフトウェアツールのコースを設定されているかを理解methodologistsのチームは、メインのうちでアルファBIビジネスインテリジェンスプラットフォームBARSグループによって開発されました。



情報をさらに理解しやすくするために、本文で強調されている重要な用語を簡単な言葉で明らかにしようと思います。



アプローチとステップについてさらに詳しく説明すると、Data-Officeのフレームワーク内で、次のシーケンスを定義しました



。1。サブジェクトエリアの分析-強調表示サブジェクトエリア、メインエンティティを説明する方法論者のチームは、メインストレージの論理データモデルを準備します方法論者



は誰ですか?これらは本質的に、データの本質を理解している業界の専門家です。たとえば、私たちが金融について話している場合、これらは会計士や金融業者である可能性がありますが、医学について話している場合、これらは医師やその他の資格のある医療従事者です。論理データモデルを構築できるのは彼らの理解ですつまり、関係とともに分析されるエンティティのセット-どのエンティティが別のエンティティとの関係でどのような関係を持つことができるか。



2.論理データモデルに基づいて、正規化された物理モデルが作成されデータアーキテクトが接続されます。もちろん、ここではITスペシャリストが必要です。ITスペシャリストは、エンティティのセットをテーブルに変換し、必要な外部キー、属性、インデックスを作成するためです。つまり、いわゆる物理モデルを構築するだけです。



3.データフローモデルが作成され、ソースと統合オプションが確立されます。データフローモデルは、次のルールが記述された送信データのセットです。どこから、どこから、どの条件で、どの頻度で。



4.原則として、大量のデータについて話しているため、最初はソースからのデータが「現状のまま」の形式でデータバッファー(「生データ」の最初のレイヤー)に送られます。ここでの目標は、データのロードにかかる時間を短縮することであり、必要に応じて分析チェーンを最初の値に巻き戻す機能を維持するために、一連のプライマリデータを用意することを目標としています。



5.バッファから第2層へのデータ変換の問題-正規化されたストレージ、およびバッファ内の情報の更新と保存の頻度が解決され、増分更新の問題はすぐに解決されます。データ品質の問題、方法、ツールも検討されています。データ品質の下で必要な論理コンテンツへの情報の対応が暗示されます。それはすべて、単純なフォーマット論理制御の検証から始まり、より複雑な方法論パターンで終わります。



6.方法論者は消費者の事例を分析し、これに基づいて、考えられるデータマート、つまり特定の質問に答えるのに役立つ特別に準備されたデータセットについて説明します。BI開発

チームは分析データウェアハウスであるデータマートのセットをすでに直接形成しています。これは第3層です。 7.データ用語集作成に関して並行して作業が進行中であることに注意する必要があります。



(詳細な方法論的説明)およびこの最も詳細な方法論的説明によるリポジトリのエンティティ間の関係の継続的な更新。



8.上記のプロセス中のツールボックスは、アプリケーションによって異なる場合があります。 Alpha BIビジネスインテリジェンスプラットフォームが主に使用され、それに基づいてストレージレイヤーがPostgreSQL上に構築され、ETLタスクはプラットフォーム自体を使用して解決されます。



9.準備されたショーケースを使用した直接作業もAlphaBIを経由します。知識獲得の必要性を受け入れる-最初に、方法論者のチームがタスクを分析し、既存の論理モデルにそれを課し、次にBI開発者のチームがそれを課します、件名指向の設定を受け取った後、ショーケースに基づいて必要な選択、OLAPキューブ、ダッシュボード、レポートを実現します。状況に応じて、ショーケースが多少変形したり、新しいショーケースが作成されたりすることがあります。



ツールとビッグデータについて言えば、ここ数年、ファッショナブルな「BigData」をキッチンで使用した経験、Hadoop(大量の生の履歴データを保存するためのレイヤー)について言及することは間違いありません


技術的な観点から、Alpha BIは、PXFプロトコル(プラットフォーム拡張フレームワーク)を使用して、大規模並列分析DBMSGreenplumに基づいて構築されたレイヤーを介してHadoopと対話します。



同様に、Greenplumを使用すると、オンライン分析とホットデータの処理の可能性が実装されます。これは、たとえば10秒ごとに更新されます。ホットデータの場合、Greenplumを介した対話は、PXFプロトコルを使用してメモリ内のApacheIgniteデータベースで構築されます。



1日の終わりに、IgniteテーブルのデータがHDFSに転送され、Igniteから削除されます。



要約すると、もう一度要約したいと思います。データは機能し、役立つはずです。それらから可能な限り知識を抽出するために、上記のすべての側面に注意を払う必要があります:ストレージの構築に適切にアプローチし、最適なデータフローを決定し、「数字」の主題領域を理解し、タスクのツールを選択します。



同時に、もちろん、チームの編成と、志を同じくする専門家がそれぞれ作業する必要のあるさまざまなタイプのタスクへのセグメント化に特別な注意を払う価値があります。



そして、数百万、数十億の行と数テラバイトのメモリを備えたデータが実際に機能し始め、知識を与え、したがって有用になります!



コメント欄でご質問にお答えさせていただきます!)



All Articles