データ階層化: データ資産スチュワードの作成

I.はじめに

企業データの規模が拡大するにつれて、データの価値はますます重要になります。ただし、従来のデータベースは大量のデータを運ぶ際に課題に直面し、効率的かつ秩序立ったメンテナンスが必要になります。したがって、効率的なデータ ウェアハウスの確立は企業の意思決定と管理の基礎となっていますが、最新のテクノロジーの文脈では、データの管理と保護には依然として重要な課題が存在します。

これらの課題を解決するために、データ ウェアハウスの構築においてデータの階層化は不可欠なステップとなっています。データを階層的に構成することで、さまざまなデータを合理的に分類できるため、企業はデータ分析や意思決定を迅速に行うことが容易になります。

実際のアプリケーションでは、データ階層化には、管理と監視のための関連テクノロジーとツールを組み合わせた、柔軟で効果的な計画と設計が必要です。この方法によってのみ、企業は意思決定と管理の効率を向上させ、市場競争力を高めることができます。

2. データの階層化を理解する

データ階層化とは何ですか

データ階層化は、大量のデータを管理する方法です。データは多くの異なるソースから取得されることが多く、これらのソースはさまざまな方法でデータを保存および処理することが多いためです。このため、データ階層化を使用する必要があります。データを階層的に保存、処理、管理することにより、データの一貫性、データのセキュリティ、およびデータの再利用をより適切に維持できます。 

データ階層化前後の比較

データ階層化を使用する必要がある理由

データを図書館の本と考えると、本棚のカテゴリに配置されることを望みます。データを都市の建物と考えると、都市が適切に計画され配置されることを望みます。データを考えると、都市の建物が適切に計画され配置されることを望みます。私たちは、コンピューターのファイルやフォルダーと同じように、ファイルを見つけるのにしばしば迷ってしまうひどい乱雑なデスクトップではなく、自分たちの習慣に従ってフォルダーを整理する良い方法を手に入れたいと考えています。

データの階層化とは、簡単に言うと、実世界で収集した有効な情報を、その特徴や用途に応じて分類・整理し、データの価値をより合理的に表現することです。データ階層化は、データ管理におけるさまざまな課題や課題を解決し、次の分野のニーズを満たします。

データの量と質 -データ管理の効率と精度を向上させます

  • 企業データが増大し続けるにつれて、データの量は膨大かつ多様になり、データの品質も課題に直面しています。
  • データの階層化では、基本的なデータのクリーニングとさまざまなデータ カテゴリの整理を実行できるため、データの品質と信頼性が向上します。
  • 一般的なデータ カテゴリには次のものがあります。
  1. 数値データ(売上、原価など)
  2. テキストデータ(ファイル、ドキュメントなど)
  3. 画像データ
  4. ビデオデータ
  5. オーディオタイプデータ

データ ソースと構造 –データの統合と共有を促進します

  • さまざまなデータ ソースやシステムのデータ構造と形式は大きく異なるため、データを直接比較したり統合したりすることは不可能です。
  • データ階層化は、さまざまなデータ カテゴリを変換、統合、標準化して、データの一貫性と相互運用性を実現します。
  • 一般的なデータ カテゴリには次のものがあります。
  1. 構造化データ (リレーショナル データベースの表形式データなど)
  2. 半構造化データ (JSON、XML、その他の厳密にフォーマットされていないデータなど)
  3. 非構造化データ (テキスト、ログ、および固定フォーマットのないその他のデータなど)

データの場所と権限の制御 -データのセキュリティとコンプライアンスの強化

  • 複数の部門やユーザー間でデータを共有する必要性が高まるにつれ、データが明確に配置され、正確な権限で制御できるようにする必要があります。
  • データの階層化により、各データ カテゴリの所有権とアクセス権を明確にし、データのセキュリティとプライバシーの保護を確保できます。
  • 一般的なデータ カテゴリには次のものがあります。
  1. 個人を特定できるデータ(個人ID番号、携帯電話番号など)
  2. 機密データ (会社の財務データ、契約書など)
  3. 機密データ(ユーザーの健康状態、クレジットカード情報など)

データ処理プロセスと効率性 -データの価値とアプリケーションを向上させる

  • データ処理の際に無理な処理や冗長な操作が行われると、データの重複や無駄が発生する可能性があります。
  • データ階層化により、標準化および最適化されたデータ処理プロセスを確立して、データ処理の効率と精度を向上させることができます。
  • 一般的なデータ カテゴリには次のものがあります。
  1. 処理中に生成される一時データ
  2. 派生データ (計算されたメトリクスやデータ マイニングの結果など)
  3. 統合データ(データウェアハウス内の統合データなど)

データのアーカイブと圧縮 –データ管理と使用コストの削減

  • データをアーカイブして圧縮すると、ストレージ容量を削減できます。
  • アクセス頻度の低いデータを、データの使用頻度と価値に基づいて、低価格でありながら信頼性の高いストレージ メディアにアーカイブすることで、高速で高コストのストレージ デバイス上のストレージ スペースをより多く解放できます。
  • 一般的なデータ カテゴリには次のものがあります。
  1. 履歴データ(過去数年間の受注データなど)
  2. データのバックアップ(システムデータベースのバックアップなど)
  3. アーカイブされたデータ (長期保存用の監査ログなど)

3. データ階層化のロジック

データのレイヤーとは何ですか?

データ階層化の利点のいくつかを理解した後、疑問が生じるかもしれません。データの階層化はどのように実行するのでしょうか? おおよそ何層必要ですか?

実際には、この問題は実際のビジネスの状況や処理する必要があるデータの量に応じて分割する必要がありますが、階層化を導入する前に、まずどのような階層があり、各階層の役割と目的は何であるかを理解しましょう。

以下では、インターネットのオンライン学習プラットフォームを例に挙げます。

生徒、教師、コースなどのさまざまな側面から詳細なデータ分析とマイニングを実行したい場合、単一のデータ ソースではこの需要を満たすことができません。データを階層化し、データをさまざまなレベルでクリーンアップして統合する必要があります。さまざまな次元のデータを接続して相関付けると組み合わせます。データを階層化しないと、データの管理と保守が非常に困難になり、データの精度と信頼性にも影響します。

さらに、さまざまなビジネス間のデータのやり取りと処理が最適化および計画されていない場合、異なるビジネス間のデータ処理の流れと転送が非常に複雑になり、プラットフォームの運用効率と有効性に悪影響を及ぼします。同時に、パーソナライズされたサービスを提供するには、ユーザーの属性、好み、ニーズを深く理解し、分析する必要があるため、ユーザーにより優れたパーソナライズされたサービスを提供することは不可能です。

したがって、オンライン学習プラットフォームの最適化にはデータ階層処理が非常に必要です。

この事例から、データ階層設計によって次の価値がもたらされることが分析できます。

  • より正確なデータの収集と管理: ODS レイヤーの運用データ レイヤーを通じて、プラットフォームは生徒と教師の登録情報と学習行動データをより正確に収集および管理し、データの信頼性と信頼性を確保できます。
  • より詳細なデータ分析: DWD レイヤーの詳細なデータ ウェアハウス レイヤーの助けを借りて、プラットフォームは、ビデオの視聴時間、ビデオの視聴回数など、生徒の学習行動の詳細な分析を実行できます。質問など 同時に、コース次元テーブルの確立により、コース情報のより詳細な分析も実行できます。
  • より包括的なデータの概要: DWS レイヤーのデータ ウェアハウスの概要レイヤーでは、プラットフォームは学生の学習行動とパフォーマンスの詳細な概要、分析、表示を行うことができると同時に、コース情報を包括的に考慮してより詳細なレポートを作成することができます。 。これにより、プラットフォームによるより包括的なデータ分析と統計の実施が容易になり、教師や生徒により効果的なフィードバックや提案を提供することもできます。
  • より柔軟なデータ保守: DIM レイヤーの次元データ層では、プラットフォームは学生、教師、コースなどの属性情報を保守および管理して、その後のデータ分析と適用を容易にすることができます。同時に、これらのディメンション テーブルは、実際のニーズに応じて継続的に調整および拡張し、プラットフォームのデータ分析およびアプリケーション機能を強化することもできます。
  • より正確なデータ アプリケーション: ADS レイヤーのアプリケーション データ レイヤーでは、プラットフォームは生徒と教師のデータに基づいて、より正確な指導評価、学習進捗分析、コースの推奨などの機能を実行できます。このようにして、プラットフォームは教師と生徒により正確でパーソナライズされたサービスを提供し、ユーザー エクスペリエンスとプラットフォームの価値を向上させることができます。

データ階層化の利点

上記の事例から、データ ウェアハウスの階層設計には多くの価値があり、データ管理の効率を向上させ、複雑な問題の処理を簡素化し、データの再利用機能を向上させ、プラットフォームに標準化されたデータ管理と分析のサポートを提供できることがわかります。

  • 使いやすいデータ構造を提供する: 標準化されたデータ階層設計により、生徒、教師、コースなどのさまざまな次元のデータを明確に配置して理解できるため、ユーザーがデータ分析やマイニングを行うのが便利になります。
  • データのソースを追跡する: 階層データの血縁関係が明確であるため、データのソースを迅速かつ正確に追跡でき、ユーザーがデータの信頼性と信頼性を理解するのに役立ちます。
  • データ保守効率の向上: データ階層化の標準化された設計により、データ開発の作業負荷が軽減され、コンピューティングおよびストレージのリソースの使用が節約され、保守担当者によるデータ管理と保守作業が容易になります。
  • 複雑な問題の処理を簡素化する: 複雑なビジネス問題を複数のステップに分割し、各層で 1 つのステップのみを処理することで、問題の制御性と理解しやすさが向上します。データに問題がある場合、データ全体を修復するのではなく、問題のある部分のみを修復する必要があります。
  • データの再利用機能の向上: 標準化されたデータ階層設計を通じて、一部の共通中間層データを開発して、繰り返しの計算を削減し、ビジネス テーブルの使用率を向上させることができるため、システムの実行効率が向上します。
  • ビジネス変更の影響を軽減する: ビジネスは頻繁に変更される可能性があるため、データ階層化設計により、ビジネスが変更されるたびにデータを再接続する必要がなくなり、ビジネスへの影響と変更のコストが削減されます。
  • 統合データ インジケーター キャリバー: データ レイヤード設計を通じて、データの一貫性と統一性を確保し、プラットフォームに標準化されたデータ管理と分析サポートを提供するために、統合データ エクスポートおよび外部出力データ インジケーター キャリバーが提供されます。

4. 取得物体データの階層化事例紹介

背景

会社が会社の目標、文化、報酬と福利厚生、キャリア開発、労働環境などに関する従業員の満足度やニーズを理解できるようにすることで、問題の特定、環境の改善、チームの結束力の向上に役立ちます。従業員の仕事効率と仕事の満足度。Dewu は、従業員のニーズをより深く理解し、対応する改善計画を策定するために、貴重な指標を発掘するために年に 2 回、全社的な従業員満足度調査を実施しています。

データ分析の問題点

従業員満足度データを分析する場合、次のような問題点に注意する必要があります。

  • 複雑なビジネス ロジック: 従業員のプライバシーを維持するために、統計データを作成するには、指標の計算に回答する人の数が 3 人を超える必要があります。このルールの設計により、データ処理の難易度が高まり、データ エラーのリスクが高まります。
  • 複雑な統計的側面と指標: 統計的側面は、性別、年齢、職歴、役職、ランクなどを含めて多様であるため、データの処理と分析もより困難になります。
  • 頻繁なビジネス変更: 従業員満足度アンケートは、さまざまなサイクルで質問の追加、削除、変更を行います。これにより、データの処理と保守の難しさと作業負荷も増加します。

データの階層化を設計する

上記の問題点とニーズを解決するために、データ階層化を設計することにしました。データをさまざまなレベルに分割することで、データ処理、分析、サービスベースのプロセスが複数の独立した部分に分解され、データ分析と処理の効率とセキュリティが最大化されます。

データ階層化は、視覚的なメンテナンスとサービス指向のデータを実現するだけでなく、データの処理、アプリケーション、管理のためのより明確で標準化されたガイドラインを提供し、それによってビジネスの開発と最適化を支援します。

運用データ記憶層ODS

ODS レイヤーの設計目標は、その後のデータのクリーニング、統合、変換のために生データをキャプチャして保存することです。この層では通常、データはソース システムの形式で保存され、データの整合性と粒度が維持され、後続の変換処理をサポートする適切なデータ構造とフィールドが提供されます。

詳細なデータ層 DWD

DWD レイヤーの設計目標は、企業のさまざまなビジネス ニーズや分析要件を満たす、クリーンで構造化されたクエリ可能な詳細データを提供することです。DWD レイヤーでは、データの精度、完全性、一貫性を確保するために、検証、機密データの暗号化、重複排除、標準化、フォーマット、構造調整などの一連のクリーニングと変換プロセスがデータに適用されます。

サマリーデータレイヤーDWS

DWD レイヤーのデータは分散しており、詳細すぎるため、より高度な分析と意思決定をサポートすることが困難になります。このとき、より上位のデータ情報を取得するには、DWS レイヤーを使用して DWD レイヤーのデータを要約および集約する必要があります。これにより、広範なメタデータ、事前計算されたメトリクス、高速データ クエリなどの機能が提供されます。

通常、DWS 層のデータは抽象度が高く、さまざまなビジネス ニーズに応じてさまざまな方法で集計できます。たとえば、性別、年齢、勤続年数などに応じて、満足度指標 1 や満足度指標 2 などの概要指標が提供されます。粒度。

ディメンションレイヤーDIM

DIM レイヤーは、データの分類、グループ化、フィルター処理に使用される「タグ」と考えることができます。通常、データを変換および変換するのは、いくつかの記述的な属性または特性です。

たとえば、システム満足度ファクト テーブルの場合、ディメンション レイヤーは、システム セキュリティ、システム パフォーマンス、システム エクスペリエンス、システムの安定性などの属性情報に分割できます。これらの属性は、システム満足度調査データを分類、グループ化、およびフィルタリングすることができます。マネージャー 製品とサービスをより効果的に最適化します。

データアプリケーション層ADS

ADS は、データ ウェアハウス内でユーザーとアプリケーション システムに最も近いレイヤーであり、エンタープライズ データの分析とアプリケーションの重要なソースおよび基盤でもあります。その主な機能は、データ ウェアハウス内のデータを業務運営、意思決定分析、顧客サービスなどに使用し、ユーザーとアプリケーション システムに便利なデータ アクセスと操作インターフェイスを提供することです。

データ アプリケーション層 ADS を設計および実装するときは、次の要素を考慮する必要があります。

  • データ品質: データ アプリケーション層のデータ品質は、企業のビジネス アプリケーションの効果と意思決定の分析結果に直接影響します。したがって、データ アプリケーション層を実装する場合は、データの正確性、完全性、一貫性を確保するためにデータの品質を厳密に管理する必要があります。
  • セキュリティ: アプリケーション層でのデータの使用には、企業の中核的なビジネスと機密データが含まれるため、データ アプリケーション層を設計および実装する際には、データ セキュリティの問題を考慮し、特定のセキュリティ対策と技術的手段を採用する必要があります。データのセキュリティと機密性を確保するためのデータ暗号化と権限制御など。
  • 保守性: データ アプリケーション層はエンタープライズ アプリケーションの基盤であり、その安定性と保守性は企業の長期的な発展にとって極めて重要です。したがって、データのバックアップ、障害回復、ロギングなどのデータ アプリケーション層を実装および適用する場合は、システムの信頼性、拡張性、保守性を考慮する必要があります。

要約する

このケースでは、データの許可制限、複雑なビジネス ロジック、多様な統計的次元、頻繁なビジネス変更など、多くの困難に直面しました。これらの困難は、データの処理と分析に大きな困難と不便をもたらしました。

データ分析は複雑なプロセスであるため、データ階層化アプローチを使用してこれらの問題を解決できます。データ階層化は、データの処理、分析、サービスのプロセスを複数の独立した部分に分解することで、データの分析と処理の効率とセキュリティを最大化します。データをさまざまなレベルに分割することで、データ階層化はデータの視覚的な保守とサービス化を実現し、データの処理、適用、管理のためのより明確で標準化されたガイドラインを提供し、それによってビジネスの開発と最適化を支援します。

5.最後に書く

データの階層化によって引き起こされるいくつかの問題

データ階層設計は多くの利点と価値をもたらしますが、いくつかの欠点もあります。その中で主に以下の点が挙げられます。

  • 複雑さの増加: データ階層化設計の実装には、一定の設計コストと保守コストが必要であり、複数のレベルを確立して保守する必要があります。場合によっては、データ構造の乱れや重複などの問題により、データ階層化全体がより複雑になる可能性があります。
  • データの冗長性: データ階層設計では複数のレベルを確立する必要があるため、特定のデータ冗長性の問題が発生し、データの冗長性や再利用につながる可能性があります。
  • 専門の技術者が必要: データ階層化の設計には多くの技術的なプログラミングとデータ モデリングの知識が必要なため、開発と保守には専門の技術者が必要です。これにより、追加の専門知識コストが発生し、会社に困難が生じます。
  • データ ウェアハウスの容量の問題: データ階層設計のレイヤー数が増加すると、それに応じてデータ ウェアハウスのサイズとストレージ容量も増加し、特定のストレージ管理上の問題が発生する可能性があります。

したがって、実際のデータウェアハウスの構築においては、データ階層化を合理的に利用してデータを整理、管理、分析することが非常に重要です。データ階層化は、実際の状況と企業のニーズに基づいて調整する必要があります。

考える

データの階層化は、データ ウェアハウスの構築において不可欠な役割を果たします。データの階層化は、特定のルールと基準に従ってデータを再編成および要約することにより、データの利用を改善し、データ管理を強化し、企業が科学的で洗練された運用管理と意思決定分析を実行するのをさらに支援します。

データ分析テクノロジーのさらなる発展に伴い、データの階層化も継続的に最適化および改善されます。データ分析ツールの継続的なアップグレードから人工知能や機械学習テクノロジーの応用に至るまで、データ階層化は間違いなく企業のデータ管理と意思決定分析のためのナンバーワンのツールとなるでしょう。したがって、企業の管理者およびデータ アナリストは、データ階層化テクノロジの開発傾向と変化に常に注意を払い、独自のデータ階層化管理計画を迅速に調整および最適化し、企業のデータ管理と意思決定の効率と正確性を確保する必要があります。分析。

※文/ニール

 

この記事は Dewu Technology のオリジナルです。さらに興味深い記事については、Dewu Technology 公式 Web サイトを参照してください。

Dewu Technology の許可なく転載することは固く禁じられています。さもなければ、法律に従って法的責任が追及されます。

Microsoft、新しい「Windowsアプリ」を発表 Xiaomi、Xiaomi Velaが完全オープンソース、基盤となるカーネルはNuttX Vite 5 であることを正式発表 Alibaba Cloud 11.12が正式リリース 障害の原因が判明:アクセスキーサービス(アクセスキー)の異常 GitHub レポート: TypeScript が Java に代わって 3 番目に人気になる 言語オペレータの奇跡的な操作 : バックグラウンドでネットワークを切断し、ブロードバンド アカウントを無効にし、ユーザーに光モデムの変更を強制する ByteDance: AI を使用して Linux カーネル パラメータを自動的に調整する Microsoft オープン ソースTerminal Chat Spring Framework 6.1 が正式に GA OpenAI の元 CEO 兼社長の Sam Altman 氏と Greg Brockman 氏が Microsoft に入社
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/5783135/blog/10149775