日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

數倉構建流程

本文為您介紹如何基于阿里巴巴OneData方法論最佳實踐,使用Dataphin助力企業數據中臺的建設與管理,快速構建標準、規范的數據倉庫。

數倉構建流程

下圖為使用Dataphin構建數據倉庫的基本流程。

image

基本概念

在正式學習本教程之前,您需要了解以下基本概念:

  • 數據板塊:數據板塊定義了數據倉庫的多種命名空間,是一種系統級的概念對象,是比主題域更高維度的業務劃分方法,適用于龐大的業務系統。當數據的業務含義存在較大差異時,您可以創建不同的數據板塊,讓各成員獨立管理不同的業務,后續數據倉庫的建設將按照數據板塊進行劃分。在Dataphin中,項目可以歸屬至數據板塊以實現規范建模功能,同一個數據板塊中可能包含多個不同的項目,所以數據板塊與項目的關系為1:N。例如,根據企業的事業群或事業部進行劃分的數據板塊。

  • 主題域:主題域主要用于存放同一數據板塊內不同概念的指標。例如,您可以劃分出商品域、交易域、會員域等,用于存放不同意義的指標。

  • 業務實體:業務實體包含業務對象和業務活動:

    • 業務對象:即參與業務的主體和客體,通常情況下業務對象是實際存在、不因事件發生而存在的對象。例如客戶、員工、產品等具體的業務對象;地域、組織關系和產品類目等抽象的業務對象。

    • 業務活動:是一個或者多個業務對象在某個時間(段)為了達成某種目的所進行的活動或者是某種活動的結果。例如下單、支付、退款都是業務活動。

  • 維度:維度即進行統計的對象。通常,維度是實際客觀存在的實體。Dataphin遵循Ralph Kimball的維度建模理論,創建維度,即從頂層規范業務中實體(或稱主數據)的存在性及唯一性。維度及維度組合,也是派生指標的統計粒度。例如,在分析交易過程時,可以通過買家、賣家、商品和時間等維度描述交易發生的環境。

  • 指標:指標分為原子指標和派生指標。派生指標是以原子指標為基準,組裝統計粒度、統計周期及業務限定而生成的。

    • 原子指標:是對指標統計口徑、具體算法的一個抽象。根據計算邏輯復雜性,Dataphin將原子指標分為兩種:

      • 原生的原子指標:例如支付金額。

      • 衍生原子指標:基于原子指標組合構建。例如,客單價通過支付金額除以買家數組合而來。

    • 派生指標:是業務中常用的統計指標。為保證統計指標標準、規范、無二義性地生成,OneData方法論將派生指標抽象為四部分:派生指標=原子指標+業務限定+統計周期+統計粒度。例如,原子指標(銷售額)+業務限定(產品類別)+統計周期(每月統計一次)+統計粒度(按產品類別和月份進行統計)。

  • 業務限定:統計的業務范圍,用于篩選出符合業務規則的記錄(類似于SQL中where后的條件,不包括時間區間)。原子指標是計算邏輯的標準化定義,業務限定則是條件限制的標準化定義。例如,產品類別。

  • 統計周期:統計的時間范圍,也可以稱為時間周期。例如最近1天、最近30天等(類似于SQL中where后的時間條件)。

  • 統計粒度:統計分析的對象或視角,定義數據需要匯總的程度,可以理解為聚合運算時的分組條件(類似于SQL中group by的對象)。粒度是維度的一個組合,指明您的統計范圍。例如,某個指標是某個賣家在某個省份的成交額,則粒度就是賣家、省份這兩個維度的組合。

    如果您需要統計全表的數據,則粒度為全表。在指定粒度時,您需要充分考慮到業務和維度的關系。統計粒度也被稱為粒度,是維度或維度組合,一般用于派生指標構建,是匯總表的唯一性識別方式。

基本概念之間的關系

image

具體示例

舉例