基于Dataphin建模理論和業務需求,明確并規范定義統計指標,以便設計出易于業務使用的數據倉庫。
背景信息
規范定義是指以維度建模作為理論基礎,構建總線矩陣,劃分并定義主題域、業務過程、維度、原子指標、統計周期和派生指標。
在您開始使用Dataphin進行數倉模型設計前,需要完成業務調研、需求分析、構建總線矩陣(從業務數據中抽象出業務過程和維度)、明確并定義統計指標。本教程中假設已完成需求調研、業務分析和構建總線矩陣,帶您體驗如何明確并規范定義統計指標,幫助您快速理解如何基于Dataphin設計數倉模型。
基本概念
名詞 | 描述 |
數據板塊 | 數據板塊定義了數據倉庫的多種命名空間,是一種系統級的概念對象。當數據的業務含義存在較大差異時,您可以創建不同的數據板塊,讓各成員獨立管理不同的業務,后續數據倉庫的建設將按照數據板塊進行劃分。 在Dataphin中,項目可以歸屬至數據板塊以實現規范建模功能,同一個數據板塊中可能包含多個不同的項目,所以數據板塊與項目的關系為1:N。 |
主題域 | 對某個主題分析后確定的主題邊界。例如,商品域、交易域、會員域等。 |
業務過程 | 業務過程即企業的業務活動事件,通常為不可拆分的事件。創建業務過程,即從頂層視角,規范業務中的事務內容的類型及唯一性。例如電商訂單是一個業務過程,業務過程由下單、支付、發貨和確認收貨等不可拆分的事件組成,每個事件就是一個業務過程。 |
統計周期 | 統計的時間范圍,也可以稱為時間周期。例如最近1天、最近30天等(類似于SQL中Where后的時間條件)。 |
統計粒度 | 統計分析的對象或視角,定義數據需要匯總的程度,可以理解為聚合運算時的分組條件(類似于SQL中Group By的對象)。粒度是維度或維度的某些屬性的組合。例如,地域(維度)和客戶性別(維度屬性)組合成統計粒度。 在定義粒度時,您需要充分考慮到業務和維度的關系。通常用于派生指標構建,是匯總表的唯一性識別方式。 |
業務限定 | 統計的業務范圍,用于篩選出符合業務規則的記錄(類似于SQL中Where后的條件,不包括時間區間)。 |
度量 | 事實就是度量,通常是對某個業務事件的衡量,通常為數字,如某筆訂單的金額。 重要 請注意區分度量和原子指標。任何數據倉庫都有維度和度量的概念,但指標是業務分析中的概念。 |
維度 | 維度是分析業務的角度,是對應業務流程中的業務對象。例如客戶、商品、部門等都可以作為分析業務的角度。 |
派生指標 | 派生指標是分析業務的指標。由原子指標、統計周期、統計粒度和業務限定組成。例如原子指標為支付金額,最近1天海外買家支付金額則為派生指標(最近1天為時間周期,海外為業務限定、買家為統計粒度)。 |
原子指標 | 原子指標定義了業務分析的度量和統計方法(類似于SQL中Select后的聚合表達式,例如Sum)。 |
案例說明
A電商公司,銷售某品牌多種零食。
商品種類 | 單價 |
干果類 | 10元/500g |
膨化類 | 8元/袋 |
飲品類 | 15元/瓶 |
買家和賣家可以通過電商平臺進行交易。
訂單ID | 買家ID | 買家姓名 | 商品種類 | 支付金額 | 支付方式 |
29296 | 1001 | 張三 | 干果類 | 34 | 花唄 |
29297 | 干果類 | 67 | 花唄 | ||
29298 | 1003 | 李四 | 膨化類 | 56 | 支付寶 |
本案例中,明確及規范定義指標如下。
定義指標 | 業務數據 |
數據板塊 | 電商業務 |
主題域 | 交易域 |
維度 | 商品種類 |
業務過程 | 下單購買 |
業務限定 | 商品種類為干果類 |
時間周期 | 最近1天 |
原子指標 | 銷售總額 |
派生指標 | 最近1天干果類商品銷售總額 |