日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

核心概念

本文為您介紹Dataphin中,業務板塊、數據域、項目、維度、業務過程、維度邏輯表、事實邏輯表、原子指標等基本概念。

數據板塊

數據板塊是邏輯空間的重要組成部分,是基于業務特征劃分的命名空間。當數據的業務含義存在較大差異時,您可以創建不同的數據板塊,獨立管理不同的業務,后續數據倉庫的建設將按照數據板塊進行劃分。在Dataphin中,項目可以歸屬至數據板塊以實現規范建模功能,同一個數據板塊中可能包含多個不同的項目,所以數據板塊與項目的關系為1:N。例如,某企業的業務涉及零售和文娛,且業務數據相互獨立,則零售和文娛就可以劃分為兩個數據板塊。

劃分數據板塊的規則如下:

  • 一個數據板塊代表一種業務含義。例如,零售數據板塊、文娛數據板塊。

  • 同一個板塊內的業務實體(業務對象或業務活動)間有直接或間接的業務聯系(業務對象參與業務活動,業務活動之間存在流轉關系)。

  • 數據板塊內的數據是完整的,即一個板塊內可以獨立完成從數據采集到最后的數據加工。

例如,某多元化經營的企業,有地產、金融、建筑三個經營方向,這樣業務板塊可以劃分為地產、金融和建筑。

主題域

主題域是用于存放同一數據板塊內不同意義的指標。一個數據板塊會劃分出多個主題域,一個主題域只能歸屬于一個業務。

劃分主題域的通用規則如下:

  • 一個主題域代表一種業務含義。例如,商品域、交易域。

  • 針對某個業務場景或業務職能的數據放到同一個主題域。例如,零售行業中采購、倉儲、配送、都是屬于供應鏈物流范疇,應該劃分在同一個主題域。

  • 通常根據業務應用系統來劃分。 例如,零售行業內業務系統的訂單處理是一個獨立系統,有獨立的產研團隊;客戶管理系統是另一個獨立系統,也有獨立產研團隊,那么就可以分別設置訂單主題域和客戶主題域。

例如,零售數據板塊下,您可以劃分出商品域、交易域和會員域三個主題域,用于存放不同意義的指標。

業務對象

業務對象即參與業務的主體和客體,通常情況下業務對象是實際存在、不因事件發生而存在的對象。例如客戶、員工、產品等具體的業務對象;地域、組織關系和產品類目等抽象的業務對象。

業務活動

業務活動即企業的業務活動事件,通常為不可拆分的事件,是一個或者多個業務對象在某個時間或時間段,為了達成某種目的所進行的活動或者是某種活動的結果。業務活動有以下幾個關鍵要素(屬性):

  • 活動主體即活動的發起者,是一個業務對象。

  • 可選的活動客體即活動的參與者,可能有多個。

  • 活動時間,可以是一個單點時刻,也可能是一個有開始和結束的時間段。

例如,電商訂單是一個業務活動,業務活動由下單、支付、發貨和確認收貨等不可拆分的事件組成,每個事件就是一個業務活動。

項目

項目是一種物理空間上的劃分,便于用戶在數據中臺建設過程中對物理資源及開發人員進行隔離化管理。一個數據板塊可以包含多個項目,Dataphin成員可以加入到多個不同的項目。一個數據板塊可以有多個項目,但是一個項目只能屬于一個數據板塊。項目與底層計算引擎的物理空間(例如,MaxCompute項目,Hive Database)一一對映。Dataphin利用了底層計算引擎物理空間的能力來做資源分配,Dataphin項目獨立成員管理實現了權限的管控。

另外,根據數據板塊內數據的加工的程度,會將數據劃分為三層,每一層一般對應獨立的項目:

  • ODM(Operational Data Model)操作數據模型層,也叫貼源層。用于存儲從業務應用系統鏡像復制(即不做任何過濾或者加工)的數據。

  • CDM(Common Data Model)公共數據模型層,簡稱公共層。用于建設板塊級通用或者共用的模型。

  • ADM(Application Data Model)應用數據模型層,簡稱應用層。用于面向具體業務應用場景的數據模型。

維度

人們觀察事物的角度,是指一種視角,是確定事物的多方位、多角度、多層次的條件和概念。

  • 從業務層,通常維度是指業務對象的屬性,業務對象是業務的參與者。例如零售業務中的買家,商品、類目和地域等可以具象化的業務對象,買家的性別,商品的價格為業務對象的屬性。

  • 從技術層,類似于SQL中group by后的字段。關于group by如何使用,請參見GROUP BY分組查詢(col_list)

維度邏輯表

豐富維度的屬性信息形成維度邏輯表。通過維度邏輯表,設計及加工處理公共對象明細數據,便于提取業務中對象的明細數據。

事實邏輯表

用于描述業務活動的詳細信息。通過創建事實邏輯表,設計及加工處理公共事務明細數據,便于提取業務中事務的明細數據。

原子指標

對指標統計口徑、具體算法的抽象。Dataphin創新性地提出了設計即開發的理念,指標定義同時也明確了設計統計口徑(即計算邏輯),提升了研發效率,并保證了統計結果的一致性。例如支付金額。

衍生原子指標

基于原子指標做二次多元計算的表達式。例如原子指標A和B,可以定義衍生原子指標C=A/B

派生指標

即基于原子指標、時間周期和維度,圈定業務統計范圍并分析獲取業務統計指標的數值。派生指標=原子指標+業務限定+統計周期+維度或維度的組合(統計粒度)

業務限定

統計的業務范圍,用于篩選出符合業務規則的記錄(類似于SQL中where后的條件,不包括時間區間)。原子指標是計算邏輯的標準化定義,業務限定則是條件限制的標準化定義。

統計周期

統計周期用于定義派生指標的來源數據的時間跨度。例如最近1天、最近30天等(類似于SQL中where后的時間條件)。

統計粒度

統計分析的對象或視角,用于圈定數據的統計范圍,您也可以理解為聚合運算時的分組條件(類似于SQL中Group By的對象)。統計粒度也被稱為粒度,是維度或維度的組合,是派生指標構建的核心元素,同時也可以唯一標識匯總邏輯表。例如,某匯總邏輯表統計了淘寶某賣家在陜西省份的成交額,則該匯總邏輯表的粒度就是賣家和省份這兩個維度的組合。

統計時效

派生指標的計算頻次,即派生指標產出的時間間隔。目前支持按天計算。

匯總邏輯表

派生指標歸屬的表就是匯總邏輯表。匯總邏輯表有且僅有一個統計粒度,同一個統計時效下統計粒度相同的派生指標屬于一個匯總邏輯表。匯總邏輯表的主鍵即組成統計粒度的維度(維度邏輯表的主鍵) 組合,主鍵之外的字段全部都是指標。

物理表

計算引擎中表,即通過DDL創建的表。

物化表

存儲邏輯表真實數據的物理表。維度輯邏表、事實邏輯表或匯總邏輯表是Dataphin內一種表的定義,類似傳統數據庫里的視圖。真實的數據是存儲在計算引擎的物理表中,這些物理表就是邏輯表的物化表,一個邏輯表可能有多個物化表(只有有主鍵的邏輯表才能有多個物化表,每個物化表都包含主鍵字段)。

相關參考

關于部分基本概念的理解,您可以參考規范定義最佳實踐,詳情請參見規范定義最佳實踐