日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

近實時數倉概述

企業依賴大數據平臺快速地從海量數據中獲得洞察從而更及時和有效地決策的同時,也對處理數據的新鮮度和處理本身的實時性要求越來越高。大數據平臺普遍采用離線、實時、流三種引擎組合的方式以滿足用戶實時性和高性價比的需求。但是很多業務場景并不要求延時秒級更新可見或者行級更新,更多的需求是分鐘級或者小時級的近實時數據處理疊加海量數據批處理場景,MaxCompute在原有的離線批處理引擎基礎上升級架構,推出了近實時數倉解決方案。MaxCompute近實時數倉,基于Delta table實現了增全量數據一體化存儲和管理,并且推出了豐富的增量計算能力,同時升級了MaxCompute短查詢加速(MCQA2.0)以支持查詢秒級返回。本文為您介紹本方案可解決的業務痛點和主要架構功能。

現狀分析

當前典型的數據處理業務場景中,對于時效性要求低的大規模數據全量批處理的單一場景,直接使用MaxCompute足以很好的滿足業務需求,對于時效性要求很高的秒級實時數據處理或者流處理,則需要使用實時系統或流系統來滿足需求。但對于綜合業務場景,比如時效性要求為分鐘級或者小時級的近實時數據處理場景和海量數據批處理場景的解決方案,使用單一或者聯邦多引擎都會存在一些問題。

image.png

如上圖所示,如果使用單一的MaxCompute離線批量處理鏈路,有些場景需持續將用戶分鐘級增量數據和全量數據做合并處理和存儲,產生冗余的計算和存儲成本,也有場景需要將各種復雜的一些鏈路和處理邏輯轉化成T+1的批次處理,極大增加鏈路復雜度,且時效性也較差。但如果使用單一的實時系統,資源消耗的成本比較高,性價比也較低,并且大規模數據批處理的穩定性也不足。因此當前比較典型的解決方案是Lambda架構,全量批處理使用MaxCompute鏈路,時效性要求比較高的增量處理使用實時系統鏈路,但該架構也存在大家所熟知的一些固有缺陷,比如多套處理和存儲引擎引發的數據不一致問題,多份數據冗余存儲和計算引入的額外成本,架構復雜以及開發周期長等。

針對這些問題近幾年大數據開源生態也推出了各種解決方案,最流行的就是Spark/Flink/Presto開源數據處理引擎,深度集成開源數據湖Hudi、Delta Lake和Iceberg三劍客,踐行統一的計算引擎和統一的數據存儲思想來綜合提供解決方案,解決Lambda架構帶來的一系列問題。而MaxCompute在離線批處理計算引擎架構上,自研設計開發的增量數據存儲和處理架構,同樣可提供離線與近實時增量處理一體化解決方案,在保持經濟高效的批處理優勢下,同時具備分鐘級的增量數據讀寫和處理的業務需求,另外,可提供Upsert,Time travel等一系列實用功能來擴展業務場景,可有效地節省數據計算,存儲和遷移成本,切實提高用戶體驗。

MaxCompute近實時架構

image

上圖所示即為MaxCompute高效支持上述綜合業務場景的全新架構,支持豐富的數據源方便地通過定制開發的接入工具實現增量和離線批量數據導入到統一的存儲中,由后臺數據管理服務自動優化編排數據存儲結構,使用統一的計算引擎支持近實時增量處理鏈路和大規模離線批量處理鏈路,而且由統一的元數據服務支持事務和文件元數據管理。它帶來的優勢非常顯著,比如,可有效解決純離線系統處理增量數據導致的冗余計算和存儲、時效低等問題,也能避免實時或流系統高昂的資源消耗成本,同時可消除Lambda架構多套系統的不一致問題和減少冗余多份存儲成本以及系統間的數據遷移成本。SQL Optimizer針對增量查詢也做了針對性的優化,尤其是MV增量刷新場景,Optimizer基于Cost估計刷新操作選取基于狀態的增量算法、還是基于表快照的增量算法。查詢加速層(MCQA2.0)基于VW強隔離的資源底座,提升查詢性能的同時也能很好的保證查詢性能的穩定性。依賴自研的FDC,加速層做了全鏈路的Cache優化,Optimizer增加了面向Latency優化模式,Runtime也進一步優化向量化執行以避免執行階段Codegen相關的開銷。

總體而言,使用該全鏈路一體化架構既可以滿足增量處理鏈路的計算存儲優化以及分鐘級的時效性,又能保證批處理的整體高效性,還能有效節省資源使用成本。

核心功能

MaxCompute近實時數倉主要提供以下三個方面功能:支持分鐘級導入的MC Delta Table,更好平衡Latency和Throughput的增量計算功能,全新升級的支持查詢秒級返回的MCQA2.0。

image

三部分核心功能如下:

Delta Table增量表格式:支持分鐘級數據導入,這種表格式底層使用 AliORC 作為文件格式,支持 UPSERT 語義,并能夠提供標準的 CDC(Change Data Capture)方式讀寫增量數據。它依賴于 MC 存儲服務和元數據服務,自動進行數據管理。

增量計算:基于Delta Table增量表格式,MaxCompute增加了增量物化視圖(Materialized View)、Time Travel 以及 Stream Table 等一系列的增量計算能力。同時增量 MV 和周期性調度Task提供了不同的觸發頻率,從而為用戶提供更多手段來平衡延遲(Latency)和吞吐量(Throughput)。

MCQA2.0查詢加速:是對MaxCompute 查詢加速的全新升級,通過強隔離環境提升了性能的穩定性,并將 MCQA 1.0 僅支持 DQL SELECT 查詢擴展到了支持 SQL 全功能,包括 DDL 和 DML 等。此外,通過全鏈路緩存(Cache)以及將作業提交鏈路多個步驟異步化等優化手段,進一步提升了性能。

最重要的是,這些新能力都是基于 MaxCompute 原有的 SQL 引擎建設實現的。MaxCompute 用戶無需改變開發習慣,就能夠以更高的性價比分析海量數據。

優勢

新架構會盡量覆蓋開源數據湖(HUDI / Iceberg)的一些通用功能,方便相關業務鏈路之間的遷移,此外,作為完全自研設計的新架構,在功能,性能,穩定性,集成等方面也具備很多獨特亮點:

  • 統一的存儲、元數據、計算引擎一體化設計,做了非常深度和高效的集成,具備存儲成本低,數據文件管理高效,查詢效率高,并且Time travel / 增量查詢可復用MaxCompute批量查詢的大量優化規則等優勢。

  • 全套統一的SQL語法支持所有功能,非常便于用戶使用。

  • 深度定制優化的數據導入工具,支持很多復雜的業務場景。

  • 無縫銜接MaxCompute現有的業務場景,可以減少遷移、存儲、計算成本。

  • 完全自動化管理數據文件,保證更好的讀寫穩定性和性能,自動優化存儲效率和成本。

  • 基于MaxCompute平臺完全托管,用戶可以開箱即用,沒有額外的接入成本,功能生效只需要創建一張Delta Table即可。

  • 作為完全自研的架構,需求開發節奏完全自主可控。