日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

文檔

應用場景

更新時間:

阿里云開源大數據平臺E-MapReduce(簡稱EMR)具有廣泛的應用場景。本文為您介紹EMR的主要應用場景。

數據湖場景

DataLake集群類型提供了數據湖分析場景所需的服務和相關湖格式,包括Hadoop、OSS-HDFS、Hive、Spark、Presto等。通過選擇OSS-HDFS,集群的YARN服務不再依賴集群本地的HDFS,也不需要使用Core節點組,從而提高了集群的彈性和靈活性。此外,您還可以選擇數據湖構建DLF作為數據目錄服務,DLF可以提供統一的元數據服務,并支持湖上數據的管理,通過DLF可以簡化和加速湖上數據的治理過程。

在數據湖場景下,通過采集程序,將用戶的埋點日志近實時寫入到OSS-HDFS,并使用Sqoop定時將業務數據庫的數據同步到OSS-HDFS。在EMR集群中,利用Hive和Spark對原始數據進行清洗和加工,提取業務所需的指標,例如日活躍用戶、用戶留存、某SKU的新增訂單等。白天可以通過彈性伸縮機制,只保留部分節點。同時,可以啟動一個包含Trino或Presto的環境,以滿足白天數據分析師或運營團隊對數據的查詢需求。

image

數據分析場景

OLAP集群類型提供了StarRocks、Doris、ClickHouse等服務。這些服務都具有高效的數據壓縮、列式存儲和并行查詢等特性,使其在大數據分析場景中表現出色。可以用于用戶畫像、人群圈選、BI報表和業務分析等一系列的業務場景。

實時數據分析場景解決方案

image

步驟如下:

  1. 實時攝入:通過直接讀取Kafka數據來實現。提供了Flink-Connector來支持Flink數據流的直接寫入,并保證了exactly-once語義。此外,還支持Flink CDC來捕捉TP數據更新,并實時地將結果更新到StarRocks中。

  2. 數據分析:實現了實時數據分析生成的數據可以直接用于Serving,從而實現了實時和離線數據的統一融合。

  3. 實時數據建模:提供了實時數據建模聚合表,以支持實時聚合能力。強大的引擎和優化器保證了數據庫在實時數據建模時的高效性。

  4. 實時更新:采用了delete-and-insert的實時更新策略,且在讀取時無需進行主鍵合并,相較于采用了merge-on-read(unique)的合并策略,性能提升了3~15倍。

湖倉分析場景解決方案

  • 查詢層:復用了當前StarRocks的CBO和查詢引擎能力,使得查詢計算性能達到了Trino的3~5倍。

  • 元數據管理:

    • 支持Multi-Catalog管理,無縫對接HMS,同時支持自定義Catalog,便于和云廠商的DLF對接。

    • 支持通用的Parquet、ORC、CSV等標準格式,實現了延遲物化和小文件合并讀寫。

    • 支持多種數據湖格式,例如Hudi、Iceberg、DeltaLake和Paimon。

image

步驟如下:

  1. 實時攝入:屏蔽了底層數據源的細節,支持異構數據源數據聯合分析,同時支持實時和離線數據的聯合分析。

  2. 查詢加速:采用了就近計算策略,例如表達式下推和聚合下推,以及分布式讀取/數據源針對性優化策略。支持向量化解釋ORC、Parquet格式,字典過濾、延遲物化等技術。

  3. 測試結果:進行了TPC-H和Hive查詢等測試,與Presto(OR)相比,在同等條件下,性能提升了3~5倍以上,并且僅使用Presto資源的1/3即可獲得相同的性能體驗。

實時數據流場景

DataFlow集群類型提供了Flink、Kafka、Paimon等服務,主要用于解決實時計算端到端的各類問題,廣泛應用于實時數據ETL和日志采集分析等場景。

通過采集程序將業務數據、日志和埋點數據等投遞到EMR Kafka,利用Flink的實時計算功能將數據寫入不同的分析系統,例如EMR StarRocks、EMR Hbase和阿里云的實時數倉Hologres,以提供實時分析、點查調用和BI報表分析等操作。

image

數據服務場景

DataServing集群類型提供了HBase、Phoenix和OSS-HDFS等的服務。通過選擇HBase和OSS-HDFS,您可以將HBase的數據存儲到湖上,并根據您的選擇將HBase的WAL日志繼續寫入集群本地HDFS或OSS-HDFS。采用這種計算與存儲分離的架構,可以減輕集群上的存儲壓力。一旦您的數據保存到湖上,恢復HBase集群將變得更加容易。

在數倉場景下,經過ETL計算,可以獲取指定用戶的標簽信息,包括興趣標簽、興趣話題、搜索關鍵詞等,除了基本信息。通過編寫程序,將每日新增或修改的用戶信息寫入EMR HBase集群。利用該集群提供的用戶畫像數據,可以建立圈選服務,并根據業務促銷情況,有選擇性地投放廣告給一定范圍的用戶。同時,由于數據基于湖存儲OSS-HDFS,可以創建一個新的EMR HBase集群,將其指向與主集群相同的HFile路徑,以作為只讀集群,從而分擔主集群的讀寫壓力。

image