表格存儲數據湖投遞可以全量備份或實時投遞數據到數據湖OSS中存儲,以滿足更低成本的歷史數據存儲,以及更大規模的離線和準實時數據分析需求。
應用場景
利用數據湖投遞可以實現如下場景需求:
冷熱數據分層
數據湖投遞結合表格存儲的數據生命周期功能,可以快速實現OSS低成本存儲全量數據,表格存儲提供熱數據的低延遲查詢和分析的需求。
全量數據備份
數據湖投遞可以自動將表格存儲的全表數據投遞到OSS Bucket中,作為備份歸檔數據。
大規模實時數據分析
數據湖投遞可以實時(每2分鐘)投遞增量的表格存儲數據到OSS,投遞的數據支持按系統時間分區、Parquet列存格式存儲;再利用OSS的高讀帶寬和列存面向掃描場景優化實現高效實時數據分析。
功能特性
數據湖投遞的主要功能特性如下:
數據湖投遞會自動拉取表格存儲的全量和增量數據,數據積累到合適大小或者投遞超過2分鐘后,持久化到OSS中存儲。
支持配置增量、全量、全量&增量三種數據投遞模式,投遞的所有數據均按照Parquet列存格式存儲。
支持監控實時投遞的同步時間點,數據湖投遞提供了DescribeDeliveryTask API,該API會返回任務已成功投遞的實時數據位點。
核心優勢
易于使用
只需在控制臺完成簡單配置,即可實現全托管的表格存儲到OSS的自動投遞。無需監控和運維,投遞任務保證SLA內同步任務平穩執行和隨吞吐規模擴展。
全增量一體
提供全增量一體的數據投遞能力。增量投遞任務提供準實時體驗,持續拉取新數據并緩存兩分鐘后寫入OSS。
與計算生態無縫集成
投遞的數據兼容開源生態標準,按照Parquet列存格式存儲,兼容Hive命名規范。使用E-MapReduce可以直接對投遞到OSS的數據進行外表分析。
數據分層的存儲與訪問體驗
數據投遞到OSS后,表格存儲提供數據表、索引表、投遞OSS等分層數據。滿足不同場景的使用分析需求。
注意事項
目前支持使用數據湖投遞功能的地域有華東1(杭州)、華東2(上海)、華北2(北京)和華北3(張家口)。
使用流程
通過創建投遞任務將表格存儲數據投遞到OSS。具體操作,請參見通過控制臺投遞數據到OSS和通過SDK投遞數據到OSS。
使用EMR分析投遞到OSS中的表格存儲數據。具體操作,請參見使用EMR分析數據。