數(shù)據(jù)導(dǎo)出到OSS概述
表格存儲(chǔ)中的全量數(shù)據(jù)以及增量數(shù)據(jù)可以通過(guò)DataWorks數(shù)據(jù)集成同步到對(duì)象存儲(chǔ)中備份和使用。
實(shí)現(xiàn)原理
DataWorks數(shù)據(jù)集成的離線同步功能將不同數(shù)據(jù)源的同步抽象為從來(lái)源數(shù)據(jù)源讀取數(shù)據(jù)的Reader插件以及向目標(biāo)數(shù)據(jù)源寫(xiě)入數(shù)據(jù)的Writer插件,方便您通過(guò)定義來(lái)源與去向數(shù)據(jù)源并結(jié)合DataWorks調(diào)度參數(shù)使用,將來(lái)源數(shù)據(jù)源中的全量或增量數(shù)據(jù)同步到目標(biāo)數(shù)據(jù)源中。如下圖所示。
同步表格存儲(chǔ)數(shù)據(jù)到OSS時(shí),離線同步任務(wù)中會(huì)涉及到配置表格存儲(chǔ)相關(guān)的Reader插件和OSS相關(guān)的Writer插件。相關(guān)插件說(shuō)明如下:
表格存儲(chǔ)相關(guān)的Reader插件
根據(jù)數(shù)據(jù)同步方式不同,要使用的表格存儲(chǔ)相關(guān)的Reader插件不同。具體說(shuō)明請(qǐng)參見(jiàn)下表。
同步方式
所用插件
插件說(shuō)明
全量導(dǎo)出
Tablestore(OTS) Reader
用于讀取表格存儲(chǔ)表中的數(shù)據(jù),并可以通過(guò)指定抽取數(shù)據(jù)范圍實(shí)現(xiàn)數(shù)據(jù)增量抽取的需求。更多信息,請(qǐng)參見(jiàn)Tablestore數(shù)據(jù)源。
增量同步
OTSStream Reader
用于增量導(dǎo)出表格存儲(chǔ)表中的數(shù)據(jù)。更多信息,請(qǐng)參見(jiàn)Tablestore Stream數(shù)據(jù)源。
OSS相關(guān)的Write插件
不論使用的同步方式是全量導(dǎo)出或者增量同步,DataWorks均使用OSS Writer插件向OSS中寫(xiě)入數(shù)據(jù)。更多信息,請(qǐng)參見(jiàn)OSS數(shù)據(jù)源。
同步方式
離線同步任務(wù)可以通過(guò)配置數(shù)據(jù)過(guò)濾并結(jié)合調(diào)度參數(shù)使用來(lái)決定同步全量數(shù)據(jù)還是增量數(shù)據(jù)。
同步方式 | 說(shuō)明 |
全量導(dǎo)出 | 將表格存儲(chǔ)的全量數(shù)據(jù)一次性導(dǎo)出到OSS中備份或者使用。 使用此同步方式時(shí),只需執(zhí)行一次離線同步任務(wù)即可,無(wú)需為離線同步任務(wù)配置調(diào)度屬性。 |
增量同步 | 將表格存儲(chǔ)中新增和變化的數(shù)據(jù)定期同步到OSS中備份或者使用。 使用此同步方式時(shí),需要配置離線同步任務(wù)的調(diào)度屬性用于周期性同步增量數(shù)據(jù)。 |
使用場(chǎng)景
適用于以更低成本備份表格存儲(chǔ)數(shù)據(jù)或者以文件形式導(dǎo)出表格存儲(chǔ)數(shù)據(jù)到本地的場(chǎng)景。
使用流程
不同同步方式的使用流程存在差異,請(qǐng)根據(jù)所用同步方案按照相應(yīng)流程執(zhí)行同步操作。具體操作,請(qǐng)參見(jiàn)導(dǎo)出全量數(shù)據(jù)到OSS和同步增量數(shù)據(jù)到OSS。
全量導(dǎo)出流程
全量導(dǎo)出的主要步驟說(shuō)明請(qǐng)參見(jiàn)下表。
步驟 | 操作 | 說(shuō)明 |
1 | 新增來(lái)源數(shù)據(jù)源 | 用于指定要同步數(shù)據(jù)的表所屬實(shí)例信息。來(lái)源數(shù)據(jù)源為表格存儲(chǔ)數(shù)據(jù)源。 |
2 | 新增目標(biāo)數(shù)據(jù)源。 | 用于指定要同步到的OSS Bucket信息。目標(biāo)數(shù)據(jù)源為OSS數(shù)據(jù)源。 |
3 | 新建離線任務(wù)節(jié)點(diǎn) | 用于完成離線數(shù)據(jù)同步操作的任務(wù)。一個(gè)同步操作需要新建一個(gè)離線任務(wù)節(jié)點(diǎn)、 |
4 | 配置離線同步任務(wù)并啟動(dòng) | DataWorks數(shù)據(jù)集成提供了向?qū)J胶湍_本模式用于配置離線同步任務(wù),請(qǐng)根據(jù)實(shí)際選擇合適的配置模式。
|
5 | 數(shù)據(jù)遷移結(jié)果驗(yàn)證 | 完成數(shù)據(jù)導(dǎo)出操作后,在OSS控制臺(tái)查看導(dǎo)入的數(shù)據(jù)。 |
增量同步流程
增量同步的主要步驟說(shuō)明請(qǐng)參見(jiàn)下表。
步驟 | 操作 | 說(shuō)明 |
1 | 新增來(lái)源數(shù)據(jù)源 | 用于指定要同步數(shù)據(jù)的表所屬實(shí)例信息。來(lái)源數(shù)據(jù)源為表格存儲(chǔ)數(shù)據(jù)源。 如果已有表格存儲(chǔ)數(shù)據(jù)源滿足使用需求,請(qǐng)?zhí)^(guò)此步驟。 |
2 | 新增目標(biāo)數(shù)據(jù)源。 | 用于指定要同步到的OSS Bucket信息。目標(biāo)數(shù)據(jù)源為OSS數(shù)據(jù)源。 如果已有OSS數(shù)據(jù)源滿足使用需求,請(qǐng)?zhí)^(guò)此步驟。 |
3 | 新建離線任務(wù)節(jié)點(diǎn) | 用于完成離線數(shù)據(jù)同步操作的任務(wù)。一個(gè)同步操作需要新建一個(gè)離線任務(wù)節(jié)點(diǎn)、 |
4 | 配置離線同步任務(wù)并啟動(dòng) | DataWorks數(shù)據(jù)集成提供了向?qū)J胶湍_本模式用于配置離線同步任務(wù),請(qǐng)根據(jù)實(shí)際選擇合適的配置模式。
|
5 | 配置調(diào)度屬性 | 配置同步任務(wù)的執(zhí)行時(shí)間、重跑屬性、調(diào)度依賴等,用于周期性執(zhí)行同步任務(wù)。 |
6 | 調(diào)試代碼并提交任務(wù) | 測(cè)試代碼能運(yùn)行成功后,提交離線同步任務(wù)到服務(wù)端,便于后續(xù)按照調(diào)度屬性定期執(zhí)行任務(wù)。 |
7 | 查看任務(wù)執(zhí)行結(jié)果 | 在DataWorks控制臺(tái)查看任務(wù)運(yùn)行狀態(tài)以及在OSS管理控制臺(tái)查看數(shù)據(jù)同步結(jié)果。 |
計(jì)費(fèi)說(shuō)明
數(shù)據(jù)同步到OSS時(shí),表格存儲(chǔ)會(huì)收取讀取表格存儲(chǔ)數(shù)據(jù)的費(fèi)用。表格存儲(chǔ)支持VCU模式(原預(yù)留模式)和CU模式(原按量模式)兩種計(jì)費(fèi)模式,根據(jù)所用計(jì)費(fèi)模式不同計(jì)費(fèi)有差異。
預(yù)留模式:計(jì)費(fèi)項(xiàng)包括計(jì)算能力、數(shù)據(jù)存儲(chǔ)量和外網(wǎng)下行流量,其中數(shù)據(jù)存儲(chǔ)量包括高性能存儲(chǔ)、容量型存儲(chǔ)和多元索引存儲(chǔ)。
讀取表格存儲(chǔ)數(shù)據(jù)時(shí)會(huì)消耗計(jì)算資源,計(jì)算資源的計(jì)費(fèi)涵蓋在計(jì)算能力費(fèi)用中。
按量模式:計(jì)費(fèi)項(xiàng)包括讀吞吐量、寫(xiě)吞吐量、數(shù)據(jù)存儲(chǔ)量和外網(wǎng)下行流量,其中讀吞吐量包括預(yù)留讀吞吐量和按量讀吞吐量。
讀取表格存儲(chǔ)數(shù)據(jù)時(shí)會(huì)消耗讀吞吐量,表格存儲(chǔ)會(huì)根據(jù)實(shí)際計(jì)算消耗折算成CU進(jìn)行計(jì)費(fèi)。同時(shí)根據(jù)實(shí)例類型不同,計(jì)費(fèi)時(shí)需要區(qū)分按量讀CU以及預(yù)留讀CU。
說(shuō)明關(guān)于實(shí)例類型和CU的更多信息,請(qǐng)分別參見(jiàn)實(shí)例和讀寫(xiě)吞吐量。
數(shù)據(jù)同步到OSS后,OSS會(huì)根據(jù)數(shù)據(jù)文件的存儲(chǔ)量和存儲(chǔ)時(shí)長(zhǎng)收取存儲(chǔ)費(fèi)用。當(dāng)要下載文件到本地時(shí),OSS會(huì)收取請(qǐng)求費(fèi)用(Get類請(qǐng)求次數(shù)費(fèi)用)和流量費(fèi)用(外網(wǎng)流出流量費(fèi)用)。更多信息,請(qǐng)參見(jiàn)OSS計(jì)費(fèi)概述。