日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

文檔

將表格存儲時序表中數據同步到另一個時序表

更新時間:

使用DataWorks工具將表格存儲(Tablestore)時序表中的全量數據或者增量數據同步到另一個時序表。

背景信息

表格存儲支持對時序數據進行存儲與查詢,在某些場景下,您可能希望將時序表中的時序數據遷移到另一個時序表中。

說明

關于表格存儲時序模型的更多信息,請參見時序模型概述。

具體數據遷移場景如下:

  • 全量數據同步:將時序表中現有的全部時序數據遷移到另一個時序表中。

  • 增量數據同步:定時(例如每隔一天)將時序表中新增的數據遷移到另一個時序表中。

大數據開發治理平臺DataWorks數據集成是穩定高效、彈性伸縮的數據同步平臺,致力于提供復雜網絡環境下豐富的異構數據源之間高速穩定的數據移動及同步能力。您可以在數據開發(DataStudio)界面直接創建離線同步節點用于離線(批量)數據周期性同步或者創建實時同步節點用于單表或整庫增量數據實時同步。更多信息,請參見數據集成概述。

使用DataWorks數據集成的離線同步任務,您可以將表格存儲(Tablestore)時序表中的全量數據或者增量數據同步到另一個時序表中。

前提條件

  • 已在實例詳情頁面獲取實例的服務地址(Endpoint)。

    概覽頁面,單擊實例名稱后,在實例詳情頁簽的實例訪問地址區域,即可查看實例的Endpoint,請根據實際選擇。

    image..png

  • 已創建目標時序表,用于存放遷移數據。具體操作,請參見創建時序表。

  • 已創建RAM用戶,并授予RAM用戶管理表格存儲服務的權限(AliyunOTSFullAccess)。具體操作,請參見配置RAM用戶權限

    重要

    由于配置數據同步任務時需要填寫訪問密鑰AccessKey(AK)信息來執行授權,為避免阿里云賬號泄露AccessKey帶來的安全風險,建議您通過RAM用戶來完成授權和AccessKey的創建。

  • 已獲取RAM用戶的AccessKey(包括AccessKey ID和AccessKey Secret),用于進行簽名認證。具體操作,請參見獲取AccessKey。

  • 已開通DataWorks服務并創建工作空間。具體操作,請參見開通DataWorks服務創建工作空間。

  • 已授予RAM用戶DataWorks工作空間的開發角色權限,用于在數據開發(DataStudio)界面創建同步任務。具體操作,請參見添加空間成員并管理成員角色權限。

全量數據同步

步驟一:新增數據源

具體操作,請參見步驟一:新增表格存儲數據源

  • 如果源時序表和目標時序表所在實例相同,則只需要創建一個數據源即可。

  • 如果源時序表和目標時序表所在實例不同,則需要分別創建源數據源和目標數據源。

步驟二:新建離線同步任務

  1. 進入數據開發頁面。

    1. 以項目管理員身份登錄DataWorks控制臺。

    2. 選擇地域,在左側導航欄,單擊工作空間列表。

    3. 工作空間列表頁面,在目標工作空間操作列選擇快速進入>數據開發。

  2. 在DataStudio控制臺的數據開發頁面,單擊業務流程節點下的目標業務流程。

    如果需要新建業務流程,請參見創建業務流程。

  3. 數據集成節點上右鍵選擇新建節點 > 離線同步

  4. 新建節點對話框,選擇路徑并填寫節點名稱。

  5. 單擊確認

    數據集成節點下會顯示新建的離線同步節點。

步驟三:配置離線同步任務并啟動

  1. 數據集成節點下,雙擊打開新建的離線同步任務節點。

  2. 配置同步網絡鏈接。

    選擇離線同步任務的數據來源、數據去向以及用于執行同步任務的資源組,并測試連通性。

    重要

    數據同步任務的執行必須經過資源組來實現,請選擇資源組并保證資源組與讀寫兩端的數據源能聯通訪問。

    1. 網絡與資源配置步驟,選擇數據來源Tablestore,并選擇數據源名稱為源數據源。

    2. 選擇資源組。

      選擇資源組后,系統會顯示資源組的地域、規格等信息以及自動測試資源組與所選數據源之間連通性。

      重要

      請與新增數據源時選擇的資源組保持一致。

    3. 選擇數據去向Tablestore,并選擇數據源名稱為目標數據源。

      系統會自動測試資源組與所選數據源之間連通性。

    4. 測試可連通后,單擊下一步。

    5. 提示對話框,單擊確認使用腳本模式。

      重要
      • 表格存儲僅支持腳本模式。當存在不支持向導模式的數據源時,如果繼續編輯任務,將強制使用腳本模式進行編輯。

      • 任務轉為腳本模式后,將無法轉為向導模式。

  3. 配置任務并保存。

    全量數據的同步需要使用到Tablestore(OTS) Reader與Tablestore Writer插件。腳本配置規則請參見Tablestore數據源。

    1. 配置任務步驟,根據配置示例編輯腳本。

      配置示例如下:

      重要

      為了便于理解,在配置示例中增加了注釋內容,實際使用腳本時請刪除所有注釋內容。

      {
       "type": "job",
       "version": "2.0",
       "steps": [
       {
       "stepType": "ots", // 讀數據使用的插件為Tablestore Reader。
       "parameter": {
       "datasource": "instance01", // 已增加的Tablestore源數據源。
       "table": "timeseriesReadTable", // 源時序表名稱。
       "newVersion": "true", // 使用Tablestore Reader的新版本。
       "mode": "normal", // 使用Tablestore Reader的普通模式。
       "isTimeseriesTable": "true", // 表示該表為時序表。
       "envType": 1,
       "column": [
       {
       "name": "_m_name" // 導出時序表的度量名稱字段。
       },
       {
       "name": "_data_source" // 導出時序表的數據源字段。
       },
       {
       "name": "_tags" // 導出時序表的標簽字段。
       },
       {
       "name": "_time" // 導出時序表的時間戳字段。
       },
      // 以下配置請根據時序表中的具體數據為準。 本示例中從源時序表中導出列名分別為string_1(string類型),bool_1(bool類型),int_1(int整型),double_1(double類型)的四列。
       {
       "name": "string_1", 
       "type": "string"
       }, 
       { 
       "name": "bool_1",
       "type": "BOOL"
       },
       {
       "name": "int_1",
       "type": "int"
       },
       {
       "name": "double_1",
       "type": "double"
       }
       ]
       },
       "name": "Reader", // 表示以上配置為reader讀數據的配置。
       "category": "reader"
       },
       {
       "stepType": "ots", // 寫數據使用的插件為Tablestore Writer。
       "parameter": {
       "datasource": "instance02", // 已增加的Tablestore目標數據源。
       "table": "timeseriesWriteTable", // 目標時序表名稱。
       "newVersion": "true", // 使用Tablestore Writer的新版本。
       "mode": "normal", // 使用Tablestore Writer的普通模式。
       "isTimeseriesTable": "true", // 表示該表為時序表。
       "envType": 1,
       "column": [
       {
       "name": "_m_name" // 導入時序表的度量名稱字段。
       },
       {
       "name": "_data_source" // 導入時序表的數據源字段。
       },
       {
       "name": "_tags" // 導入時序表的標簽字段。
       },
       {
       "name": "_time" // 導入時序表的時間戳字段。
       },
      // 導入Tablestore Reader導出的四列字段,導入字段與導出字段的順序必須一一對應。
       {
       "name": "string_1", 
       "type": "string" 
       },
       {
       "name": "bool_1",
       "type": "BOOL"
       },
       {
       "name": "int_1",
       "type": "int"
       },
       {
       "name": "double_1",
       "type": "double"
       }
       ]
       },
       "name": "Writer", // 表示以上配置為writer寫數據的配置。
       "category": "writer"
       }
       ],
       "setting": {
       "errorLimit": {
       "record": ""
       },
       "locale": "zh",
       "speed": {
       "throttle": false,
       "concurrent": 2 // 同步任務的并發度。
       }
       },
       "order": {
       "hops": [
       {
       "from": "Reader",
       "to": "Writer"
       }
       ]
       }
       }
    2. 按【Ctrl+S】保存腳本。

      說明

      執行后續操作時,如果未保存腳本,則系統會出現保存確認的提示,單擊確認即可。

  4. 執行同步任務。

    說明

    全量數據一般只需要同步一次,無需配置調度屬性。

    1. 單擊1680170333627-a1e19a43-4e2a-4340-9564-f53f2fa6806e圖標。

    2. 參數對話框,選擇運行資源組的名稱。

    3. 單擊運行。

步驟四:查看任務執行結果

執行同步任務后,在DataWorks控制臺通過日志查看任務執行狀態,在表格存儲控制臺查看目標時序表數據同步結果。

  1. 在DataWorks控制臺通過日志查看同步任務運行狀態。

    1. 在同步任務的運行日志頁簽,單擊Detail log url對應的鏈接。

    2. 在任務的詳細運行日志頁面,查看Current task status對應的狀態。

      Current task status的值為FINISH時,表示任務運行完成。

  2. 在表格存儲控制臺查看目標時序表數據同步結果。

    1. 登錄表格存儲控制臺

    2. 概覽頁面上方,選擇地域。

    3. 單擊實例名稱。

    4. 實例詳情頁簽,單擊時序表列表頁簽。

    5. 時序表列表頁簽,單擊目標時序表操作列的數據管理

    6. 數據管理頁簽,即可查看同步到該時序表中的數據。

增量數據同步

步驟一:新建離線同步任務

  1. 進入數據開發頁面。

    1. 以項目管理員身份登錄DataWorks控制臺

    2. 選擇地域,在左側導航欄,單擊工作空間列表。

    3. 工作空間列表頁面,在目標工作空間操作列選擇快速進入>數據開發

  2. 在DataStudio控制臺的數據開發頁面,單擊業務流程節點下的目標業務流程。

    如果需要新建業務流程,請參見創建業務流程

  3. 數據集成節點上右鍵選擇新建節點 > 離線同步。

  4. 新建節點對話框,選擇路徑并填寫節點名稱。

  5. 單擊確認。

    數據集成節點下會顯示新建的離線同步節點。

步驟二:配置離線同步任務并啟動

  1. 雙擊打開新建的離線同步任務節點。

  2. 配置同步網絡鏈接。

    選擇離線同步任務的數據來源、數據去向以及用于執行同步任務的資源組,并測試連通性。

    重要

    數據同步任務的執行必須經過資源組來實現,請選擇資源組并保證資源組與讀寫兩端的數據源能聯通訪問。

    1. 網絡與資源配置步驟,選擇數據來源Tablestore Stream,并選擇數據源名稱為源數據源。

    2. 選擇資源組。

      選擇資源組后,系統會顯示資源組的地域、規格等信息以及自動測試資源組與所選數據源之間連通性。

      重要

      請與新增數據源時選擇的資源組保持一致。

    3. 選擇數據去向Tablestore,并選擇數據源名稱為目標數據源。

      系統會自動測試資源組與所選數據源之間連通性。

    4. 測試可連通后,單擊下一步

    5. 提示對話框,單擊確認使用腳本模式

      重要
      • 表格存儲僅支持腳本模式。當存在不支持向導模式的數據源時,如果繼續編輯任務,將強制使用腳本模式進行編輯。

      • 任務轉為腳本模式后,將無法轉為向導模式,

  3. 配置同步任務并保存。

    增量數據的同步需要使用到Tablestore Stream Reader與Tablestore Writer插件。腳本配置規則請參見Tablestore Stream數據源Tablestore數據源。

    1. 配置任務步驟,根據配置示例編輯腳本。

      配置示例如下:

      重要

      為了便于理解,在配置示例中增加了注釋內容,實際使用腳本時請刪除所有注釋內容。

      {
       "type": "job",
       "version": "2.0",
       "steps": [
       {
       "stepType": "otsstream", // 讀數據使用的插件為Tablestore Stream Reader。
       "parameter": {
       "datasource": "instance01", // 已增加的Tablestore源數據源。
       // 源時序表名稱。
       "dataTable": "timeseriesReadTable", 
       // 用于記錄狀態的表的名稱。如果該表不存在,則Tablestore Stream Reader會自動創建。
       "statusTable": "TableStoreStreamReaderStatusTable",
       "maxRetries": 30, // 最大重試次數。
       "isExportSequenceInfo": false,  // 不導出時序信息。
       // 模式為行模式(single_version_and_update_only)。
       "mode": "single_version_and_update_only",
       "isTimeseriesTable": "true", // 表示該表為時序表。
       // 此處的${}用于注入參數,參數會在下一步配置。
       "startTimeString": "${startTime}", // 增量數據的時間范圍(左閉右開)的左邊界。
       "endTimeString": "${endTime}", // 增量數據的時間范圍(左閉右開)的右邊界。
       "envType": 1,
       "column": [
       {
       "name": "_m_name"
       },
       {
       "name": "_data_source"
       },
       {
       "name": "_tags"
       },
       {
       "name": "_time"
       },
       {
       "name": "string_1",
       "type": "string"
       },
       {
       "name": "bool_1",
       "type": "BOOL"
       },
       {
       "name": "int_1",
       "type": "int"
       },
       {
       "name": "double_1",
       "type": "double"
       }
       ]
       },
       "name": "Reader",
       "category": "reader"
       },
       {
       "stepType": "ots", // 寫數據使用的插件為Tablestore Writer。
       "parameter": {
       "datasource": "instance02", // 已增加的Tablestore目標數據源。
       "table": "timeseriesWriteTable", // 目標時序表名稱。
       "newVersion": "true", // 使用Tablestore Writer的新版本。
       "mode": "normal", // 使用Tablestore Writer的普通模式。
       "isTimeseriesTable": "true", // 表示該表為時序表。
       "envType": 1,
       "column": [
       {
       "name": "_m_name" // 導入時序表的度量名稱字段。
       },
       {
       "name": "_data_source" // 導入時序表的數據源字段。
       },
       {
       "name": "_tags" // 導入時序表的標簽字段。
       },
       {
       "name": "_time" // 導入時序表的時間戳字段。
       },
       // 導入Tablestore Steam Reader導出的四列字段。導入字段與導出字段的順序必須一一對應。
       {
       "name": "string_1", 
       "type": "string" 
       },
       {
       "name": "bool_1",
       "type": "BOOL"
       },
       {
       "name": "int_1",
       "type": "int"
       },
       {
       "name": "double_1",
       "type": "double"
       }
       ]
       },
       "name": "Writer", // 表示以上配置為writer寫數據的配置。
       "category": "writer"
       }
       ],
       "setting": {
       "errorLimit": {
       "record": ""
       },
       "locale": "zh",
       "speed": {
       "throttle": false,
       "concurrent": 2  // 同步任務的并發度。
       }
       },
       "order": {
       "hops": [
       {
       "from": "Reader",
       "to": "Writer"
       }
       ]
       }
       }
    2. 按【Ctrl+S】保存腳本。

      說明

      執行后續操作時,如果未保存腳本,則系統會出現保存確認的提示,單擊確認即可。

  4. 配置調度屬性。

    1. 單擊任務右側的調度配置

    2. 配置調度面板的參數部分,單擊新增參數,根據下表說明新增參數。更多信息,請參見調度參數支持的格式。

      參數

      參數值

      startTime

      $[yyyymmddhh24-2/24]$[miss-10/24/60]

      endTime

      $[yyyymmddhh24-1/24]$[miss-10/24/60]

      配置示例如下圖所示。

      image..png

      假如任務運行時的時間為2023年04月23日19:00:00點,則startTime為20230423175000,endTime為20230423185000。任務將會同步17:50到18:50時段內新增的數據。

    3. 時間屬性部分,配置時間屬性。更多信息,請參見時間屬性配置說明

      此處以任務整點每小時自動運行為例介紹配置,如下圖所示。

      image..png

    4. 調度依賴部分,單擊使用工作空間根節點,系統會自動生成依賴的上游節點信息。

      使用工作空間根節點表示該任務無上游的依賴任務。

      image..png

    5. 配置完成后,關閉配置調度面板。

  5. (可選)根據需要調試腳本代碼。

    通過調試腳本代碼,確保同步任務能成功同步源時序表的增量數據到目標時序表中。

    重要

    調試腳本代碼時配置的時間范圍內的數據可能會多次導入到目標時序表,相同時間線會覆蓋寫入到目標時序表。

    1. 單擊1680170333627-a1e19a43-4e2a-4340-9564-f53f2fa6806e圖標。

    2. 參數對話框,選擇運行資源組的名稱,并配置自定義參數。

      自定義參數的格式為yyyyMMddHHmmss,例如20230423175000。

      image

    3. 單擊運行

  6. 提交同步任務。

    提交同步任務后,同步任務會按照配置的調度屬性進行運行。

    1. 單擊image圖標。

    2. 提交對話框,根據需要填寫變更描述。

    3. 單擊確認。

步驟三:查看任務執行結果

  1. 在DataWorks控制臺查看任務運行狀態。

    1. 單擊同步任務工具欄右側的運維。

    2. 周期實例頁面的實例視角頁簽,查看實例的運行狀態。

      image

  2. 在表格存儲控制臺查看目標時序表數據同步結果。

    1. 登錄表格存儲控制臺。

    2. 概覽頁面上方,選擇地域。

    3. 單擊實例名稱。

    4. 實例詳情頁簽,單擊時序表列表頁簽。

    5. 時序表列表頁簽,單擊目標時序表操作列的數據管理

    6. 數據管理頁簽,即可查看同步到該時序表中的數據。