通過logstash-input-maxcompute插件,您可以讀取MaxCompute離線表的數據到其他數據源中。
前提條件
您已完成以下操作:
使用logstash-input-maxcompute插件
滿足以上前提條件后,您可以通過配置文件管理管道的方式創建管道任務。在創建管道任務時,按照以下說明配置Pipeline參數,保存并部署后,即可觸發阿里云Logstash讀取MaxCompute的數據到目標數據源中。
配置腳本如下,相關參數說明請參見參數說明。
input {
maxcompute {
access_id => "Your accessId"
access_key => "Your accessKey"
endpoint => "maxcompute service endpoint"
project_name => "Your project"
table_name => "Your table name"
partition => "pt='p1',dt='d1'"
thread_num => 1
dirty_data_file => "/ssd/1/<Logstash實例ID>/logstash/data/XXXXX.txt"
}
}
output {
stdout {
codec => rubydebug
}
}
目前阿里云Logstash只支持同一專有網絡VPC(Virtual Private Cloud)下的數據傳輸,如果源端數據在公網環境下,請參見配置NAT公網數據傳輸,通過公網訪問Logstash。
logstash-input-maxcompute插件會全量同步數據到目標數據源中。
參數說明
logstash-input-maxcompute插件支持的參數如下。
參數 | 類型 | 是否必選 | 說明 |
| string | 是 | MaxCompute對外服務的訪問域名,詳情請參見各地域Endpoint對照表(外網連接方式)。 |
| string | 是 | 阿里云賬號的AccessKey ID。 |
| string | 是 | 阿里云賬號的Access Key Secret。 |
| string | 是 | MaxCompute的項目名稱。 |
| string | 是 | MaxCompute的表名稱。 |
| string | 是 | 分區字段。分區表按照字段來定義,例如: |
| number | 是 | 線程數,默認為1。 |
| number | 否 | 重試的間隔,單位為秒。 |
| string | 是 | 指定文件目錄,用于記錄處理失敗的日志。 說明 文件路徑請指定為 |