日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

元數(shù)據(jù)抽取

在業(yè)務(wù)運(yùn)行中,經(jīng)常會(huì)沉淀到大量數(shù)據(jù)到數(shù)據(jù)湖中這部分?jǐn)?shù)據(jù)可能是沒有像數(shù)據(jù)倉庫一樣經(jīng)過嚴(yán)格的數(shù)據(jù)管理流程或沉淀規(guī)范明確的元數(shù)據(jù)信息。元數(shù)據(jù)抽取可以分析數(shù)據(jù)湖中特定格式的數(shù)據(jù),并自動(dòng)生成元數(shù)據(jù)信息,通過周期性或手動(dòng)執(zhí)行,實(shí)現(xiàn)數(shù)據(jù)湖分析計(jì)算schema on read目標(biāo)。

使用限制

  1. 抽取的數(shù)據(jù)存儲(chǔ)僅支持?jǐn)?shù)據(jù)存儲(chǔ)在阿里云OSS標(biāo)準(zhǔn)型中的數(shù)據(jù)。

  2. 目前元數(shù)據(jù)發(fā)現(xiàn)僅支持JSON、CSV、Parquet、ORC、Hudi、Delta、Avro格式。

  3. 元數(shù)據(jù)發(fā)現(xiàn)消耗算力,目前暫不收取費(fèi)用。

操作步驟

  1. 登入數(shù)據(jù)湖構(gòu)建控制臺(tái)。

  2. 在左側(cè)導(dǎo)航欄,單擊元數(shù)據(jù)> 元數(shù)據(jù)抽取

  3. 在元數(shù)據(jù)抽取頁面,單擊新建抽取任務(wù)。

  4. 輸入元數(shù)據(jù)抽取任務(wù)的配置參數(shù),詳細(xì)參數(shù)說明如下。

    參數(shù)配置

    字段描述

    抽取任務(wù)名稱

    元數(shù)據(jù)抽取任務(wù)的名稱,輸入為中英文數(shù)字和(_)。

    OSS路徑

    指定待抽取數(shù)據(jù)的OSS目錄。

    排除模式

    排查指定OSS目錄下的文件,支持正則匹配。

    解析格式

    支持JSON、CSV、Parquet、ORC、Hudi、Delta、Avro中某一類格式進(jìn)行抽取,或采用自動(dòng)識(shí)別模式會(huì)對(duì)數(shù)據(jù)文件自動(dòng)解析。

    目標(biāo)數(shù)據(jù)庫

    抽取獲取的元數(shù)據(jù)存儲(chǔ)在元數(shù)據(jù)庫的位置。

    目標(biāo)數(shù)據(jù)表前綴

    通過元數(shù)據(jù)抽取生成跟文件一致的表名,輸入目標(biāo)元數(shù)據(jù)表前綴后,會(huì)在表名前添加前綴。

    抽取任務(wù)發(fā)現(xiàn)表字段更新時(shí)

    當(dāng)元數(shù)據(jù)抽取任務(wù)獲取的表與現(xiàn)有表字段發(fā)現(xiàn)不一致時(shí),采?。?/p>

    • 僅新增列,不會(huì)刪除元數(shù)據(jù)中原有的列。

    • 更新表結(jié)構(gòu),根據(jù)最新探測的表結(jié)構(gòu)生成新的表結(jié)果。

    • 忽略更新,不修改任何表,現(xiàn)有元數(shù)據(jù)保持不變。

    說明

    ORC文件不支持識(shí)別新增列。

    如何處理OSS中發(fā)現(xiàn)已刪除對(duì)象

    當(dāng)元數(shù)據(jù)抽取任務(wù)探測到原來表對(duì)應(yīng)OSS數(shù)據(jù)已經(jīng)被刪除,采取:

    • 刪除對(duì)應(yīng)的元數(shù)據(jù)。

    • 忽略更新,不刪除任何表。

    RAM角色

    執(zhí)行元數(shù)據(jù)抽取任務(wù)時(shí)采用的角色,默認(rèn)為AliyunDLFWorkFlowDefaultRole,賦予DLF產(chǎn)品有作業(yè)執(zhí)行的權(quán)限。

    執(zhí)行策略

    • 手動(dòng)執(zhí)行,通過手動(dòng)方式觸發(fā)任務(wù)執(zhí)行。

    • 調(diào)度執(zhí)行,周期性的通過指定時(shí)間執(zhí)行元數(shù)據(jù)抽取任務(wù)。

    抽取策略

    • 快速抽取:抽取元數(shù)據(jù)時(shí)只掃描每個(gè)文件的部分?jǐn)?shù)據(jù),抽取作業(yè)消耗時(shí)間較短,抽取結(jié)果準(zhǔn)確性低于全量抽取,您可以在元數(shù)據(jù)編輯中調(diào)整元數(shù)據(jù)信息。

    • 全量抽?。撼槿≡獢?shù)據(jù)時(shí)掃描全量數(shù)據(jù)文件,在數(shù)據(jù)規(guī)模比較大時(shí),作業(yè)消耗時(shí)間長,抽取結(jié)果更準(zhǔn)確。

5. 確認(rèn)任務(wù)執(zhí)行的相關(guān)參數(shù),單擊保存并立即執(zhí)行。