本文為您介紹數據導入的過程。
操作步驟
支持導入的數據類型分為結構化數據和非結構化數據兩種。
選擇結構化或非結構化數據主要取決于您的原始文檔格式。如果您要上傳的原始文檔是pdf、docx、doc、txt、markdown、pptx、ppt、png、jpg、jpeg、bmp、gif等格式,數據類型請選擇非結構化數據;如果您要上傳的原始文檔是xlsx,xls格式,此處請選擇結構化數據。
支持通過控制臺和API兩種方式導入數據。API目前只支持導入非結構化數據。
關于通過API導入數據的具體操作,請參見添加文檔。
導入非結構化數據
在百煉的數據管理頁面,選擇非結構化數據頁簽。
在左側類目管理下,選擇需要導入數據的類目。
單擊圖標創建類目或選擇默認類目進行導入。百煉對類目創建數量沒有限制。
每個業務空間最多上傳1萬個文檔。
單擊導入數據,進入導入數據頁面。
選擇文檔解析器,默認為阿里云文檔智能解析(暫不支持更改)。
對于文檔中的插圖,解析器會識別并提取圖中的文本,并生成文本摘要。這些摘要將與文檔中其它非圖片內容一起被切分并轉換為向量,參與知識庫的檢索。
為文檔配置標簽(可選)。
通過API調用應用時,可以在請求參數
tags
中指定標簽。應用在檢索知識庫時,會先根據標簽篩選相關文檔,從而提高檢索效率。單擊確認,系統將開始解析并導入文檔。整個過程需一定時間,請耐心等待。
文檔解析會將上傳文檔轉換成百煉可處理的格式。在請求高峰時段,該過程可能需要較長時間,請耐心等待。
解析和導入完成后,單擊相應文檔右側的詳情即可查看導入的文檔。
導入結構化數據
在百煉的數據管理頁面,選擇結構化數據頁簽。
新建數據表或選擇現有數據表進行導入。
每個業務空間最多創建1000張數據表,每張表累計可導入的數據上限為10000行(包括表頭)。行數超過此限制將導致導入失敗。請您自行提前對表格中數據進行分割。
新建數據表進行導入
單擊圖標創建數據表。
自定義數據表名稱。
配置表結構,可選擇直接上傳excel或自定義表頭。
操作
說明
直接上傳excel
百煉將自動識別上傳文檔中的表頭,并據此來創建數據表結構,并將其余內容作為數據記錄導入該表。
自定義表頭
列名為必填參數,描述為選填參數,類型為必填參數。
重要創建數據表后將無法再修改列名、描述以及類型。
這里定義的數據表結構,必須和待導入的數據表的結構完全相同,否則會導入失敗。例如,待導入的數據表有2列,這里的表結構必須配置2個字段,且列名需一一對應。您可以通過單擊新增字段或操作列的刪除,來增加或刪減字段。
設置字段類型為link時,請確保鏈接公開可訪問且指向一個有效的圖片文件,否則知識庫無法識別該圖片。
link格式示例:https://example.com/downloads/pic.jpg
創建知識庫時,link類型字段用于生成圖片索引。百煉會訪問目標圖片并提取其特征,然后通過圖片Embedding轉換為向量并保存。知識庫檢索時,會用該向量與用戶上傳圖片的向量進行相似度比對。
上傳文檔以導入數據。
單擊選擇并上傳文檔(xlsx或xls格式)。
文檔中必須包含表頭,且與當前數據表的表頭結構一致,否則會導入失敗。
上傳成功后,單擊預覽可查看導入的數據。
單擊確定。在左側數據表管理的導航樹中出現新增的數據表。
選擇現有數據表進行導入
從左側的數據表管理列表中選擇相應的數據表,然后單擊導入數據。
導入類型選擇覆蓋上傳或增量上傳。
您可以單擊頁面上的下載模板,獲取一個僅包含表頭的空白文檔。您可以在該文檔中插入新數據,隨后直接將其用于覆蓋上傳或增量上傳。
單擊選擇并上傳文檔(xlsx或xls格式)。
文檔中必須包含表頭,且與當前數據表的表頭結構一致,否則會導入失敗。
上傳成功后,單擊預覽可查看導入的數據。
后續步驟
數據導入后,您可將數據應用于知識索引。具體操作請參見知識索引。