阿里云圖數據庫自動機器學習(Graph Database Auto Machine Learning,簡稱GDB Automl)支持數據處理、模型訓練、數據預測和導出部署。本文為您詳細介紹GDB Automl的產品功能。

數據處理

  1. 數據導入

    目前版本支持從圖數據庫GDB導入數據、從文件中導入(包括從CSV文件或壓縮包文件)、從數據庫SQL表導入。未來還將支持直接從阿里云對象存儲服務OSS中導入數據或借助DataWorks工具進行各種格式的數據導入。

  2. 數據解析

    GDB Automl將導入和上傳的數據進行自動解析,您可以自動配置解析數據源和解析器(支持CSV、ARFF、XLS、ORC等多種數據格式的解析),解析后可查看數據的樣本量,并查看樣本特征摘要,解析特征分布情況。

  3. 數據切分

    支持按照自定義比例對數據幀進行拆分,可以快捷劃分訓練集、驗證集和測試集。GDB Automl將隨機對數據按照比例進行切分,得到拆分后的數據幀文件。

模型訓練

  1. 運行自動機器學習

    GDB Automl提供運行自動機器學習功能,您可以配置實驗基本參數(包括訓練數據幀、驗證數據幀和目標特征列,用于排行榜對模型排序的第一指標等)和訓練參數(例如K折交叉驗證折數,指定訓練權重列、排序指標、訓練時忽略的特征列、模型停止的條件等)。配置好參數后單擊建立模型,可以自動地進行模型訓練,調參優化的過程。運行結束后會生成模型的排行榜數據,可以查看模型的詳細參數和訓練驗證指標。

  2. 單個模型訓練

    當您希望采用特定模型對導入數據進行訓練時,可以選擇單個模型,設置更具體的模型參數進行該模型的自動訓練和優化。當前版本支持的機器學習模型包括:聚合器(Aggregator)、 Cox風險比例回歸模型(CoxPH)、深度學習(DeepLearning)、分布式隨機森林(DRF)、梯度提升模型(GBM)、廣義線性模型(GLM)、廣義低階模型(GLRM)、孤立森林(IF)、K均值聚類(K-means)、樸素貝葉斯模型(Naive Bayes)、主成分分析(PCA)、規則擬合(RuleFit)、集成學習(Stacked Ensemble)、目標編碼器(TargetEncoder)和詞向量模型(Word2Vec)等多種經典機器學習和深度學習模型。您同樣可以對選擇的模型進行實驗基本參數和訓練參數的設置,并建立模型進行自動訓練過程。

數據預測

模型訓練結束后,您可以進行預測分析過程,使用模型在測試數據上進行評估。從訓練產生的模型列表中選擇一個模型,并選擇用于預測的數據幀,執行預測過程,GDB Automl將自動對測試數據進行處理,執行預測任務。執行結束后可以查看測試數據集的各個指標效果,混淆矩陣以及其他統計數據等。

導出部署

GDB Automl支持將訓練產生的模型生成POJO(Java原生對象)離線部署和Python在線服務調用兩種方式。您可以直接下載模型POJO對象文件到本地,進行離線部署分析或者通過Python調用在線服務。更多信息,請參見POJO部署預測Python部署預測