Databricks Runtime
Databricks Runtimes是在Databricks集群上運(yùn)行的一組核心組件。Databricks提供了幾種類型的Runtime。
Databricks Runtime Databricks Runtime包括Apache Spark,但還添加了許多組件和更新,這些組件和更新極大地提高了大數(shù)據(jù)分析的可用性,性能和安全性。 | 用于機(jī)器學(xué)習(xí)的Databricks Runtime(敬請(qǐng)期待) Databricks Runtime ML是Databricks Runtime的變體,它添加了多個(gè)流行的機(jī)器學(xué)習(xí)庫,包括TensorFlow,Keras,PyTorch和XGBoost。 |
用于基因組的Databricks Runtime (敬請(qǐng)期待) 用于基因組的 Databricks Runtime 是Databricks Runtime的一種變體,已針對(duì)基因組和生物醫(yī)學(xué)數(shù)據(jù)進(jìn)行了優(yōu)化。 | Databricks Light(敬請(qǐng)期待) Databricks Light 為不需要Databricks Runtime提供的高級(jí)性能、可靠性或自動(dòng)縮放優(yōu)勢(shì)的作業(yè)提供了運(yùn)行時(shí)選項(xiàng)。 |
Databricks Runtime
Databricks Runtime包括Apache Spark,但還添加了許多組件和更新,這些組件和更新大大改善了大數(shù)據(jù)分析的可用性,性能和安全性:
Delta Lake是在Apache Spark之上構(gòu)建的下一代存儲(chǔ)層,可提供ACID事務(wù),優(yōu)化的布局和索引以及用于構(gòu)建數(shù)據(jù)管道的執(zhí)行引擎改進(jìn)。
已安裝的Java,Scala,Python和R庫。
Ubuntu及其隨附的系統(tǒng)庫。
適用于啟用GPU的集群的GPU庫。
與平臺(tái)的其他組件集成的Databricks服務(wù),例如筆記本,作業(yè)和集群管理器。
Runtime 版本控制
Databricks Runtime 版本會(huì)定期發(fā)布:
主要版本以小數(shù)點(diǎn)之前的版本號(hào)遞增表示(例如,從3.5跳到4.0)。當(dāng)發(fā)生重大更改時(shí),它們會(huì)被釋放,其中某些更改可能無法向后兼容。
功能部件版本以小數(shù)點(diǎn)后的版本號(hào)遞增表示(例如,從3.4跳到3.5)。每個(gè)主要版本均包含多個(gè)功能版本。功能版本始終與其主要版本中的先前版本向后兼容。
長期支持版本由LTS限定符表示(例如3.5 LTS)。對(duì)于每個(gè)主要版本,Databricks 都會(huì)聲明一個(gè)“規(guī)范”功能版本,并提供為期兩年的支持。有關(guān)更多信息,請(qǐng)參見Databricks運(yùn)行時(shí)支持生命周期。
當(dāng)前Databrick 數(shù)據(jù)洞察支持版本為:DBR5.5,Spark2.4.3,Scala 2.11。
用于機(jī)器學(xué)習(xí)的Databricks Runtime
用于機(jī)器學(xué)習(xí)的Databricks Runtime(Databricks Runtime ML)自動(dòng)創(chuàng)建針對(duì)機(jī)器學(xué)習(xí)優(yōu)化的集群。Databricks Runtime ML集群包括最受歡迎的機(jī)器學(xué)習(xí)庫,例如TensorFlow,PyTorch,Keras和XGBoost,還包括分布式培訓(xùn)所需的庫,例如Horovod。使用Databricks Runtime ML可以加快集群的創(chuàng)建速度,并確保已安裝的庫版本兼容。
用于機(jī)器學(xué)習(xí)的Databricks Runtime簡(jiǎn)介
本教程是為Databricks Runtime ML的新用戶設(shè)計(jì)的。完成此過程大約需要10分鐘,并顯示了一個(gè)完整的端到端示例,該示例包含加載表格數(shù)據(jù),訓(xùn)練模型,分布式超參數(shù)調(diào)整和模型推斷的示例。它還說明了如何使用MLflow API和MLflow模型注冊(cè)表。
Databricks Runtime ML中包含的庫
Library utilities are not available in Databricks Runtime ML.
Databricks Runtime ML包括各種流行的ML庫。該庫隨每個(gè)發(fā)行版進(jìn)行更新,以包括新功能和修復(fù)。
Databricks已將受支持的庫的子集指定為頂級(jí)庫。對(duì)于這些庫,Databricks提供了更快的更新節(jié)奏,可以在每個(gè)運(yùn)行時(shí)版本中更新到最新的程序包版本(除非存在依賴沖突)。Databricks還為頂級(jí)庫提供高級(jí)支持,測(cè)試和嵌入式優(yōu)化。
有關(guān)頂級(jí)庫和其他提供的庫的完整列表,請(qǐng)參見以下有關(guān)每個(gè)可用Runtime的文章:
如何使用Databricks Runtime ML
除了預(yù)安裝的庫之外,Databricks Runtime ML在集群配置以及如何管理Python包方面與Databricks Runtime不同。
使用Databricks Runtime ML創(chuàng)建集群
當(dāng)你創(chuàng)建一個(gè)集群,請(qǐng)從Databricks運(yùn)行時(shí)版本下拉列表中Databricks運(yùn)行ML版本。支持CPU和GPU的ML運(yùn)行時(shí)均可用。
如果選擇支持GPU的ML運(yùn)行時(shí),系統(tǒng)將提示您選擇兼容的Driver Type和Worker Type。下拉列表中不兼容的實(shí)例類型顯示為灰色。GPU加速標(biāo)簽下列出了啟用GPU的實(shí)例類型。
當(dāng)前Databrick 數(shù)據(jù)洞察支持版本為:DBR5.5,Spark2.4.3,Scala 2.11。
管理Python套件
在Databricks Runtime ML中,Conda軟件包管理器用于安裝Python軟件包。所有Python軟件包都安裝在一個(gè)環(huán)境中:/databricks/python2在使用Python2的/databricks/python3集群上和在使用Python3的集群上。不支持切換(或激活)Conda環(huán)境。
AutoML支持
Databricks Runtime ML包括可自動(dòng)進(jìn)行模型開發(fā)過程并幫助您有效地找到最佳性能模型的工具。
托管MLFlow管理端到端模型生命周期,包括跟蹤實(shí)驗(yàn)運(yùn)行,部署和共享模型以及維護(hù)集中式模型注冊(cè)表。
通過SparkTrials類增加的Hyperopt自動(dòng)執(zhí)行并分發(fā)ML模型參數(shù)調(diào)整。
Databricks Runtime for Genomics
Databricks Runtime for Genomics(Databricks Runtime Genomics)是Databricks Runtime的一個(gè)版本,該版本針對(duì)處理基因組和生物醫(yī)學(xué)數(shù)據(jù)進(jìn)行了優(yōu)化。它是Databricks基因組統(tǒng)一分析平臺(tái)的一部分。
從版本6.0開始,通常可以使用(GA)Databricks Genomics Runtime。
Databricks Runtime for Genomics中有什么?
Databricks-Regeneron開源庫Glow的優(yōu)化版本,具有所有功能以及:
Spark SQL支持讀取和寫入變量數(shù)據(jù)
通用工作流程元素的功能
常見查詢模式的優(yōu)化
與Apache Spark并行的Turn-key pipelines:
常用的開源庫,針對(duì)性能和可靠性進(jìn)行了優(yōu)化:
ADAM
GATK
Hadoop-bam
常用的命令行工具:
samtools
參考數(shù)據(jù)(grch37或38,已知SNP位點(diǎn))
要求
您的Databricks工作區(qū)必須啟用了用于基因組學(xué)的Databricks Runtime 。
使用Databricks Runtime for Genomics創(chuàng)建集群
當(dāng)你創(chuàng)建一個(gè)集群,請(qǐng)從Databricks Runtime版本下拉列表中Databricks Runtime的基因組版本。
Databricks Light
Databricks Light是開源Apache Spark Runtime的Databricks打包。它為不需要Databricks Runtime提供的高級(jí)性能,可靠性或自動(dòng)縮放優(yōu)勢(shì)的作業(yè)提供了運(yùn)行時(shí)選項(xiàng)。特別是,Databricks Light不支持:
Delta Lake
自動(dòng)駕駛功能,如自動(dòng)縮放
高度并發(fā)的通用集群
筆記本,儀表板和協(xié)作功能
各種數(shù)據(jù)源和BI工具的連接器
Databricks Light是作業(yè)(或“自動(dòng)工作負(fù)載”)的Runtime環(huán)境。當(dāng)您在Databricks輕型集群上運(yùn)行作業(yè)時(shí),它們會(huì)受到較低的作業(yè)輕計(jì)算定價(jià)的影響。只有在創(chuàng)建或計(jì)劃JAR、Python或spark提交作業(yè)并將集群附加到該作業(yè)時(shí),才能選擇Databricks Light;不能使用Databricks Light運(yùn)行筆記本作業(yè)或交互式工作負(fù)載。
Databricks Light可以與在其他Databricks Runtime和定價(jià)層上運(yùn)行的集群一起在同一工作空間中使用。您無需請(qǐng)求單獨(dú)的工作區(qū)即可上手。
Databricks Light中有什么?
Databricks Light運(yùn)行時(shí)的發(fā)布時(shí)間表遵循Apache Spark運(yùn)行時(shí)的發(fā)布時(shí)間表。任何Databricks Light版本均基于特定版本的Apache Spark。有關(guān)更多信息,請(qǐng)參見以下發(fā)行說明:
使用Databricks Light創(chuàng)建集群
創(chuàng)建作業(yè)集群時(shí),從Databricks運(yùn)行時(shí)版本下拉列表中選擇Databricks Light版本。
有關(guān)Databricks的詳細(xì)信息,請(qǐng)參考官方文檔:Databricks Runtime