Databricks數(shù)據(jù)洞察(簡(jiǎn)稱(chēng)DDI)是基于Apache Spark的全托管大數(shù)據(jù)分析平臺(tái)。產(chǎn)品內(nèi)核引擎使用Databricks Runtime,并針對(duì)阿里云平臺(tái)進(jìn)行了優(yōu)化。DDI為您提供了高效穩(wěn)定的阿里云Spark服務(wù),您無(wú)需關(guān)心集群服務(wù),只需專(zhuān)注在Spark作業(yè)的開(kāi)發(fā)上。DDI提供的DataInsight Notebook,可以使數(shù)據(jù)工程師、數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家共享集群計(jì)算資源、協(xié)同工作。

功能特性

Databricks數(shù)據(jù)洞察包含了完整的社區(qū)版Spark的功能和特性,全面兼容Apache Spark。

Databricks數(shù)據(jù)洞察包含以下組件:
  • Spark SQL和DataFrames

    Spark SQL是用來(lái)處理結(jié)構(gòu)化數(shù)據(jù)的Spark模塊。DataFrames是被列化了的分布式數(shù)據(jù)集合,概念上與關(guān)系型數(shù)據(jù)庫(kù)的表近似,也可以看做是R或Python中的data frame。

  • Spark Streaming

    實(shí)時(shí)數(shù)據(jù)處理和分析,可以用寫(xiě)批處理作業(yè)的方式寫(xiě)流式作業(yè)。支持Java、Scala和Python語(yǔ)言。

  • MLlib

    可擴(kuò)展的機(jī)器學(xué)習(xí)庫(kù),包含了許多常用的算法和工具包。

  • GraphX

    Spark用于圖和圖并行計(jì)算的API。

  • Spark Core API

    支持R、SQL、Python、Scala、Java等多種語(yǔ)言。