本文將解答與Notebook相關的問題。

Q:Notebook里執行任務,不同用戶之間是串行的么?

如果是SQL,是可以并行執行的;如果是Scala代碼,是串行執行的,因為默認所有Note共享一個SparkContext。

相關配置:
參數 默認取值
zeppelin.spark.concurrentSQL true
zeppelin.spark.currentSQL.max 10

Q:如何使Note之間相互獨立?

設置 per note isolated,使每個Note是一個獨立的SparkContext。

notebook_q2

Q: 如何配置依賴(jars, python packages)

通過設置spark.jars 來設置依賴的jar包。jar包必須放在OSS上,多個jar包之間通過逗號分隔。

通過設置spark.jars.packages 來設置依賴的package,格式:groupId:artifactId:version, 多個package逗號分隔。

Python package 需要通過Databricks數據洞察控制頁面選擇相應的python包。

Q:如何配置Spark Application 資源

通過以下屬性配置driver的資源:

spark.driver.memory

spark.driver.cores

通過以下屬性配置executor的資源:

spark.executor.memory

spark.executor.cores

通過以下屬性配置executor數目:

spark.executor.instances