本文將解答與Notebook相關的問題。
Q:Notebook里執行任務,不同用戶之間是串行的么?
如果是SQL,是可以并行執行的;如果是Scala代碼,是串行執行的,因為默認所有Note共享一個SparkContext。
相關配置:
參數 | 默認取值 |
---|---|
zeppelin.spark.concurrentSQL | true |
zeppelin.spark.currentSQL.max | 10 |
Q:如何使Note之間相互獨立?
設置 per note isolated,使每個Note是一個獨立的SparkContext。
Q: 如何配置依賴(jars, python packages)
通過設置spark.jars 來設置依賴的jar包。jar包必須放在OSS上,多個jar包之間通過逗號分隔。
通過設置spark.jars.packages 來設置依賴的package,格式:groupId:artifactId:version, 多個package逗號分隔。
Python package 需要通過Databricks數據洞察控制頁面選擇相應的python包。
Q:如何配置Spark Application 資源
通過以下屬性配置driver的資源:
spark.driver.memory
spark.driver.cores
通過以下屬性配置executor的資源:
spark.executor.memory
spark.executor.cores
通過以下屬性配置executor數目:
spark.executor.instances