本文中含有需要您注意的重要提示信息,忽略該信息可能對您的業務造成影響,請務必仔細閱讀。
SPARK任務類型用于執行Spark應用。本文為您介紹創建SPARK類型任務時涉及的參數,并提供了SPARK任務的示例。
參數說明
參數 | 說明 |
節點名稱 | 任務的名稱。一個工作流定義中的節點名稱是唯一的。 |
運行標志 |
|
描述 | 當前節點的功能描述。 |
任務優先級 | 流程運行的優先級。支持以下級別:
|
失敗重試次數 | 工作流運行失敗自動重試的次數。 |
失敗重試間隔 | 每次失敗重試的間隔。單位:分。 |
延時執行時間 | 延時執行的時間,默認為0,即立即執行,設置了該值后才執行延時操作。單位:分。 |
超時告警 | 該開關默認關閉。打開超時告警開關,可設定超時時長,并選擇至少一個超時策略。
|
任務提交節點 |
說明 如果程序類型選擇為SQL,則任務提交節點默認僅支持EMR集群worker節點(提交到Yarn執行)方式。 |
程序類型 | 重要 如果選擇程序類型為PYTHON,則所選執行集群的所有worker節點都必須安裝依賴環境。如果您需要在只有部分worker節點安裝了依賴環境的集群中執行PySpark任務,詳情請參見常見問題。 支持JAVA、SCALA、PYTHON、SQL和CUSTOM_SCRIPT語言。 說明 選擇的類型不同,展示的參數也不同,具體以控制臺為準。 |
主函數的Class | Spark程序的入口Main Class的全路徑。 |
主程序包 | 執行Spark程序的JAR包。通過資源中心上傳,詳情請參見資源中心。 |
部署方式 | 僅支持cluster模式部署。 |
腳本 |
|
任務名稱 | Spark程序的名稱。 |
Driver核心數 | 用于設置Driver內核數,請根據實際生產環境進行設置。 |
Driver內存數 | 用于設置Driver內存數,請根據實際生產環境進行設置。 |
Executor數量 | 用于設置Executor的數量,請根據實際生產環境進行設置。 |
Executor內存數 | 用于設置Executor內存數,請根據實際生產環境設置。 |
Executor核心數 | 用于設置Executor內核數,請根據實際生產環境設置。 |
主程序參數 | 設置Spark程序的輸入參數,支持自定義參數變量的替換。 |
選項參數 | 設置spark-submit命令的選項參數。例如, |
資源 | 選擇任務執行時所需的資源文件,請確保您已在資源中心的文件管理頁面,創建或者上傳了相應的文件。選擇所需文件后,您可以在任務腳本中通過完整路徑引用它們。例如, |
自定義參數 | 任務自定義參數,會替換腳本中 |
前置任務 | 設置當前任務的前置(上游)任務。 |
任務示例
引用OSS資源提交Spark任務
Spark任務選擇EMR集群worker節點(提交到Yarn執行)時,支持直接引用OSS資源,在執行該任務時會自動加載使用代碼中的OSS資源。
引用方式如下:
程序類型選擇CUSTOM_SCRIPT,任務提交節點選擇EMR集群worker節點(提交到Yarn執行),在腳本中編輯以下內容。
spark-submit \
--class org.apache.spark.examples.SparkPi \
--deploy-mode cluster \
--master yarn \
--driver-cores 1 \
--driver-memory 4g \
--executor-memory 4g \
--executor-cores 2 \
--num-executors 3 \
oss://path/to/examples.jar
上述示例中的參數請根據實際情況進行更改:
--class
:Spark作業的主類,指定包含要執行的類的全名。--deploy-mode
:指定部署模式,僅支持cluster。--master
:指定運行環境。--driver-cores
:指定Driver內核數。--driver-memory
:指定設置Driver內存數。--executor-memory
:指定設置Executor內存數。--executor-cores
:指定設置Executor內核數。--num-executors
:指定設置Executer數量。oss://path/to/examples.jar
:引用的JAR文件在OSS上的路徑。
引用資源中心的文件提交Spark任務
如果您需要引用資源中心的文件提交Spark任務,可參考以下參數配置:
程序類型:請選擇與您的Spark作業所采用的編程語言相對應的選項。例如,Scala、Python或Java。
主函數的Class:Spark程序的入口Main Class的全路徑。例如,com.yourcompany.YourMainClass。
說明如果是Python腳本,則不需要填寫。
主程序包:執行Spark程序的JAR包。需要通過資源中心上傳,詳情請參見資源中心。
資源:如果您的Spark作業需要額外的資源文件(例如配置文件),您可以在此處指定。這些資源文件需要預先通過資源中心上傳,詳情請參見資源中心。
成功上傳后,您可以在任務腳本中使用它們的完整路徑進行引用,例如:“path/to/test.txt”。