日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

重要

本文中含有需要您注意的重要提示信息,忽略該信息可能對您的業務造成影響,請務必仔細閱讀。

SPARK任務類型用于執行Spark應用。本文為您介紹創建SPARK類型任務時涉及的參數,并提供了SPARK任務的示例。

參數說明

參數

說明

節點名稱

任務的名稱。一個工作流定義中的節點名稱是唯一的。

運行標志

  • 正常(默認):運行工作流時執行該任務。

  • 禁止執行:運行工作流不會執行該任務。

描述

當前節點的功能描述。

任務優先級

流程運行的優先級。支持以下級別:

  • HIGHEST:最高。

  • HIGH:高。

  • MEDIUM(默認):中。

  • LOW:低。

  • LOWEST:最低。

失敗重試次數

工作流運行失敗自動重試的次數。

失敗重試間隔

每次失敗重試的間隔。單位:分。

延時執行時間

延時執行的時間,默認為0,即立即執行,設置了該值后才執行延時操作。單位:分。

超時告警

該開關默認關閉。打開超時告警開關,可設定超時時長,并選擇至少一個超時策略。

  • 選擇超時告警策略,當任務運行時長超過設置的超時時長后,系統將向指定的告警組發送通知。

  • 選擇超時失敗策略,當任務運行時長超過設置的超時時長后,該任務實例會立即失敗。

任務提交節點

  • 調度資源組節點(默認):任務在Workflow的調度資源組節點提交。

  • EMR集群worker節點(提交到Yarn執行):任務在EMR集群的Worker節點提交,占用一個YARN Container。

    警告

    該模式會直接影響EMR集群的文件系統或運行環境,請謹慎操作。

    使用該模式,您還可以選擇配置以下參數:

    • 調度隊列:指定任務提交的YARN隊列。

    • 任務執行容器內存(MB):指定任務執行容器的內存。默認值為1024。

    • 虛擬核數:指定任務執行容器的虛擬核數(vCores)。默認值為1。

    • 優先級:指定任務執行容器的優先級(0-100)。默認值為0,數值越大,優先級越高。

    • 執行用戶:默認提交任務的用戶為dolphinscheduler。標準集群(非高安全集群),如果需要設置執行用戶,請確保YARN服務包含如下配置項:

      • yarn.nodemanager.container-executor.class=org.apache.hadoop.yarn.server.nodemanager.LinuxContainerExecutor

      • yarn.nodemanager.linux-container-executor.nonsecure-mode.limit-users=false

說明

如果程序類型選擇為SQL,則任務提交節點默認僅支持EMR集群worker節點(提交到Yarn執行)方式。

程序類型

重要

如果選擇程序類型為PYTHON,則所選執行集群的所有worker節點都必須安裝依賴環境。如果您需要在只有部分worker節點安裝了依賴環境的集群中執行PySpark任務,詳情請參見常見問題

支持JAVASCALAPYTHONSQLCUSTOM_SCRIPT語言。

說明

選擇的類型不同,展示的參數也不同,具體以控制臺為準。

主函數的Class

Spark程序的入口Main Class的全路徑。

主程序包

執行Spark程序的JAR包。通過資源中心上傳,詳情請參見資源中心

部署方式

僅支持cluster模式部署。

腳本

  • 當程序類型為SQL時,請填寫SQL語句。

  • 當程序類型為CUSTOM_SCRIPT時,請填寫完整的spark-submit或spark-sql命令。

任務名稱

Spark程序的名稱。

Driver核心數

用于設置Driver內核數,請根據實際生產環境進行設置。

Driver內存數

用于設置Driver內存數,請根據實際生產環境進行設置。

Executor數量

用于設置Executor的數量,請根據實際生產環境進行設置。

Executor內存數

用于設置Executor內存數,請根據實際生產環境設置。

Executor核心數

用于設置Executor內核數,請根據實際生產環境設置。

主程序參數

設置Spark程序的輸入參數,支持自定義參數變量的替換。

選項參數

設置spark-submit命令的選項參數。例如,--jars--files--archives--conf

資源

選擇任務執行時所需的資源文件,請確保您已在資源中心文件管理頁面,創建或者上傳了相應的文件。選擇所需文件后,您可以在任務腳本中通過完整路徑引用它們。例如,path/to/test.txt

自定義參數

任務自定義參數,會替換腳本中${變量}的內容。更多參數配置信息,請參見參數說明

前置任務

設置當前任務的前置(上游)任務。

任務示例

引用OSS資源提交Spark任務

Spark任務選擇EMR集群worker節點(提交到Yarn執行)時,支持直接引用OSS資源,在執行該任務時會自動加載使用代碼中的OSS資源。

引用方式如下:

程序類型選擇CUSTOM_SCRIPT任務提交節點選擇EMR集群worker節點(提交到Yarn執行),在腳本中編輯以下內容。

spark-submit \
  --class org.apache.spark.examples.SparkPi \
  --deploy-mode cluster \
  --master yarn \
  --driver-cores 1 \
  --driver-memory 4g \
  --executor-memory 4g \
  --executor-cores 2 \
  --num-executors 3 \
  oss://path/to/examples.jar 

上述示例中的參數請根據實際情況進行更改:

  • --class:Spark作業的主類,指定包含要執行的類的全名。

  • --deploy-mode:指定部署模式,僅支持cluster。

  • --master:指定運行環境。

  • --driver-cores:指定Driver內核數。

  • --driver-memory:指定設置Driver內存數。

  • --executor-memory:指定設置Executor內存數。

  • --executor-cores:指定設置Executor內核數。

  • --num-executors:指定設置Executer數量。

  • oss://path/to/examples.jar:引用的JAR文件在OSS上的路徑。

引用資源中心的文件提交Spark任務

如果您需要引用資源中心的文件提交Spark任務,可參考以下參數配置:

  • 程序類型:請選擇與您的Spark作業所采用的編程語言相對應的選項。例如,Scala、Python或Java。

  • 主函數的Class:Spark程序的入口Main Class的全路徑。例如,com.yourcompany.YourMainClass。

    說明

    如果是Python腳本,則不需要填寫。

  • 主程序包:執行Spark程序的JAR包。需要通過資源中心上傳,詳情請參見資源中心

  • 資源:如果您的Spark作業需要額外的資源文件(例如配置文件),您可以在此處指定。這些資源文件需要預先通過資源中心上傳,詳情請參見資源中心

    成功上傳后,您可以在任務腳本中使用它們的完整路徑進行引用,例如:“path/to/test.txt”。