運行SparkSQL作業
更新時間 2024-08-27 18:50:46
最近更新時間: 2024-08-27 18:50:46
分享文章
本章節主要介紹翼MapReduce如何運行SparkSQL作業。
用戶可將自己開發的程序提交到翼MR中,執行程序并獲取結果。本章節教您在翼MR集群后臺如何提交一個新的SparkSQL作業。SparkSQL作業用于查詢和分析數據,包括SQL語句和Script腳本兩種形式,如果SQL語句涉及敏感信息,請使用Spark Script提交。
前提條件
用戶已經將運行作業所需的程序包和數據文件上傳至HDFS系統中。
通過后臺提交作業
例如安裝路徑為“/usr/local/spark3”。具體以實際為準。
-
登錄翼MR管理控制臺。
-
選擇“我的集群”,選中一個運行中的集群并單擊集群名稱,進入集群信息頁面。
-
在“節點管理”頁選中單擊Master節點,選擇要進入的Master節點。
-
單擊該節點右側的“遠程連接”。
-
根據界面提示,輸入Master節點的用戶名和密碼,用戶名、密碼分別為root和創建集群時設置的密碼。
-
集群默認開啟Kerberos認證,執行以下命令認證當前用戶.
示例: klist -kt /etc/security/keytabs/spark.keytab 獲取spark.keytab的principalname kinit?-kt?/etc/security/keytabs/spark.keytab spark.keytab的principalname -
打開spark-sql命令行,進入spark-sql命令行后可執行SQL語句,執行命令如下:
cd $SPARK_HOME ./bin/spark-sql?--conf?spark.yarn.principal=default?
若需要執行SQL文件,需要上傳SQL文件(如上傳到“/opt/”目錄),上傳文件后執行命令如下:
cd $SPARK_HOME
./bin/spark-sql?--conf?spark.yarn.principal=default?-f?/opt/script.sql