MRS作業簡介
MRS作業是MRS為用戶提供的程序執行平臺,用于處理和分析用戶數據。作業創建完成后,所有的作業列表信息展示在“作業管理”頁面中,您可以查看所有的作業列表,也可以創建和管理作業。若集群詳情頁面不支持“作業管理”頁簽,請通過后臺方式提交作業。
MRS集群處理的數據源來源于OBS或HDFS,HDFS是Hadoop分布式文件系統(Hadoop Distributed File System),OBS即對象存儲服務,是一個基于對象的海量存儲服務,為客戶提供海量、安全、高可靠、低成本的數據存儲能力。MRS可以直接處理OBS中的數據,客戶可以基于管理控制臺Web界面和OBS客戶端對數據進行瀏覽、管理和使用,同時可以通過REST API接口方式單獨或集成到業務程序進行管理和訪問數據。
用戶創建作業前需要將本地數據上傳至OBS系統,MRS使用OBS中的數據進行計算分析。當然MRS也支持將OBS中的數據導入至HDFS中,使用HDFS中的數據進行計算分析。數據完成處理和分析后,您可以將數據存儲在HDFS中,也可以將集群中的數據導出至OBS系統。需要注意,HDFS和OBS也支持存儲壓縮格式的數據,目前支持存儲bz2、gz壓縮格式的數據。
作業分類
目前MRS集群支持創建和管理如下幾種類型的作業。如果處于“運行中”狀態的集群創建作業失敗,請查看集群管理頁面中相關組件健康情況。操作方法,請參見查看和定制集群監控指標。
- MapReduce:提供快速并行處理大量數據的能力,是一種分布式數據處理模式和執行環境。MRS當前支持提交MapReduce Jar程序。
- Spark:基于內存進行計算的分布式計算框架,MRS當前支持提交SparkSubmit、Spark Script和Spark SQL作業。
?SparkSubmit:支持提交Spark Jar和Spark python程序,執行Spark application,計算和處理用戶數據。
?SparkScript:支持提交SparkScript腳本,批量執行Spark SQL語句。
?Spark SQL:運用Spark提供的類似SQL的Spark SQL語言,實時查詢和分析用戶數據。
lHive:建立在Hadoop基礎上的開源的數據倉庫。MRS當前支持提交HiveScript腳本,和執行Hive SQL語句。
lFlink:提供一個分布式大數據處理引擎,可對有限數據流和無限數據流進行有狀態計算。
作業列表
作業列表默認按時間順序排列,時間最近的作業顯示在最前端。各類作業列表參數說明如下表所示。
作業列表參數
| 參數 | 參數說明 |
|---|---|
| 作業名稱/ID | 作業的名稱,新增作業時配置。 ID是作業的唯一標識,作業新增后系統自動賦值。 |
| 用戶名稱 | 提交作業的用戶名稱。 |
| 作業類型 | 支持的作業類型: Distcp:導入、導出數據 MapReduce Spark SparkSubmit SparkScript Spark SQL Hive SQL HiveScript Flink 說明 在“文件管理”頁面進行文件的導入導出操作后,您可以在“作業管理”頁面查看Distcp作業。 只有創建集群時選擇了Spark、Hive和Flink組件,并且集群處于運行中,才能新增Spark、Hive和Flink類型的作業。 |
| 狀態 | 顯示作業的狀態。 已提交 已接受 運行中 已完成 已終止 異常 |
| 執行結果 | 顯示作業執行完成的結果。 未定:正在執行的作業。 成功:執行成功的作業。 終止:執行中被手動終止的作業。 失敗:執行失敗的作業。 說明 作業執行成功或失敗后都不能再次執行,只能新增作業,配置作業參數后重新提交作業。 |
| 隊列名稱 | 提交作業用戶綁定的隊列的名稱。 |
| 作業提交時間 | 記錄作業提交的開始時間。 |
| 作業結束時間 | 記錄作業執行完成或手工停止的時間。 |
| 操作 | 查看日志:單擊“查看日志”,查看運行中的作業執行的實時日志信息。操作方法,請參見查看作業配置信息和日志。 查看詳情:單擊“查看詳情”,查看作業的詳細配置信息。操作方法,請參見查看作業配置信息和日志。 更多 ? 停止:單擊“停止”,停止正在運行的作業。操作方法,請參見停止作業。 ? 刪除:單擊“刪除”,刪除一個作業。操作方法,請參見刪除作業。 ? 結果:單擊“結果”,查看SparkSql和SparkScript類型的“狀態”為“已完成”且“執行結果”為“成功”的作業執行結果。 說明 Spark SQL作業不支持停止。 作業刪除后不可恢復,請謹慎操作。 當選擇保留作業日志到OBS或HDFS時,系統在作業執行結束后,將日志壓縮并存儲到對應路徑。因此,此類作業運行結束后,作業狀態仍然為“運行中”,需等日志存儲成功后,狀態變更為“已完成”。日志存儲花費時間依賴于日志大小,需要數分鐘以上。 |
按鈕說明
按鈕 說明 按鈕
說明
選擇提交作業的時間區間,篩選在對應時間區間內提交的作業。
在下拉框中選擇作業執行結果,篩選作業。
l? ? 全部:表示篩選所有的作業。
l? ? 成功:表示篩選執行成功的作業。
l? ? 未定:表示篩選正在執行的作業。
l? ? 終止:表示篩選被手動終止的作業。
l? ? 失敗:表示篩選執行失敗的作業。
在下拉框中選擇作業類型,篩選作業。
l? ? 全部作業類型
l? ? MapReduce
l? ? HiveScript
l? ? Distcp
l? ? SparkScript
l? ? Spark SQL
l? ? Hive SQL
l? ? SparkSubmit
l? ? Flink
在搜索框中根據搜索條件輸入對應內容,單擊
,搜索作業。
l? ? 作業名稱
l? ? 作業ID
l? ? 用戶名稱
l? ? 隊列名稱
單擊
,手動刷新作業列表。
作業執行權限說明
對于開啟Kerberos認證的安全集群,用戶在MRS界面提交作業時,要先執行IAM用戶同步操作,同步完成后會在MRS系統中產生同IAM用戶名的用戶。IAM同步用戶是否有提交作業權限,取決于IAM同步時,用戶所綁定的IAM策略,提交作業策略請參考統一身份認證用戶指南中關于同步MRS的說明章節。
用戶提交作業,如果涉及到具體組件的資源使用,如HDFS的目錄訪問、Hive表的訪問等相關組件的權限時,需由admin(Manager管理員)用戶進行授權,給提交作業用戶賦予相關組件權限。具體操作如下:
1.使用admin用戶登錄Manager。
2.參考創建角色內容,增加用戶具體需要的組件權限的角色。
3.參考相關任務修改提交作業用戶所屬的用戶組,將新增的組件角色加入到該用戶組中。
說明用戶所在用戶組綁定的組件角色修改后,權限生效需要一定時間,請耐心等待。