用戶通過“文件管理”頁面可以在分析集群進行文件夾創建、刪除,文件導入、導出、刪除操作,暫不支持文件創建功能。流式集群暫不支持在界面使用“文件管理”功能。開啟Kerberos認證的集群中,根目錄下的文件夾有權限限制,如需對其進行讀寫,請參考創建角色內容添加擁有對應文件夾權限的角色,再請參考相關任務修改提交作業用戶所屬的用戶組,將新增的組件角色加入到該用戶組中。
背景信息
MRS集群處理的數據源來源于OBS或HDFS,HDFS是Hadoop分布式文件系統(Hadoop Distributed File System),OBS即對象存儲服務,是一個基于對象的海量存儲服務,為客戶提供海量、安全、高可靠、低成本的數據存儲能力。MRS可以直接處理OBS中的數據,客戶可以基于管理控制臺Web界面和OBS客戶端對數據進行瀏覽、管理和使用,同時可以通過REST API接口方式單獨或集成到業務程序進行管理和訪問數據。
用戶創建作業前需要將本地數據上傳至OBS系統,MRS使用OBS中的數據進行計算分析。當然MRS也支持將OBS中的數據導入至HDFS中,使用HDFS中的數據進行計算分析。數據完成處理和分析后,您可以將數據存儲在HDFS中,也可以將集群中的數據導出至OBS系統。需要注意,HDFS和OBS也支持存儲壓縮格式的數據,目前支持存儲bz2、gz壓縮格式的數據。
導入數據
MRS目前只支持將OBS上的數據導入至HDFS中。上傳文件速率會隨著文件大小的增大而變慢,適合數據量小的場景下使用。
支持導入文件和目錄,操作方法如下:
- 登錄MRS管理控制臺。
- 選擇“集群列表 > 現有集群”,選中一集群并單擊集群名進入集群信息頁面。
- 單擊“文件管理”,進入“文件管理”頁面。
- 選擇“HDFS文件列表”。
- 進入數據存儲目錄,如“bd_app1”。
“bd_app1”目錄僅為示例,可以是界面上的任何目錄,也可以通過“新建”創建新的文件夾。
新建文件夾時需要滿足以下要求:
- 文件夾名稱小于等于255字符。
- 不允許為空。
- 不能包含 : /:*?"<>|;&,'`!{}[]$%+特殊字符。
- 不能以“.”開頭或結尾。
- 開頭和末尾的空格會被忽略。
- 單擊“導入數據”,正確配置HDFS和OBS路徑。配置OBS或者HDFS路徑時,單擊“瀏覽”并選擇文件目錄,然后單擊“是”。
- OBS路徑
-必須以“obs://”開頭。
-不支持導入KMS加密的文件或程序。
-不支持導入空的文件夾。
-目錄和文件名稱可以包含中文、字母、數字、中劃線和下劃線,但不能包含;|&>,<'$*?\特殊字符。
-目錄和文件名稱不能以空格開頭或結尾,中間可以包含空格。
-OBS全路徑長度小于等于255字符。
- HDFS路徑
-默認以“/user”開頭。
-目錄和文件名稱可以包含中文、字母、數字、中劃線和下劃線,但不能包含;|&>,<'$*?:特殊字符。
-目錄和文件名稱不能以空格開頭或結尾,中間可以包含空格。
-HDFS全路徑長度小于等于255字符。
- 單擊“確定”。
文件上傳進度可在“文件操作記錄”中查看。MRS將數據導入操作當做Distcp作業處理,也可在“作業管理”中查看Distcp作業是否執行成功。
導出數據
數據完成處理和分析后,您可以將數據存儲在HDFS中,也可以將集群中的數據導出至OBS系統。
支持導出文件和目錄,操作方法如下:
- 登錄MRS管理控制臺。
- 選擇“集群列表 > 現有集群”,選中一集群并單擊集群名進入集群基本信息頁面。
- 單擊“文件管理”,進入“文件管理”頁面。
- 選擇“HDFS文件列表”。
- 進入數據存儲目錄,如“bd_app1”。
- 單擊“導出數據”,配置OBS和HDFS路徑。配置OBS或者HDFS路徑時,單擊“瀏覽”并選擇文件目錄,然后單擊“是”。
- OBS路徑
-必須以“obs://”開頭。
-目錄和文件名稱可以包含中文、字母、數字、中劃線和下劃線,但不能包含;|&>,<'$*?\特殊字符。
-目錄和文件名稱不能以空格開頭或結尾,中間可以包含空格。
-OBS全路徑長度小于等于255字符。
- HDFS路徑
-默認以“/user”開頭。
-目錄和文件名稱可以包含中文、字母、數字、中劃線和下劃線,但不能包含;|&>,<'$*?:特殊字符。
-目錄和文件名稱不能以空格開頭或結尾,中間可以包含空格。
-HDFS全路徑長度小于等于255字符。

說明當導出文件夾到OBS系統時,在OBS路徑下,將增加一個標簽文件,文件命名為“folder name_ folder ”。請確保導出的文件夾為非空文件夾,如果導出的文件夾為空文件夾,OBS無法顯示該文件夾,僅生成一個命名為“folder name_ folder ”的文件。
- 單擊“確定”。
文件上傳進度可在“文件操作記錄”中查看。MRS將數據導出操作當做Distcp作業處理,也可在“作業管理”中查看Distcp作業是否執行成功。
查看文件操作記錄
通過MRS管理控制臺導入和導出數據時,可在“文件管理 > 文件操作記錄”查看數據導入、導出進度。
文件操作記錄參數說明如下表所示。
| Parameter | Description |
|---|---|
| 提交時間 | 數據導入或導出操作的開始時間。 |
| 源目錄 | 數據的源路徑。 數據導入時“源目錄”為OBS路徑 數據導出時“源目錄”為HDFS路徑 |
| 目標目錄 | 數據的目標路徑。 數據導入時“目標目錄”為HDFS路徑 數據導出時“目標目錄”為OBS路徑 |
| 狀態 | 數據導入或導出操作的狀態。 已提交 已接受 運行中 已完成 已終止 異常 |
| 持續時間(分鐘) | 數據導入或導出操作的總時間。 單位:分鐘 |
| 執行結果 | 數據導入或導出操作的結果。 成功 失敗 終止 未定 |
| 操作 | 查看日志:查看文件操作日志。 |