上傳示例數據和程序
更新時間 2023-08-17 11:09:42
最近更新時間: 2023-08-17 11:09:42
分享文章
本章節主要介紹翼MapReduce如何上傳示例數據和程序。
用戶通過“文件管理”頁面可以在分析集群進行文件夾創建、刪除,文件導入、導出、刪除操作。
背景信息
翼MR集群處理的數據源來源于OBS或HDFS,OBS為客戶提供海量、安全、高可靠、低成本的數據存儲能力。翼MR可以直接處理OBS中的數據,客戶可以基于管理控制臺Web界面和OBS客戶端對數據進行瀏覽、管理和使用。
導入數據
翼MR目前只支持將OBS上的數據導入至HDFS中。上傳文件速率會隨著文件大小的增大而變慢,適合數據量小的場景下使用。
支持導入文件和目錄,操作方法如下:
- 登錄翼MR管理控制臺。
- 選擇“集群列表 > 現有集群”,選中一集群并單擊集群名進入集群信息頁面。
- 單擊“文件管理”,進入“文件管理”頁面。
- 選擇“HDFS文件列表”。
- 進入數據存儲目錄,如“bd_app1”。
“bd_app1”目錄僅為示例,可以是界面上的任何目錄,也可以通過“新建”創建新的文件夾。
新建文件夾時需要滿足以下要求:
- 文件夾名稱小于等于255字符。
- 不允許為空。
- 不能包含 : /:*?"<>|;&,'`!{}[]$%+特殊字符。
- 不能以“.”開頭或結尾。
- 開頭和末尾的空格會被忽略。
- 單擊“導入數據”,正確配置HDFS和OBS路徑。配置OBS或者HDFS路徑時,單擊“瀏覽”并選擇文件目錄,然后單擊“是”。
OBS路徑
- 必須以“obs://”開頭。
- 不支持導入KMS加密的文件或程序。
- 不支持導入空的文件夾。
- 目錄和文件名稱可以包含中文、字母、數字、中劃線和下劃線,但不能包含;|&>,<'$*?\特殊字符。
- 目錄和文件名稱不能以空格開頭或結尾,中間可以包含空格。
- OBS全路徑長度小于等于255字符。
HDFS路徑
- 默認以“/user”開頭。
- 目錄和文件名稱可以包含中文、字母、數字、中劃線和下劃線,但不能包含;|&>,<'$*?:特殊字符。
- 目錄和文件名稱不能以空格開頭或結尾,中間可以包含空格。
- HDFS全路徑長度小于等于255字符。
- 單擊“確定”。
文件上傳進度可在“文件操作記錄”中查看。翼MR將數據導入操作當做Distcp作業處理,也可在“作業管理”中查看Distcp作業是否執行成功。
導出數據
數據完成處理和分析后,您可以將數據存儲在HDFS中,也可以將集群中的數據導出至OBS系統。
支持導出文件和目錄,操作方法如下:
- 登錄翼MR管理控制臺。
- 選擇“集群列表 > 現有集群”,選中一集群并單擊集群名進入集群基本信息頁面。
- 單擊“文件管理”,進入“文件管理”頁面。
- 選擇“HDFS文件列表”。
- 進入數據存儲目錄,如“bd_app1”。
- 單擊“導出數據”,配置OBS和HDFS路徑。配置OBS或者HDFS路徑時,單擊“瀏覽”并選擇文件目錄,然后單擊“是”。
OBS路徑
- 必須以“obs://”開頭。
- 目錄和文件名稱可以包含中文、字母、數字、中劃線和下劃線,但不能包含;|&>,<'$*?\特殊字符。
- 目錄和文件名稱不能以空格開頭或結尾,中間可以包含空格。
- OBS全路徑長度小于等于255字符。
HDFS路徑
- 默認以“/user”開頭。
- 目錄和文件名稱可以包含中文、字母、數字、中劃線和下劃線,但不能包含;|&>,<'$*?:特殊字符。
- 目錄和文件名稱不能以空格開頭或結尾,中間可以包含空格。
- HDFS全路徑長度小于等于255字符。
說明當導出文件夾到OBS系統時,在OBS路徑下,將增加一個標簽文件,文件命名為“foldername_folder”。請確保導出的文件夾為非空文件夾,如果導出的文件夾為空文件夾,OBS無法顯示該文件夾,僅生成一個命名為“folder name_folder”的文件 。
- 單擊“確定”。
文件上傳進度可在“文件操作記錄”中查看。翼MR將數據導出操作當做Distcp作業處理,也可在“作業管理”中查看Distcp作業是否執行成功。