開發一個Hive SQL作業
更新時間 2023-08-17 17:14:43
最近更新時間: 2023-08-17 17:14:43
分享文章
本章節主要介紹DataArts Studio的開發一個Hive SQL作業流程。
本章節介紹如何在數據開發模塊上進行Hive SQL開發。
場景說明
數據開發模塊作為一站式大數據開發平臺,支持多種大數據工具的開發。Hive是基于Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供簡單的SQL查詢功能;可以將SQL語句轉換為MapReduce任務進行運行。
環境準備
- 已開通MapReduce服務MRS,并創建MRS集群,為Hive SQL提供運行環境。
- MRS集群創建時,組件要包含Hive。
- 已開通數據集成CDM,并創建CDM集群,為數據開發模塊提供數據開發模塊與MRS通信的代理。
- CDM集群創建時,需要注意:虛擬私有云、子網、安全組與MRS集群保持一致,確保網絡互通。
建立Hive的數據連接
開發Hive SQL前,我們需要在“管理中心 > 數據連接”模塊中建立一個到MRS Hive的連接,數據連接名稱為“hive1009”。
關鍵參數說明:
- 集群名:已創建的MRS集群。
- 綁定Agent:已創建的CDM集群。
開發Hive SQL腳本
在“數據開發 > 腳本開發”模塊中創建一個Hive SQL腳本,腳本名稱為“hive_sql”。在編輯器中輸入SQL語句,通過SQL語句來實現業務需求。
開發腳本


關鍵說明:
- 上圖中的腳本開發區為臨時調試區,關閉腳本頁簽后,開發區的內容將丟失。您可以通過“提交”來保存并提交腳本版本。
- 數據連接:建立Hive的數據連接創建的連接。
開發Hive SQL作業
Hive SQL腳本開發完成后,我們為Hive SQL腳本構建一個周期執行的作業,使得該腳本能定期執行。
- 創建一個數據開發模塊空作業,作業名稱為“job_hive_sql”。
創建job_hive_sql作業


- 然后進入到作業開發頁面,拖動MRS Hive SQL節點到畫布中并單擊,配置節點的屬性。
配置MRS Hive SQL節點屬性


關鍵屬性說明:
- SQL腳本:關聯開發Hive SQL腳本中開發完成的Hive SQL腳本“hive_sql”。
- 數據連接:默認選擇SQL腳本“hive_sql”中設置的數據連接,支持修改。
- 數據庫:默認選擇SQL腳本“hive_sql”中設置的數據庫,支持修改。
- 節點名稱:默認顯示為SQL腳本“hive_sql”的名稱,支持修改。
- 作業編排完成后,單擊

,測試運行作業。 - 如果運行成功,單擊畫布空白處,在右側的“調度配置”頁面,配置作業的調度策略。
配置調度方式


說明2021/01/01至2021/01/25,每天2點執行一次作業。
- 最后我們需要提交版本,執行調度作業,實現作業每天自動運行。