操作場景
監控數據上報功能可以將系統中采集到的監控數據寫入到文本文件,并以FTP或SFTP的形式上傳到指定的服務器中。
使用該功能前,管理員需要在FusionInsight Manager頁面進行相關配置。
操作步驟
- 登錄FusionInsight Manager。
- 選擇“系統 > 對接 > 監控數據上傳”。
- 單擊“監控數據上傳”右邊的開關。
“監控數據上傳”默認為不啟用,開關顯示為
表示啟用。
- 根據下表所示的說明填寫上傳參數:
上傳配置參數
| 參數名稱 | 參數說明 |
|---|---|
| FTP IP地址模式 | 必選參數,指定服務器IP地址模式,可選擇“IPV4”或“IPV6”。 |
| FTP IP地址 | 必選參數,指定監控指標數據對接后存放監控文件的FTP服務器。 |
| FTP端口 | 必選參數,指定連接FTP服務器的端口。 |
| FTP用戶名 | 必選參數,指定登錄FTP服務器的用戶名。 |
| FTP密碼 | 必選參數,指定登錄FTP服務器的密碼。 |
| 保存路徑 | 必選參數,指定監控文件在FTP服務器保存的路徑。 |
| 轉儲時間間隔(秒) | 必選參數,指定監控文件在FTP服務器保存的周期,單位為秒。 |
| 轉儲模式 | 必選參數,指定監控文件發送時使用的協議。可選協議為“SFTP”和“FTP”。建議使用基于SSH v2的SFTP模式,否則可能存在安全風險。 |
| SFTP服務公鑰 | 可選參數,指定FTP服務器的公共密鑰,“轉儲模式”選擇“SFTP”時此參數生效。 |
- 單擊“確定”,設置完成。
說明選擇轉儲模式為SFTP,當SFTP服務公鑰為空時,先進行安全風險提示,確定安全風險后再保存配置。
數據格式
配置完成后,監控上報功能會將集群中監控數據周期性地寫入到文本文件中,并根據用戶配置的上報周期,將這些文件上報到對應的FTP/SFTP服務中。
- 監控文件產生規則
? 按照指標的采集周期,監控指標會被分別寫入到每30s,60s,以及300s產生的文件
30s周期:默認采集周期為30s的實時指標。
60s周期:默認采集周期為60s的實時指標。
300s周期:非30s、60s采集的所有指標。
? 文件名格式:metirc_{周期}_{文件創建時間YYYYMMDDHHMMSS }.log
例如:metric_60_20160908085915.log
metric_300_20160908085613.log
- 監控文件內容
? 監控寫入文件格式:
“集群ID|集群名稱|顯示名稱|服務名稱|指標ID|采集時間|采集主機@m@子指標|單位|指標值”,其中:各字段間以“|”分隔,例如:
1|xx1|Host|Host|10000413|2019/06/18 10:05:00|189-66-254-146|KB/s|309.910
1|xx1|Host|Host|10000413|2019/06/18 10:05:00|189-66-254-152|KB/s|72.870
2|xx2|Host|Host|10000413|2019/06/18 10:05:00|189-66-254-163|KB/s|100.650
說明實際的文件中不存在對應的文件格式標題。
? 監控文件上傳間隔:
監控文件上傳時間間隔可以在頁面通過“轉儲時間間隔(秒)”配置,目前支持30s-300s之間均可。配置完成后,系統會按照指定的時間間隔,將文件定期上傳到對應的FTP/SFTP服務器。
- 監控指標說明文件
? 指標全集文件
指標全集文件all-shown-metric-zh_CN包括了所有指標的詳細信息。第三方系統從上報的文件內容中解析出指標id后,可以通過查詢指標全集文件獲取指標詳細信息。
指標全集文件位置:
主備OMS節點:{FusionInsight安裝路徑}/om-server/om/etc/om/all-shown-metric-zh_CN
指標全集文件內容參考:
實時指標ID,5分鐘指標ID,指標名稱,指標采集周期(秒),是否默認采集,指標所屬服務,指標所屬角色 ?
00101,10000101,JobHistoryServer非堆內存使用量,30,false,Mapreduce,JobHistoryServer ?
00102,10000102,JobHistoryServer非堆內存分配量,30,false,Mapreduce,JobHistoryServer ?
00103,10000103,JobHistoryServer堆內存使用量,30,false,Mapreduce,JobHistoryServer ?
00104,10000104,JobHistoryServer堆內存分配量,30,false,Mapreduce,JobHistoryServer ?
00105,10000105,阻塞線程數,30,false,Mapreduce,JobHistoryServer ?
00106,10000106,運行線程數,30,false,Mapreduce,JobHistoryServer ?
00107,10000107,GC時間,30,false,Mapreduce,JobHistoryServer ?
00110,10000110,JobHistoryServer的CPU使用率,30,false,Mapreduce,JobHistoryServer ?
...
? 重要指標字段說明
實時指標ID :指標的采集周期為30s/60s的指標ID,一個獨立的指標項只可能存在30s或者60s的實時指標項。
5分鐘指標ID :指標對應的5分鐘(300s)的指標ID。
指標采集周期(秒) :主要是針對實時指標的采集周期,可選值為30或60。
指標所屬服務 :指標所屬的服務名名稱,標明指標所屬的服務類型,如HDFS、HBase等。
指標所屬角色 :指標所屬的角色名名稱,標明指標所屬的實際角色類型,如JobServer、RegionServer等。
? 解析說明
針對采集周期為30s/60s的指標,參考該指標說明文件的是第1列,即實時指標ID即可找到對應的指標說明。
針對采集周期為300s的指標,參考該指標說明文件對應的第2列,即5分鐘指標ID即可找到對應的指標說明。