翼MapReduce MRS支持的事件列表
更新時間 2024-05-16 10:54:18
最近更新時間: 2024-05-16 10:54:18
分享文章
翼MapReduce(翼MR)是一種基于云計算平臺的數據處理分析服務,打造了高可靠、高安全、易使用的運行維護平臺,對外提供大容量數據的存儲和分析能力,可解決用戶實時性要求不高的海量數據存儲和處理需求,可以獨立申請和使用托管Hadoop、Spark、HBase和Hive組件。
支持的事件列表如下:
| 事件名稱 | 事件ID | 事件級別 | 事件說明 | 處理建議 | 事件影響 |
|---|---|---|---|---|---|
| DBServer主備倒換 | dbServerSwitchover | 次要 | DBServer主備倒換 | 主備倒換需要和運維人員確認是否為正常操作導致。 | 連續觸發主備倒換可能影響Hive服務正常使用,導致Hive服務不可用。 |
| Flume Channel溢出 | flumeChannelOverflow | 次要 | Flume Channel溢出 | 確認flume的channel配置是否合理,業務量是否有突增。 | Flume任務無法正常寫入數據到后端。 |
| NameNode主備倒換 | namenodeSwitchover | 次要 | NameNode主備倒換 | 主備倒換需要和運維人員確認是否為正常操作導致。 | 連續觸發主備倒換可能影響HDFS服務正常使用,讀寫HDFS文件可能失敗。 |
| ResourceManager主備倒換 | resourceManagerSwitchover | 次要 | ResourceManager主備倒換 | 主備倒換需要和運維人員確認是否為正常操作導致 | 連續觸發主備倒換可能影響Yarn服務正常使用,導致任務出現異常甚至失敗 |
| JobHistoryServer主備倒換 | jobHistoryServerSwitchover | 次要 | JobHistoryServer主備倒換 | 主備倒換需要和運維人員確認是否為正常操作導致 | 連續觸發主備倒換可能影響MapReduce服務正常使用,導致任務日志讀取異常 |
| HMaster主備倒換 | hmasterFailover | 次要 | HMaster主備倒換 | 主備倒換需要和運維人員確認是否為正常操作導致 | 連續觸發主備倒換可能影響HBase服務正常使用 |
| Hue發生主備切換 | hueFailover | 次要 | Hue發生主備切換 | 主備倒換需要和運維人員確認是否為正常操作導致 | 主備倒換可能影響HUE服務正常使用,導致頁面無法使用等問題 |
| Impala HaProxy服務發生主備切換 | impalaHaProxyFailover | 次要 | Impala HaProxy服務發生主備切換 | 主備倒換需要和運維人員確認是否為正常操作導致 | 連續觸發主備倒換可能影響Impala服務正常使用 |
| Impala StateStoreCatalog服務發生主備切換 | impalaStateStoreCatalogFailover | 次要 | Impala StateStoreCatalog服務發生主備切換 | 主備倒換需要和運維人員確認是否為正常操作導致 | 連續觸發主備倒換可能影響Impala服務正常使用 |
| LdapServer主備倒換 | ldapServerFailover | 次要 | LdapServer主備倒換 | 主備倒換需要和運維人員確認是否為正常操作導致 | 連續觸發主備倒換可能影響LdapServer服務正常使用 |
| Loader主備倒換 | loaderSwitchover | 次要 | Loader主備倒換 | 主備倒換需要和運維人員確認是否為正常操作導致 | 主備倒換可能影響Loader服務正常使用 |
| Manager主備倒換 | managerSwitchover | 提示 | Manager主備倒換 | 主備倒換需要和運維人員確認是否為正常操作導致 | Manager主備倒換可能導致Manager頁面無法正常訪問,部分監控可能出現異常數值 |
| 作業執行失敗 | jobRunningFailed | 提示 | 作業執行失敗 | 查看作業管理頁面,確認失敗任務是否有異常 | 作業執行過程出現失敗 |
| 作業被終止 | jobkilled | 提示 | 作業被終止 | 確認任務是否人為下發終止命令 | 作業執行過程被終止 |
| Oozie工作流執行失敗 | oozieWorkflowExecutionFailure | 次要 | Oozie工作流執行失敗 | 查看Oozie日志,確認任務失敗原因 | Oozie工作流執行失敗 |
| Oozie定時任務執行失敗 | oozieScheduledJobExecutionFailure | 次要 | Oozie定時任務執行失敗 | 查看Oozie日志,確認任務失敗原因 | Oozie定時任務執行失敗 |
| ClickHouse服務不可用 | clickHouseServiceUnavailable | 緊急 | ClickHouse服務不可用 | 請參考《MapReduce服務用戶指南》的“ALM-45425 ClickHouse服務不可用”章節。 | ClickHouse服務異常,無法通過FusionInsight Manager對ClickHouse進行集群操作,無法使用ClickHouse服務功能。 |
| DBService服務不可用 | dbServiceServiceUnavailable | 緊急 | DBService服務不可用 | 請參考《MapReduce服務用戶指南》的“ALM-27001 DBService服務不可用”章節。 | 數據庫服務不可用,無法對上層服務提供數據入庫、查詢等功能,使部分服務異常。 |
| DBService主備節點間心跳中斷 | dbServiceHeartbeatInterruption BetweentheActiveAndStandbyNodes |
重要 | DBService主備節點間心跳中斷 | 請參考《MapReduce服務用戶指南》的“ALM-27003 DBService主備節點間心跳中斷”章節。 | DBService主備間心跳中斷時只有一個節點提供服務,一旦該節點故障,再無法切換到備節點,就會服務不可用。 |
| DBService主備數據不同步 | dataInconsistencyBetween ActiveAndStandbyDBServices |
緊急 | DBService主備數據不同步 | 請參考《MapReduce服務用戶指南》的“ALM-27004 DBService主備數據不同步”章節。 | 主備DBServer數據不同步,如果此時主實例異常,則會出現數據丟失或者數據異常的情況。 |
| 數據庫進入只讀模式 | databaseEnterstheReadOnlyMode | 緊急 | 數據庫進入只讀模式 | 請參考《MapReduce服務用戶指南》的“ALM-27007 數據庫進入只讀模式”章節。 | 數據庫進入只讀模式,業務數據丟失。 |
| Flume服務不可用 | flumeServiceUnavailable | 緊急 | Flume服務不可用 | 請參考《MapReduce服務用戶指南》的“ALM-24000 Flume服務不可用”章節。 | 當Flume服務不可用時,Flume不能正常工作,數據傳輸業務中斷。 |
| Flume Agent異常 | flumeAgentException | 重要 | Flume Agent異常 | 請參考《MapReduce服務用戶指南》的“ALM-24001 Flume Agent異常”章節。 | 產生告警的Flume Agent實例無法正常啟動,定義在該實例下的數據傳輸任務暫時中斷,對于實時數據傳輸,會丟失實時數據。 |
| Flume Client連接中斷 | flumeClientDisconnected | 重要 | Flume Client連接中斷 | 請參考《MapReduce服務用戶指南》的“ALM-24003 Flume Client連接中斷”章節。 | 產生告警的Flume Client無法與Flume Server端進行通信,Flume Client端的數據無法傳輸到Flume Server端。 |
| Flume讀取數據異常 | exceptionOccursWhenFlumeReadsData | 重要 | Flume讀取數據異常 | 請參考《MapReduce服務用戶指南》的“ALM-24004 Flume讀取數據異常”章節。 | 如果數據源有數據,Flume Source持續讀取不到數據,數據采集會停止。 |
| Flume傳輸數據異常 | exceptionOccursWhenFlumeTransmitsData | 重要 | Flume傳輸數據異常 | 請參考《MapReduce服務用戶指南》的“ALM-24005 Flume傳輸數據異常”章節。 | Flume Channel的磁盤空間使用量有繼續增長的趨勢,將會使數據導入到指定目的地的時間增長,當Flume Channel的磁盤空間使用量達到100%時會導致Flume Agent進程暫停工作。 |
| Flume 證書文件非法或已損壞 | flumeCertificateFileIsinvalid | 重要 | Flume 證書文件非法或已損壞 | 請參考《MapReduce服務用戶指南》的“ALM-24010 Flume證書文件非法或已損壞”章節。 | Flume證書文件已經非法或損壞,功能受限,Flume客戶端將無法訪問Flume服務端。 |
| Flume 證書文件即將過期 | flumeCertificateFileIsAboutToExpire | 重要 | Flume 證書文件即將過期 | 請參考《MapReduce服務用戶指南》的“ALM-24011 Flume證書文件即將過期”章節。 | Flume證書文件即將失效,對系統目前運行無影響。 |
| Flume 證書文件已過期 | flumeCertificateFileIsExpired | 重要 | Flume 證書文件已過期 | 請參考《MapReduce服務用戶指南》的“ALM-24012 Flume證書文件已過期”章節。 | Flume證書文件已過期,功能受限,Flume客戶端將無法訪問Flume服務端。 |
| Flume MonitorServer證書文件失效 | flumeMonitorServerCertificateFileIsInvalid | 重要 | Flume MonitorServer證書文件失效 | 請參考《MapReduce服務用戶指南》的“ALM-24013 Flume MonitorServer證書文件非法或已損壞”章節。 | MonitorServer證書文件已經非法或損壞,功能受限,Flume客戶端將無法訪問Flume服務端。 |
| Flume MonitorServer證書文件即將過期 | flumeMonitorServerCertificate FileIsAboutToExpire | 重要 | Flume MonitorServer證書文件即將過期 | 請參考《MapReduce服務用戶指南》的“ALM-24014 Flume MonitorServer證書文件即將過期”章節。 | MonitorServer證書文件即將失效,對系統目前運行無影響。 |
| Flume MonitorServer證書文件已過期 | flumeMonitorServerCertificateFileIsExpired | 重要 | Flume MonitorServer證書文件已過期 | 請參考《MapReduce服務用戶指南》的“ALM-24015 Flume MonitorServer證書文件已過期”章節。 | MonitorServer證書文件已過期,功能受限,Flume客戶端將無法訪問Flume服務端。 |
| HDFS服務不可用 | hdfsServiceUnavailable | 緊急 | HDFS服務不可用 | 請參考《MapReduce服務用戶指南》的“ALM-14000 HDFS服務不可用”章節。 | 無法為基于HDFS服務的HBase和MapReduce等上層部件提供服務。用戶無法讀寫文件。 |
| NameService服務異常 | nameServiceServiceUnavailable | 重要 | NameService服務異常 | 請參考《MapReduce服務用戶指南》的“ALM-14010 NameService服務異常”章節。 | 無法為基于該NameService服務的HBase和MapReduce等上層部件提供服務。用戶無法讀寫文件。 |
| DataNode數據目錄配置不合理 | datanodeDataDirectoryIsNotConfiguredProperly | 重要 | DataNode數據目錄配置不合理 | 請參考《MapReduce服務用戶指南》的“ALM-14011 DataNode數據目錄配置不合理”章節。 | 如果將DataNode數據目錄掛載在根目錄等系統關鍵目錄,長時間運行后會將根目錄寫滿,導致系統故障。不合理的DataNode數據目錄配置,會造成HDFS的性能下降。 |
| Journalnode數據不同步 | journalnodeIsOutOfSynchronization | 重要 | Journalnode數據不同步 | 請參考《MapReduce服務用戶指南》的“ALM-14012 Journalnode數據不同步”章節。 | 當一個JournalNode節點工作狀態異常時,其數據就會與其他JournalNode節點的數據不同步。如 果超過一半的JournalNode節點的數據不同步時,NameNode將無法工作,導致HDFS服務不可用。 |
| NameNode FsImage文件更新失敗 | failedToUpdateTheNameNodeFsImageFile | 重要 | NameNode FsImage文件更新失敗 | 請參考《MapReduce服務用戶指南》的“ALM-14013 NameNode FsImage文件更新失敗”章節。 | 如果主NameNode數據目錄的FsImage沒有更新,則說明HDFS元數據合并功能異常,需要修復。 如不修復,HDFS在運行一段時間后,Editlog會一直增長。此時如果重啟HDFS,由于要加載非常多的Editlog,會導致啟動非常耗時。另外,該告警的產生也說明備NameNode功能異常,導致NameNode的HA機制失效。一旦主NameNode故障,則整個HDFS服務將不可用。 |
| DataNode磁盤故障 | datanodeDiskFault | 重要 | DataNode磁盤故障 | 請參考《MapReduce服務用戶指南》的“ALM-14027 DataNode磁盤故障”章節。 | 上報DataNode磁盤故障告警時,表示該DataNode節點上存在故障的磁盤分區,可能會導致已寫入的文件丟失。 |
| Yarn服務不可用 | yarnServiceUnavailable | 緊急 | Yarn服務不可用 | 請參考《MapReduce服務用戶指南》的“ALM-18000 Yarn服務不可用”章節。 | 集群無法提供Yarn服務。用戶無法執行新的application。已提交的application無法執行。 |
| NodeManager心跳丟失 | nodemanagerHeartbeatLost | 重要 | NodeManager心跳丟失 | 請參考《MapReduce服務用戶指南》的“ALM-18002 NodeManager心跳丟失”章節。 | 丟失的NodeManager節點無法提供Yarn服務。容器減少,集群性能下降。 |
| NodeManager不健康 | nodemanagerUnhealthy | 重要 | NodeManager不健康 | 請參考《MapReduce服務用戶指南》的“ALM-18003 NodeManager不健康”章節。 | 故障的NodeManager節點無法提供Yarn服務。容器減少,集群性能下降。 |
| Yarn 任務執行超時 | yarnApplicationTimeout | 次要 | Yarn 任務執行超時 | 請參考《MapReduce服務用戶指南》的“ALM-18020 Yarn任務執行超時”章節。 | 任務執行超時后的運行時間內,該告警一直存在,但任務仍繼續正常執行,沒有任何影響。 |
| Mapreduce服務不可用 | mapreduceServiceUnavailable | 緊急 | Mapreduce服務不可用 | 請參考《MapReduce服務用戶指南》的“ALM-18021 Mapreduce服務不可用”章節。 | 集群無法提供Mapreduce服務,如無法通過Mapreduce查看任務日志,無法提供Mapreduce服務的日志歸檔功能等。 |
| Yarn隊列資源不足 | insufficientYarnQueueResources | 次要 | Yarn隊列資源不足 | 請參考《MapReduce服務用戶指南》的“ALM-18022 Yarn隊列資源不足”章節。 | 應用任務結束時間變長。新應用提交后長時間無法運行。 |
| HBase服務不可用 | hbaseServiceUnavailable | 緊急 | HBase服務不可用 | 請參考《MapReduce服務用戶指南》的“ALM-19000 HBase服務不可用”章節。 | 無法進行數據讀寫和創建表等操作。 |
| HBase系統表目錄或文件丟失 | systemTablePathOrFileOfHBaseIsMissing | 緊急 | HBase系統表目錄或文件丟失 | 請參考《MapReduce服務用戶指南》的“ALM-19012 HBase系統表目錄或文件丟失”章節。 | HBase服務重啟/啟動失敗。 |
| Hive服務不可用 | hiveServiceUnavailable | 緊急 | Hive服務不可用 | 請參考《MapReduce服務用戶指南》的“ALM-16004 Hive服務不可用”章節。 | Hive無法提供數據加載,查詢,提取服務。 |
| Hive數據倉庫被刪除 | hiveDataWarehouseIsDeleted | 緊急 | Hive數據倉庫被刪除 | 請參考《MapReduce服務用戶指南》的“ALM-16045 Hive數據倉庫被刪除”章節。 | Hive默認數據倉庫被刪除,會導致在默認數據倉庫中創建庫、創建表失敗,影響業務正常使用。 |
| Hive數據倉庫權限被修改 | hiveDataWarehousePermissionIsModified | 緊急 | Hive數據倉庫權限被修改 | 請參考《MapReduce服務用戶指南》的“ALM-16046 Hive數據倉庫權限被修改”章節。 | Hive默認數據倉庫的權限被修改,會影響當前用戶,用戶組,其他用戶在默認數據倉庫中創建庫、創建表等操作的操作權限范圍。會擴大或縮小權限。 |
| HiveServer已從Zookeeper注銷 | hiveServerHasBeenDeregisteredFromZookeeper | 重要 | HiveServer已從Zookeeper注銷 | 請參考《MapReduce服務用戶指南》的“ALM-16047 HiveServer已從Zookeeper注銷”章節。 | 當無法在Zookeeper上讀取到Hive的配置,將會導致HiveServer不可用。 |
| tez或者spark庫路徑不存在 | tezlibOrSparklibIsNotExist | 重要 | tez或者spark庫路徑不存在 | 請參考《MapReduce服務用戶指南》的“ALM-16048 Tez或者Spark庫路徑不存在”章節。 | Tez或者Spark庫路徑不存在,會影響Hive on Tez,Hive on Spark的功能。 |
| Hue服務不可用 | hueServiceUnavailable | 緊急 | Hue服務不可用 | 請參考《MapReduce服務用戶指南》的“ALM-20002 Hue服務不可用”章節。 | 系統無法提供數據加載,查詢,提取服務。 |
| Impala服務不可用 | impalaServiceUnavailable | 緊急 | Impala服務不可用 | 請參考《MapReduce服務用戶指南》的“ALM-29000 Impala服務不可用”章節。 | Impala服務異常,無法通過FusionInsight Manager對Impala進行集群操作,無法使用Impala服務功能。 |
| Kafka服務不可用 | kafkaServiceUnavailable | 緊急 | Kafka服務不可用 | 請參考《MapReduce服務用戶指南》的“ALM-38000 Kafka服務不可用”章節。 | 集群無法對外提供Kafka服務,用戶無法執行新的Kafka任務。 |
| Kafka默認用戶狀態異常 | statusOfKafkaDefaultUserIsAbnormal | 緊急 | Kafka默認用戶狀態異常 | 請參考《MapReduce服務用戶指南》的“ALM-38007 Kafka默認用戶狀態異常”章節。 | Kafka默認用戶狀態異常,會影響Broker之間的元數據同步,以及Kafka與ZooKeeper之間的交互,進而影響業務生產、消費和Topic的創建、刪除等操作。 |
| Kafka數據目錄狀態異常 | abnormalKafkaDataDirectoryStatus | 重要 | Kafka數據目錄狀態異常 | 請參考《MapReduce服務用戶指南》的“ALM-38008 Kafka數據目錄狀態異常”章節。 | Kafka數據目錄狀態異常,會導致該數據目錄上所有Partition的當前副本下線,多個節點同時出現數據目錄狀態異常,可能會導致部分Partition不可用。 |
| 存在單副本的Topic | topicsWithSingleReplica | 警告 | 存在單副本的Topic | 請參考《MapReduce服務用戶指南》的“ALM-38010 存在單副本的Topic”章節。 | 單副本的Topic存在單點故障風險,當副本所在節點異常時,會直接導致Partition沒有leader,影響該Topic上的業務。 |
| KrbServer服務不可用 | krbServerServiceUnavailable | 緊急 | KrbServer服務不可用 | 請參考《MapReduce服務用戶指南》的“ALM-25500 KrbServer服務不可用”章節。 | 告警發生時,不能對集群中的組件KrbServer進行任何操作。其它組件的KrbServer認證將受影響。集群中依賴KrbServer的組件運行狀態將為故障。 |
| Kudu服務不可用 | kuduServiceUnavailable | 緊急 | Kudu服務不可用 | 請參考《MapReduce服務用戶指南》的“ALM-29100 Kudu服務不可用”章節。 | 用戶無法使用Kudu服務。 |
| LdapServer服務不可用 | ldapServerServiceUnavailable | 緊急 | LdapServer服務不可用 | 請參考《MapReduce服務用戶指南》的“ALM-25000 LdapServer服務不可用”章節。 | 告警發生時,不能對集群中的KrbServer和LdapServer用戶進行任何操作。 例如,無法在FusionInsight Manager頁面添加、刪除或修改任何用戶、用戶組或角色,也無法修改用戶密碼。集群中原有的用戶驗證不受影響。 |
| LdapServer數據同步異常 | abnormalLdapServerDataSynchronization | 緊急 | LdapServer數據同步異常 | 請參考《MapReduce服務用戶指南》的“ALM-25004 LdapServer數據同步異常”章節。 | LdapServer數據不一致時,有可能是Manager上的LdapServer數據損壞,也有可能是集群上的LdapServer數據損壞,此時數據損壞的LdapServer進程將無法對外提供服務,影響Manager和集群的認證功能。 |
| Nscd服務異常 | nscdServiceIsAbnormal | 重要 | Nscd服務異常 | 請參考《MapReduce服務用戶指南》的“ALM-25005 Nscd服務異常”章節。 | nscd服務異常時,可能會影響該節點從LdapServer上同步數據,此時,使用id命令可能會獲取不到Ldap中的數據,影響上層業務。 |
| Sssd服務異常 | sssdServiceIsAbnormal | 重要 | Sssd服務異常 | 請參考《MapReduce服務用戶指南》的“ALM-25006 Sssd服務異常”章節。 | sssd服務異常時,可能會影響該節點從LdapServer上同步數據,此時,使用id命令可能會獲取不到ldap中的數據,影響上層業務。 |
| Loader服務不可用 | loaderServiceUnavailable | 緊急 | Loader服務不可用 | 請參考《MapReduce服務用戶指南》的“ALM-23001 Loader服務不可用”章節。 | 如果Loader服務不可用,數據加載,導入,轉換的功能也不可用。 |
| Oozie服務不可用 | oozieServiceUnavailable | 緊急 | Oozie服務不可用 | 請參考《MapReduce服務用戶指南》的“ALM-17003 Oozie服務不可用”章節。 | 無法使用Oozie服務提交作業。 |
| Ranger服務不可用 | rangerServiceUnavailable | 緊急 | Ranger服務不可用 | 請參考《MapReduce服務用戶指南》的“ALM-45275 Ranger服務不可用”章節。 | 當Ranger服務不可用時,Ranger無法正常工作,Ranger原生UI無法訪問。 |
| RangerAdmin狀態異常 | abnormalRangerAdminStatus | 重要 | RangerAdmin狀態異常 | 請參考《MapReduce服務用戶指南》的“ALM-45276 RangerAdmin狀態異常”章節。 | 當存在單個RangerAdmin狀態異常時,不影響Ranger原生UI訪問;當兩個RangerAdmin狀態異常時,Ranger原生UI無法訪問,無法執行創建、修改、刪除策略等操作。 |
| Spark2x服務不可用 | spark2xServiceUnavailable | 緊急 | Spark2x服務不可用 | 請參考《MapReduce服務用戶指南》的“ALM-43001 Spark2x服務不可用”章節。 | 用戶提交的Spark任務執行失敗。 |
| Storm服務不可用 | stormServiceUnavailable | 緊急 | Storm服務不可用 | 請參考《MapReduce服務用戶指南》的“ALM-26051 Storm服務不可用”章節。 | 集群無法對外提供Storm服務,用戶無法執行新的Storm任務。 |
| ZooKeeper服務不可用 | zooKeeperServiceUnavailable | 緊急 | ZooKeeper服務不可用 | 請參考《MapReduce服務用戶指南》的“ALM-13000 ZooKeeper服務不可用”章節。 | ZooKeeper無法為上層組件提供協調服務,依賴ZooKeeper的組件可能無法正常運行。 |
| ZooKeeper中組件頂層目錄的配額設置失敗 | failedToSetTheQuotaOfTopDirectoriesOf ZooKeeperComponent |
次要 | ZooKeeper中組件頂層目錄的配額設置失敗 | 請參考《MapReduce服務用戶指南》的“ALM-13005 ZooKeeper中組件頂層目錄的配額設置失敗”章節。 | 組件可以向對應的ZooKeeper頂層目錄中寫入大量數據,導致Zookeeper服務不可用。 |