翼MapReduce MRS支持的事件列表-云监控服务-用户指南-事件监控-事件监控支持的事件说明

翼MapReduce（翼MR）是一種基于云計算平臺的數據處理分析服務，打造了高可靠、高安全、易使用的運行維護平臺，對外提供大容量數據的存儲和分析能力，可解決用戶實時性要求不高的海量數據存儲和處理需求，可以獨立申請和使用托管Hadoop、Spark、HBase和Hive組件。

支持的事件列表如下：

事件名稱	事件ID	事件級別	事件說明	處理建議	事件影響
DBServer主備倒換	dbServerSwitchover	次要	DBServer主備倒換	主備倒換需要和運維人員確認是否為正常操作導致。	連續觸發主備倒換可能影響Hive服務正常使用，導致Hive服務不可用。
Flume Channel溢出	flumeChannelOverflow	次要	Flume Channel溢出	確認flume的channel配置是否合理，業務量是否有突增。	Flume任務無法正常寫入數據到后端。
NameNode主備倒換	namenodeSwitchover	次要	NameNode主備倒換	主備倒換需要和運維人員確認是否為正常操作導致。	連續觸發主備倒換可能影響HDFS服務正常使用，讀寫HDFS文件可能失敗。
ResourceManager主備倒換	resourceManagerSwitchover	次要	ResourceManager主備倒換	主備倒換需要和運維人員確認是否為正常操作導致	連續觸發主備倒換可能影響Yarn服務正常使用，導致任務出現異常甚至失敗
JobHistoryServer主備倒換	jobHistoryServerSwitchover	次要	JobHistoryServer主備倒換	主備倒換需要和運維人員確認是否為正常操作導致	連續觸發主備倒換可能影響MapReduce服務正常使用，導致任務日志讀取異常
HMaster主備倒換	hmasterFailover	次要	HMaster主備倒換	主備倒換需要和運維人員確認是否為正常操作導致	連續觸發主備倒換可能影響HBase服務正常使用
Hue發生主備切換	hueFailover	次要	Hue發生主備切換	主備倒換需要和運維人員確認是否為正常操作導致	主備倒換可能影響HUE服務正常使用，導致頁面無法使用等問題
Impala HaProxy服務發生主備切換	impalaHaProxyFailover	次要	Impala HaProxy服務發生主備切換	主備倒換需要和運維人員確認是否為正常操作導致	連續觸發主備倒換可能影響Impala服務正常使用
Impala StateStoreCatalog服務發生主備切換	impalaStateStoreCatalogFailover	次要	Impala StateStoreCatalog服務發生主備切換	主備倒換需要和運維人員確認是否為正常操作導致	連續觸發主備倒換可能影響Impala服務正常使用
LdapServer主備倒換	ldapServerFailover	次要	LdapServer主備倒換	主備倒換需要和運維人員確認是否為正常操作導致	連續觸發主備倒換可能影響LdapServer服務正常使用
Loader主備倒換	loaderSwitchover	次要	Loader主備倒換	主備倒換需要和運維人員確認是否為正常操作導致	主備倒換可能影響Loader服務正常使用
Manager主備倒換	managerSwitchover	提示	Manager主備倒換	主備倒換需要和運維人員確認是否為正常操作導致	Manager主備倒換可能導致Manager頁面無法正常訪問，部分監控可能出現異常數值
作業執行失敗	jobRunningFailed	提示	作業執行失敗	查看作業管理頁面，確認失敗任務是否有異常	作業執行過程出現失敗
作業被終止	jobkilled	提示	作業被終止	確認任務是否人為下發終止命令	作業執行過程被終止
Oozie工作流執行失敗	oozieWorkflowExecutionFailure	次要	Oozie工作流執行失敗	查看Oozie日志，確認任務失敗原因	Oozie工作流執行失敗
Oozie定時任務執行失敗	oozieScheduledJobExecutionFailure	次要	Oozie定時任務執行失敗	查看Oozie日志，確認任務失敗原因	Oozie定時任務執行失敗
ClickHouse服務不可用	clickHouseServiceUnavailable	緊急	ClickHouse服務不可用	請參考《MapReduce服務用戶指南》的“ALM-45425 ClickHouse服務不可用”章節。	ClickHouse服務異常，無法通過FusionInsight Manager對ClickHouse進行集群操作，無法使用ClickHouse服務功能。
DBService服務不可用	dbServiceServiceUnavailable	緊急	DBService服務不可用	請參考《MapReduce服務用戶指南》的“ALM-27001 DBService服務不可用”章節。	數據庫服務不可用，無法對上層服務提供數據入庫、查詢等功能，使部分服務異常。
DBService主備節點間心跳中斷	dbServiceHeartbeatInterruption BetweentheActiveAndStandbyNodes	重要	DBService主備節點間心跳中斷	請參考《MapReduce服務用戶指南》的“ALM-27003 DBService主備節點間心跳中斷”章節。	DBService主備間心跳中斷時只有一個節點提供服務，一旦該節點故障，再無法切換到備節點，就會服務不可用。
DBService主備數據不同步	dataInconsistencyBetween ActiveAndStandbyDBServices	緊急	DBService主備數據不同步	請參考《MapReduce服務用戶指南》的“ALM-27004 DBService主備數據不同步”章節。	主備DBServer數據不同步，如果此時主實例異常，則會出現數據丟失或者數據異常的情況。
數據庫進入只讀模式	databaseEnterstheReadOnlyMode	緊急	數據庫進入只讀模式	請參考《MapReduce服務用戶指南》的“ALM-27007 數據庫進入只讀模式”章節。	數據庫進入只讀模式，業務數據丟失。
Flume服務不可用	flumeServiceUnavailable	緊急	Flume服務不可用	請參考《MapReduce服務用戶指南》的“ALM-24000 Flume服務不可用”章節。	當Flume服務不可用時，Flume不能正常工作，數據傳輸業務中斷。
Flume Agent異常	flumeAgentException	重要	Flume Agent異常	請參考《MapReduce服務用戶指南》的“ALM-24001 Flume Agent異常”章節。	產生告警的Flume Agent實例無法正常啟動，定義在該實例下的數據傳輸任務暫時中斷，對于實時數據傳輸，會丟失實時數據。
Flume Client連接中斷	flumeClientDisconnected	重要	Flume Client連接中斷	請參考《MapReduce服務用戶指南》的“ALM-24003 Flume Client連接中斷”章節。	產生告警的Flume Client無法與Flume Server端進行通信，Flume Client端的數據無法傳輸到Flume Server端。
Flume讀取數據異常	exceptionOccursWhenFlumeReadsData	重要	Flume讀取數據異常	請參考《MapReduce服務用戶指南》的“ALM-24004 Flume讀取數據異常”章節。	如果數據源有數據，Flume Source持續讀取不到數據，數據采集會停止。
Flume傳輸數據異常	exceptionOccursWhenFlumeTransmitsData	重要	Flume傳輸數據異常	請參考《MapReduce服務用戶指南》的“ALM-24005 Flume傳輸數據異常”章節。	Flume Channel的磁盤空間使用量有繼續增長的趨勢，將會使數據導入到指定目的地的時間增長，當Flume Channel的磁盤空間使用量達到100%時會導致Flume Agent進程暫停工作。
Flume 證書文件非法或已損壞	flumeCertificateFileIsinvalid	重要	Flume 證書文件非法或已損壞	請參考《MapReduce服務用戶指南》的“ALM-24010 Flume證書文件非法或已損壞”章節。	Flume證書文件已經非法或損壞，功能受限，Flume客戶端將無法訪問Flume服務端。
Flume 證書文件即將過期	flumeCertificateFileIsAboutToExpire	重要	Flume 證書文件即將過期	請參考《MapReduce服務用戶指南》的“ALM-24011 Flume證書文件即將過期”章節。	Flume證書文件即將失效，對系統目前運行無影響。
Flume 證書文件已過期	flumeCertificateFileIsExpired	重要	Flume 證書文件已過期	請參考《MapReduce服務用戶指南》的“ALM-24012 Flume證書文件已過期”章節。	Flume證書文件已過期，功能受限，Flume客戶端將無法訪問Flume服務端。
Flume MonitorServer證書文件失效	flumeMonitorServerCertificateFileIsInvalid	重要	Flume MonitorServer證書文件失效	請參考《MapReduce服務用戶指南》的“ALM-24013 Flume MonitorServer證書文件非法或已損壞”章節。	MonitorServer證書文件已經非法或損壞，功能受限，Flume客戶端將無法訪問Flume服務端。
Flume MonitorServer證書文件即將過期	flumeMonitorServerCertificate FileIsAboutToExpire	重要	Flume MonitorServer證書文件即將過期	請參考《MapReduce服務用戶指南》的“ALM-24014 Flume MonitorServer證書文件即將過期”章節。	MonitorServer證書文件即將失效，對系統目前運行無影響。
Flume MonitorServer證書文件已過期	flumeMonitorServerCertificateFileIsExpired	重要	Flume MonitorServer證書文件已過期	請參考《MapReduce服務用戶指南》的“ALM-24015 Flume MonitorServer證書文件已過期”章節。	MonitorServer證書文件已過期，功能受限，Flume客戶端將無法訪問Flume服務端。
HDFS服務不可用	hdfsServiceUnavailable	緊急	HDFS服務不可用	請參考《MapReduce服務用戶指南》的“ALM-14000 HDFS服務不可用”章節。	無法為基于HDFS服務的HBase和MapReduce等上層部件提供服務。用戶無法讀寫文件。
NameService服務異常	nameServiceServiceUnavailable	重要	NameService服務異常	請參考《MapReduce服務用戶指南》的“ALM-14010 NameService服務異常”章節。	無法為基于該NameService服務的HBase和MapReduce等上層部件提供服務。用戶無法讀寫文件。
DataNode數據目錄配置不合理	datanodeDataDirectoryIsNotConfiguredProperly	重要	DataNode數據目錄配置不合理	請參考《MapReduce服務用戶指南》的“ALM-14011 DataNode數據目錄配置不合理”章節。	如果將DataNode數據目錄掛載在根目錄等系統關鍵目錄，長時間運行后會將根目錄寫滿，導致系統故障。不合理的DataNode數據目錄配置，會造成HDFS的性能下降。
Journalnode數據不同步	journalnodeIsOutOfSynchronization	重要	Journalnode數據不同步	請參考《MapReduce服務用戶指南》的“ALM-14012 Journalnode數據不同步”章節。	當一個JournalNode節點工作狀態異常時，其數據就會與其他JournalNode節點的數據不同步。如果超過一半的JournalNode節點的數據不同步時，NameNode將無法工作，導致HDFS服務不可用。
NameNode FsImage文件更新失敗	failedToUpdateTheNameNodeFsImageFile	重要	NameNode FsImage文件更新失敗	請參考《MapReduce服務用戶指南》的“ALM-14013 NameNode FsImage文件更新失敗”章節。	如果主NameNode數據目錄的FsImage沒有更新，則說明HDFS元數據合并功能異常，需要修復。如不修復，HDFS在運行一段時間后，Editlog會一直增長。此時如果重啟HDFS，由于要加載非常多的Editlog，會導致啟動非常耗時。另外，該告警的產生也說明備NameNode功能異常，導致NameNode的HA機制失效。一旦主NameNode故障，則整個HDFS服務將不可用。
DataNode磁盤故障	datanodeDiskFault	重要	DataNode磁盤故障	請參考《MapReduce服務用戶指南》的“ALM-14027 DataNode磁盤故障”章節。	上報DataNode磁盤故障告警時，表示該DataNode節點上存在故障的磁盤分區，可能會導致已寫入的文件丟失。
Yarn服務不可用	yarnServiceUnavailable	緊急	Yarn服務不可用	請參考《MapReduce服務用戶指南》的“ALM-18000 Yarn服務不可用”章節。	集群無法提供Yarn服務。用戶無法執行新的application。已提交的application無法執行。
NodeManager心跳丟失	nodemanagerHeartbeatLost	重要	NodeManager心跳丟失	請參考《MapReduce服務用戶指南》的“ALM-18002 NodeManager心跳丟失”章節。	丟失的NodeManager節點無法提供Yarn服務。容器減少，集群性能下降。
NodeManager不健康	nodemanagerUnhealthy	重要	NodeManager不健康	請參考《MapReduce服務用戶指南》的“ALM-18003 NodeManager不健康”章節。	故障的NodeManager節點無法提供Yarn服務。容器減少，集群性能下降。
Yarn 任務執行超時	yarnApplicationTimeout	次要	Yarn 任務執行超時	請參考《MapReduce服務用戶指南》的“ALM-18020 Yarn任務執行超時”章節。	任務執行超時后的運行時間內，該告警一直存在，但任務仍繼續正常執行，沒有任何影響。
Mapreduce服務不可用	mapreduceServiceUnavailable	緊急	Mapreduce服務不可用	請參考《MapReduce服務用戶指南》的“ALM-18021 Mapreduce服務不可用”章節。	集群無法提供Mapreduce服務，如無法通過Mapreduce查看任務日志，無法提供Mapreduce服務的日志歸檔功能等。
Yarn隊列資源不足	insufficientYarnQueueResources	次要	Yarn隊列資源不足	請參考《MapReduce服務用戶指南》的“ALM-18022 Yarn隊列資源不足”章節。	應用任務結束時間變長。新應用提交后長時間無法運行。
HBase服務不可用	hbaseServiceUnavailable	緊急	HBase服務不可用	請參考《MapReduce服務用戶指南》的“ALM-19000 HBase服務不可用”章節。	無法進行數據讀寫和創建表等操作。
HBase系統表目錄或文件丟失	systemTablePathOrFileOfHBaseIsMissing	緊急	HBase系統表目錄或文件丟失	請參考《MapReduce服務用戶指南》的“ALM-19012 HBase系統表目錄或文件丟失”章節。	HBase服務重啟/啟動失敗。
Hive服務不可用	hiveServiceUnavailable	緊急	Hive服務不可用	請參考《MapReduce服務用戶指南》的“ALM-16004 Hive服務不可用”章節。	Hive無法提供數據加載，查詢，提取服務。
Hive數據倉庫被刪除	hiveDataWarehouseIsDeleted	緊急	Hive數據倉庫被刪除	請參考《MapReduce服務用戶指南》的“ALM-16045 Hive數據倉庫被刪除”章節。	Hive默認數據倉庫被刪除，會導致在默認數據倉庫中創建庫、創建表失敗，影響業務正常使用。
Hive數據倉庫權限被修改	hiveDataWarehousePermissionIsModified	緊急	Hive數據倉庫權限被修改	請參考《MapReduce服務用戶指南》的“ALM-16046 Hive數據倉庫權限被修改”章節。	Hive默認數據倉庫的權限被修改，會影響當前用戶，用戶組，其他用戶在默認數據倉庫中創建庫、創建表等操作的操作權限范圍。會擴大或縮小權限。
HiveServer已從Zookeeper注銷	hiveServerHasBeenDeregisteredFromZookeeper	重要	HiveServer已從Zookeeper注銷	請參考《MapReduce服務用戶指南》的“ALM-16047 HiveServer已從Zookeeper注銷”章節。	當無法在Zookeeper上讀取到Hive的配置，將會導致HiveServer不可用。
tez或者spark庫路徑不存在	tezlibOrSparklibIsNotExist	重要	tez或者spark庫路徑不存在	請參考《MapReduce服務用戶指南》的“ALM-16048 Tez或者Spark庫路徑不存在”章節。	Tez或者Spark庫路徑不存在，會影響Hive on Tez，Hive on Spark的功能。
Hue服務不可用	hueServiceUnavailable	緊急	Hue服務不可用	請參考《MapReduce服務用戶指南》的“ALM-20002 Hue服務不可用”章節。	系統無法提供數據加載，查詢，提取服務。
Impala服務不可用	impalaServiceUnavailable	緊急	Impala服務不可用	請參考《MapReduce服務用戶指南》的“ALM-29000 Impala服務不可用”章節。	Impala服務異常，無法通過FusionInsight Manager對Impala進行集群操作，無法使用Impala服務功能。
Kafka服務不可用	kafkaServiceUnavailable	緊急	Kafka服務不可用	請參考《MapReduce服務用戶指南》的“ALM-38000 Kafka服務不可用”章節。	集群無法對外提供Kafka服務，用戶無法執行新的Kafka任務。
Kafka默認用戶狀態異常	statusOfKafkaDefaultUserIsAbnormal	緊急	Kafka默認用戶狀態異常	請參考《MapReduce服務用戶指南》的“ALM-38007 Kafka默認用戶狀態異常”章節。	Kafka默認用戶狀態異常，會影響Broker之間的元數據同步，以及Kafka與ZooKeeper之間的交互，進而影響業務生產、消費和Topic的創建、刪除等操作。
Kafka數據目錄狀態異常	abnormalKafkaDataDirectoryStatus	重要	Kafka數據目錄狀態異常	請參考《MapReduce服務用戶指南》的“ALM-38008 Kafka數據目錄狀態異常”章節。	Kafka數據目錄狀態異常，會導致該數據目錄上所有Partition的當前副本下線，多個節點同時出現數據目錄狀態異常，可能會導致部分Partition不可用。
存在單副本的Topic	topicsWithSingleReplica	警告	存在單副本的Topic	請參考《MapReduce服務用戶指南》的“ALM-38010 存在單副本的Topic”章節。	單副本的Topic存在單點故障風險，當副本所在節點異常時，會直接導致Partition沒有leader，影響該Topic上的業務。
KrbServer服務不可用	krbServerServiceUnavailable	緊急	KrbServer服務不可用	請參考《MapReduce服務用戶指南》的“ALM-25500 KrbServer服務不可用”章節。	告警發生時，不能對集群中的組件KrbServer進行任何操作。其它組件的KrbServer認證將受影響。集群中依賴KrbServer的組件運行狀態將為故障。
Kudu服務不可用	kuduServiceUnavailable	緊急	Kudu服務不可用	請參考《MapReduce服務用戶指南》的“ALM-29100 Kudu服務不可用”章節。	用戶無法使用Kudu服務。
LdapServer服務不可用	ldapServerServiceUnavailable	緊急	LdapServer服務不可用	請參考《MapReduce服務用戶指南》的“ALM-25000 LdapServer服務不可用”章節。	告警發生時，不能對集群中的KrbServer和LdapServer用戶進行任何操作。例如，無法在FusionInsight Manager頁面添加、刪除或修改任何用戶、用戶組或角色，也無法修改用戶密碼。集群中原有的用戶驗證不受影響。
LdapServer數據同步異常	abnormalLdapServerDataSynchronization	緊急	LdapServer數據同步異常	請參考《MapReduce服務用戶指南》的“ALM-25004 LdapServer數據同步異常”章節。	LdapServer數據不一致時，有可能是Manager上的LdapServer數據損壞，也有可能是集群上的LdapServer數據損壞，此時數據損壞的LdapServer進程將無法對外提供服務，影響Manager和集群的認證功能。
Nscd服務異常	nscdServiceIsAbnormal	重要	Nscd服務異常	請參考《MapReduce服務用戶指南》的“ALM-25005 Nscd服務異常”章節。	nscd服務異常時，可能會影響該節點從LdapServer上同步數據，此時，使用id命令可能會獲取不到Ldap中的數據，影響上層業務。
Sssd服務異常	sssdServiceIsAbnormal	重要	Sssd服務異常	請參考《MapReduce服務用戶指南》的“ALM-25006 Sssd服務異常”章節。	sssd服務異常時，可能會影響該節點從LdapServer上同步數據，此時，使用id命令可能會獲取不到ldap中的數據，影響上層業務。
Loader服務不可用	loaderServiceUnavailable	緊急	Loader服務不可用	請參考《MapReduce服務用戶指南》的“ALM-23001 Loader服務不可用”章節。	如果Loader服務不可用，數據加載，導入，轉換的功能也不可用。
Oozie服務不可用	oozieServiceUnavailable	緊急	Oozie服務不可用	請參考《MapReduce服務用戶指南》的“ALM-17003 Oozie服務不可用”章節。	無法使用Oozie服務提交作業。
Ranger服務不可用	rangerServiceUnavailable	緊急	Ranger服務不可用	請參考《MapReduce服務用戶指南》的“ALM-45275 Ranger服務不可用”章節。	當Ranger服務不可用時，Ranger無法正常工作，Ranger原生UI無法訪問。
RangerAdmin狀態異常	abnormalRangerAdminStatus	重要	RangerAdmin狀態異常	請參考《MapReduce服務用戶指南》的“ALM-45276 RangerAdmin狀態異常”章節。	當存在單個RangerAdmin狀態異常時，不影響Ranger原生UI訪問；當兩個RangerAdmin狀態異常時，Ranger原生UI無法訪問，無法執行創建、修改、刪除策略等操作。
Spark2x服務不可用	spark2xServiceUnavailable	緊急	Spark2x服務不可用	請參考《MapReduce服務用戶指南》的“ALM-43001 Spark2x服務不可用”章節。	用戶提交的Spark任務執行失敗。
Storm服務不可用	stormServiceUnavailable	緊急	Storm服務不可用	請參考《MapReduce服務用戶指南》的“ALM-26051 Storm服務不可用”章節。	集群無法對外提供Storm服務，用戶無法執行新的Storm任務。
ZooKeeper服務不可用	zooKeeperServiceUnavailable	緊急	ZooKeeper服務不可用	請參考《MapReduce服務用戶指南》的“ALM-13000 ZooKeeper服務不可用”章節。	ZooKeeper無法為上層組件提供協調服務，依賴ZooKeeper的組件可能無法正常運行。
ZooKeeper中組件頂層目錄的配額設置失敗	failedToSetTheQuotaOfTopDirectoriesOf ZooKeeperComponent	次要	ZooKeeper中組件頂層目錄的配額設置失敗	請參考《MapReduce服務用戶指南》的“ALM-13005 ZooKeeper中組件頂層目錄的配額設置失敗”章節。	組件可以向對應的ZooKeeper頂層目錄中寫入大量數據，導致Zookeeper服務不可用。

亚欧色一区w666天堂,色情一区二区三区免费看,少妇特黄A片一区二区三区,亚洲人成网站999久久久综合,国产av熟女一区二区三区

智算服務

應用商城

定價

合作伙伴

開發者

支持與服務

了解天翼云

云監控服務

云監控服務

亚欧色一区w666天堂,色情一区二区三区免费看,少妇特黄A片一区二区三区,亚洲人成网站999久久久综合,国产av熟女一区二区三区

活動

智算服務

應用商城

定價

合作伙伴

開發者

支持與服務

了解天翼云

云監控服務

云監控服務