高危操作一覽表
更新時間 2023-06-09 14:41:37
最近更新時間: 2023-06-09 14:41:37
分享文章
本章節主要介紹翼MapReduce服務KrbServer健康檢查指標項說明。
禁用操作
下表中描述了在集群操作與維護階段,觀察進行日常操作時應注意的禁用操作。
禁用操作
| 類別 | 操作風險 |
|---|---|
| 嚴禁刪除ZooKeeper相關數據目錄 | ClickHouse/HDFS/Yarn/HBase/Hive等很多組件都依賴于ZooKeeper,在ZooKeeper中保存元數據信息。刪除ZooKeeper中相關數據目錄將會影響相關組件的正常運行。 |
| 嚴禁JDBCServer主備節點頻繁倒換 | 頻繁主備倒換將導致業務中斷。 |
| 嚴禁刪除Phoenix系統表或系統表數據(SYSTEM.CATALOG、SYSTEM.STATS、SYSTEM.SEQUENCE、SYSTEM. FUNCTION) | 刪除系統表將導致無法正常進行業務操作。 |
| 嚴禁手動修改Hive元數據庫的數據(hivemeta數據庫) | 修改Hive元數據可能會導致Hive數據解析錯誤,Hive無法正常提供服務。 |
| 禁止對Hive的元數據表手動進行insert和update操作 | 修改Hive元數據可能會導致Hive數據解析錯誤,Hive無法正常提供服務。 |
| 嚴禁修改Hive私有文件目錄hdfs:///tmp/hive-scratch的權限 | 修改該目錄權限可能會導致Hive服務不可用。 |
| 嚴禁修改Kafka配置文件中broker.id | 修改Kafka配置文件中broker.id將會導致該節點數據失效。 |
| 嚴禁修改節點主機名 | 主機名修改后會導致該主機上相關實例和上層組件無法正常提供服務,且無法修復。 |
| 禁止重裝節點OS | 該操作會導致MRS集群進入異常狀態,影響MRS集群使用。 |
| 禁止使用私有鏡像 | 該操作會導致MRS集群進入異常狀態,影響MRS集群使用。 |
以下各表分別描述了各組件在操作與維護階段,進行日常操作時應注意的高危操作。
集群高危操作
| 操作名稱 | 操作風險 | 風險等級 | 規避措施 | 重大操作觀察項目 |
|---|---|---|---|---|
| 隨意修改omm用戶下的文件目錄或者文件權限 | 該操作會導致MRS集群服務不可用 | ★★★★★ | 請勿執行該操作 | 觀察MRS集群服務是否可用 |
| 綁定彈性公網IP | 該操作會將集群的manager所在的master節點暴露在公網,會增大來自互聯網的網絡攻擊風險可能性 | ★★★★★ | 請確認綁定的彈性公網IP為可信任的公網訪問IP | 無 |
| 開放集群22端口安全組規則 | 該操作會增大用戶利用22進行漏洞攻擊的風險 | ★★★★★ | 針對開放的22端口進行設置安全組規則,只允許可信的IP可以訪問該端口,入方向規則不推薦設置允許0.0.0.0可以訪問。 | 無 |
| 刪除集群或刪除集群數據 | 該操作會導致數據丟失 | ★★★★★ | 刪除前請務必再次確認該操作的必要性,同時要保證數據已完成備份 | 無 |
| 縮容集群 | 該操作會導致數據丟失 | ★★★★★ | 縮容前請務必再次確認該操作的必要性,同時要保證數據已完成備份 | 無 |
| 卸載磁盤或格式化數據盤 | 該操作會導致數據丟失 | ★★★★★ | 操作前請請務必再次確認該操作的必要性,同時要保證數據已完成備份 | 無 |
Manager高危操作
| 操作名稱 | 操作風險 | 風險等級 | 規避措施 | 重大操作觀察項目 |
|---|---|---|---|---|
| 修改OMS密碼 | 該操作會重啟OMS各進程,影響集群的管理維護 | ★★★ | 修改前確認操作的必要性,修改時確保同一時間無其它管理維護操作 | 觀察是否有未恢復的告警產生,觀察集群的管理維護是否正常 |
| 導入證書 | 該操作會重啟OMS進程和整個集群,影響集群的管理維護和業務 | ★★★ | 修改前確認操作的必要性,修改時確保同一時間無其它管理維護操作 | 觀察是否有未恢復的告警產生,觀察集群的管理維護是否正常,業務是否正常 |
| 升級 | 該操作會重啟Manager和整個集群,影響集群的管理維護和業務 分配集群管理權限的用戶,需要嚴格管控,以防范可能的安全風險 | ★★★ | 修改時確保同一時間無其它管理維護操作 | 觀察是否有未恢復的告警產生,觀察集群的管理維護是否正常,業務是否正常 |
| 恢復OMS | 該操作會重啟Manager和整個集群,影響集群的管理維護和業務 | ★★★ | 修改前確認操作的必要性,修改時確保同一時間無其它管理維護操作 | 觀察是否有未恢復的告警產生,觀察集群的管理維護是否正常,業務是否正常 |
| 修改IP | 該操作會重啟Manager和整個集群,影響集群的管理維護和業務 | ★★★ | 修改時確保同一時間無其它管理維護操作,且修改的IP填寫正確無誤 | 觀察是否有未恢復的告警產生,觀察集群的管理維護是否正常,業務是否正常 |
| 修改日志級別 | 如果修改為DEBUG,會導致Manager運行速度明顯降低 | ★★ | 修改前確認操作的必要性,并及時修改回默認設定 | 無 |
| 更換控制節點 | 該操作會導致部署在該節點上的服務中斷,且當該節點同時為管理節點時,更換節點會導致重啟OMS各進程,影響集群的管理維護 | ★★★ | 更換前確認操作的必要性,更換時確保同一時間無其它管理維護操作 | 觀察是否有未恢復的告警產生,觀察集群的管理維護是否正常,業務是否正常 |
| 更換管理節點 | 該操作會導致部署在該節點上的服務中斷,會導致重啟OMS各進程,影響集群的管理維護 | ★★★★ | 更換前確認操作的必要性,更換時確保同一時間無其它管理維護操作 | 觀察是否有未恢復的告警產生,觀察集群的管理維護是否正常,業務是否正常 |
| 重啟下層服務時,如果勾選同時重啟上層服務 | 該操作會導致上層服務業務中斷,影響集群的管理維護和業務 | ★★★★ | 操作前確認操作的必要性,操作時確保同一時間無其它管理維護操作 | 觀察是否有未恢復的告警產生,觀察集群的管理維護是否正常,業務是否正常 |
| 修改OLDAP端口 | 修改該參數時,會重啟LdapServer和Kerberos服務和其關聯的所有服務,會影響業務運行 | ★★★★★ | 操作前確認操作的必要性,操作時確保同一時間無其它管理維護操作 | 無 |
| 用戶刪除supergroup組 | 刪除supergroup組導致相關用戶權限變小,影響業務訪問 | ★★★★★ | 修改前確認需要添加的權限,確保用戶綁定的supergroup權限刪除前,相關權限已經添加,不會對業務造成影響 | 無 |
| 重啟服務 | 重啟過程中會中斷服務,如果勾選同時重啟上層服務會導致依賴該服務的上層服務中斷 | ★★★ | 操作前確認重啟的必要性 | 觀察是否有未恢復的告警產生,觀察集群的管理維護是否正常,業務是否正常 |
| 修改節點SSH默認端口 | 修改默認端口(22)將導致創建集群、添加服務/實例、添加主機、重裝主機等功能無法正常使用,并且會導致集群健康檢查結果中節點互信、omm/ommdba用戶密碼過期等檢查項不準確 | ★★★ | 執行相關操作前將SSH端口改回默認值 | 無 |
ClickHouse高危操作
| 操作名稱 | 操作風險 | 風險等級 | 規避措施 | 重大操作觀察項目 |
|---|---|---|---|---|
| 刪除數據目錄 | 該操作將會導致業務信息丟失 | ★★★ | 請勿手動刪除數據目錄 | 觀察數據目錄是否正常 |
| 縮容ClickHouseServer實例 | 該操作需要關注同分片中的ClickHouseServer實例節點需要同時退服縮容,否則會造成邏輯集群拓撲信息錯亂;該操作執行前需檢查邏輯集群內各節點的數據庫和數據表信息,進行縮容預分析,保證縮容退服過程中數據遷移成功,避免數據丟失 | ★★★★★ | 進行縮容操作前,提前收集信息進行ClickHouse邏輯集群及實例節點狀態判斷 | 觀察ClickHouse邏輯集群拓撲信息,各ClickHouseServer中數據庫和數據表信息,以及數據量 |
| 擴容ClickHouseServer實例 | 該操作需要關注新擴容節點是否需要創建老節點上同名的數據庫或數據表,否則會造成后續數據遷移、數據均衡以及縮容退服失敗 | ★★★★★ | 進行擴容操作前,確認新擴容ClickHouseServer實例作用和目的,是否需要同步創建相關數據庫和數據表 | 觀察ClickHouse邏輯集群拓撲信息,各ClickHouseServer中數據庫和數據表信息,以及數據量 |
| 退服ClickHouseServer實例 | 該操作需要關注同分片中的ClickHouseServer實例節點需要同時退服,否則會造成邏輯集群拓撲信息錯亂;該操作執行前需檢查邏輯集群內各節點的數據庫和數據表信息,進行預分析,保證退服過程中數據遷移成功,避免數據丟失 | ★★★★★ | 進行退服操作前,提前收集信息進行Clickhouse邏輯集群及實例節點狀態判斷 | 觀察ClickHouse邏輯集群拓撲信息,各ClickHouseServer中數據庫和數據表信息,以及數據量 |
| 入服ClickHouseServer實例 | 該操作需要關注入服時必須選擇原有分片中的所有節點入服,否則會造成邏輯集群拓撲信息錯亂 | ★★★★★ | 進行入服操作前,對于待入服節點的分片歸屬信息需要確認 | 觀察ClickHouse邏輯集群拓撲信息 |
| 修改數據目錄下內容(創建文件、文件夾) | 該操作將會導致該節點上的ClickHouse的實例故障 | ★★★ | 請勿手動在數據目錄下創建或修改文件及文件夾 | 觀察數據目錄是否正常 |
| 單獨啟停基礎組件 | 該操作將會影響服務的一些基礎功能導致業務失敗 | ★★★ | 請勿單獨啟停ZooKeeper/Kerberos/LDAP等基礎組件,啟停基礎組件請勾選關聯服務 | 觀察服務狀態是否正常 |
| 重啟/停止服務 | 該操作將會導致業務中斷 | ★★ | 確保在必要時重啟/停止服務 | 觀察服務是否運行正常 |
DBService高危操作
| 操作名稱 | 操作風險 | 風險等級 | 規避措施 | 重大操作觀察項目 |
|---|---|---|---|---|
| 修改DBService密碼 | 修改密碼需要重啟服務,服務在重啟過程中無法訪問。 | ★★★★ | 修改前確認操作的必要性,修改時確保同一時間無其它管理維護操作。 | 觀察是否有未恢復的告警產生,觀察集群的管理維護是否正常 |
| 恢復DBService數據 | 數據恢復后,會丟失從備份時刻到恢復時刻之間的數據。 數據恢復后,依賴DBService的組件可能配置過期,需要重啟配置過期的服務。 | ★★★★ | 恢復前確認操作的必要性,恢復時確保同一時間無其它管理維護操作。 | 觀察是否有未恢復的告警產生,觀察集群的管理維護是否正常 |
| DBService主備倒換 | 倒換DBServer過程中,DBService無法提供服務。 | ★★ | 操作前確認該操作的必要性,操作時確保同一時間無其它管理維護操作。 | 無 |
| 修改DBService浮動IP配置 | 需要重啟DBService服務使配置生效,服務在重啟無法訪問。 如果浮動IP已被使用過,將會導致配置失敗,DBService啟動失敗。 | ★★★★ | 修改相關配置項時請嚴格按照提示描述,確保修改后的值有效。 | 觀察服務能否正常啟動 |
Flink高危操作
| 操作名稱 | 操作風險 | 風險等級 | 規避措施 | 重大操作觀察項目 |
|---|---|---|---|---|
| 修改日志級別 | 如果修改為DEBUG,會影響任務運行性能 | ★★ | 修改前確認操作的必要性,并及時修改回默認設定 | 無 |
| 修改文件權限 | 該操作可能導致任務運行失敗 | ★★★ | 修改前確認操作的必要性 | 觀察相關業務操作是否正常 |
Flume高危操作
| 操作名稱 | 操作風險 | 風險等級 | 規避措施 | 重大操作觀察項目 |
|---|---|---|---|---|
| 修改Flume實例的啟動參數GC_OPTS | 導致服務啟動異常 | ★★ | 修改相關配置項時請嚴格按照提示描述,確保修改后的值有效 | 觀察服務能否正常啟動 |
| 修改HDFS的副本數目dfs.replication,將默認值由3改為1 | 導致: 1. 存儲可靠性下降,磁盤故障時,會發生數據丟失 2. NameNode重啟失敗,HDFS服務不可用 | ★★★★ | 修改相關配置項時,請仔細查看參數說明。保證數據存儲的副本數不低于2 | 觀察默認的副本值是否不為1,HDFS服務是否可以正常提供服務 |
HBase高危操作
| 操作名稱 | 操作風險 | 風險等級 | 規避措施 | 重大操作觀察項目 |
|---|---|---|---|---|
| 修改加密的相關配置項 l hbase.regionserver.wal.encryption l hbase.crypto.keyprovider.parameters.uri l hbase.crypto.keyprovider.parameters.encryptedtext | 導致服務啟動異常 | ★★★★ | 修改相關配置項時請嚴格按照提示描述,加密相關配置項是有關聯的,確保修改后的值有效 | 觀察服務能否正常啟動 |
| 已使用加密的情況下關閉或者切換加密算法,關閉主要指修改hbase.regionserver.wal.encryption為false,切換主要指AES和SMS4的切換 | 導致服務啟動失敗,數據丟失 | ★★★★ | 加密HFile和WAL內容的時候,如果已經使用一種加密算法加密并且已經建表,請不要隨意關閉或者切換加密算法。 未建加密表(ENCRYPTION=>AES/SMS4)的情況下可以切換,否則禁止操作 | 無 |
| 修改HBase實例的啟動參數GC_OPTS、HBASE_HEAPSIZE | 導致服務啟動異常 | ★★ | 修改相關配置項時請嚴格按照提示描述,確保修改后的值有效,且GC_OPTS與HBASE_HEAPSIZE參數值無沖突 | 觀察服務能否正常啟動 |
| 使用OfflineMetaRepair工具 | 導致服務啟動異常 | ★★★★ | 必須在HBase下線的情況下才可以使用該命令,而且不能在數據遷移的場景中使用該命令 | 觀察HBase服務是否可以正常啟動。 |
HDFS高危操作
| 操作名稱 | 操作風險 | 風險等級 | 規避措施 | 重大操作觀察項目 |
|---|---|---|---|---|
| 修改HDFS的NameNode的數據存儲目錄dfs.namenode.name.dir、DataNode的數據配置目錄dfs.datanode.data.dir | 導致服務啟動異常 | ★★★★★ | 修改相關配置項時請嚴格按照提示描述,確保修改后的值有效 | 觀察服務能否正常啟動 |
| 執行hadoop distcp命令時,使用**-delete**參數 | Distcp拷貝時,源集群沒有而目的集群存在的文件,會在目的集群刪除 | ★★ | 在使用Distcp的時候,確保是否保留目的集群多余的文件,謹慎使用**-delete**參數 | Distcp數據拷貝后,查看目的的數據是否按照參數配置保留或刪除 |
| 修改HDFS實例的啟動參數GC_OPTS、HADOOP_HEAPSIZE和GC_PROFILE | 導致服務啟動異常 | ★★ | 修改相關配置項時請嚴格按照提示描述,確保修改后的值有效,且GC_OPTS與HADOOP_HEAPSIZE參數值無沖突 | 觀察服務能否正常啟動 |
| 修改HDFS的副本數目dfs.replication,將默認值由3改為1 | 導致: 1. 存儲可靠性下降,磁盤故障時,會發生數據丟失 2. NameNode重啟失敗,HDFS服務不可用 | ★★★★ | 修改相關配置項時,請仔細查看參數說明。保證數據存儲的副本數不低于2 | 觀察默認的副本值是否不為1,HDFS服務是否可以正常提供服務 |
| 修改Hadoop中各模塊的RPC通道的加密方式hadoop.rpc.protection | 導致服務故障及業務異常 | ★★★★★ | 修改相關配置項時請嚴格按照提示描述,確保修改后的值有效 | 觀察HDFS及其他依賴HDFS的服務能否正常啟動,并提供服務 |
Hive高危操作
| 操作名稱 | 操作風險 | 風險等級 | 規避措施 | 重大操作觀察項目 |
|---|---|---|---|---|
| 修改Hive實例的啟動參數GC_OPTS | 修改該參數可能會導致Hive實例無法啟動 | ★★ | 修改相關配置項時請嚴格按照提示描述,確保修改后的值有效 | 觀察服務能否正常啟動 |
| 刪除MetaStore所有實例 | Hive元數據丟失,Hive無法提供服務 | ★★★ | 除非確定丟棄Hive所有表信息,否則不要執行該操作 | 觀察服務能否正常啟動 |
| 使用HDFS文件系統接口或者HBase接口刪除或修改Hive表對應的文件 | 該操作會導致Hive業務數據丟失或被篡改 | ★★ | 除非確定丟棄這些數據,或者確保該修改操作符合業務需求,否則不要執行該操作 | 觀察Hive數據是否完整 |
| 使用HDFS文件系統接口或者HBase接口修改Hive表對應的文件或目錄訪問權限 | 該操作可能會導致相關業務場景不可用 | ★★★ | 請勿執行該操作 | 觀察相關業務操作是否正常 |
| 使用HDFS文件系統接口刪除或修改文件hdfs:///apps/templeton/hive-3.1.0.tar.gz | 該操作可能會導致WebHCat無法正常執行業務 | ★★ | 請勿執行該操作 | 觀察相關業務操作是否正常 |
| 導出表數據覆蓋寫入本地目錄,例如將t1表中數據導出,覆蓋到“/opt/dir”路徑下: insert overwrite local directory '/opt/dir' select * from t1; | 該操作會刪除目標目錄,如果設置錯誤,會導致軟件或者操作系統無法啟動 | ★★★★★ | 確認需要寫入的路徑下不要包含任何文件;或者不要使用overwrite關鍵字 | 觀察目標路徑是否有文件丟失 |
| 將不同的數據庫、表或分區文件指定至相同路徑,例如默認倉庫路徑“/user/hive/warehouse”。 | 執行創建操作后數據可能會紊亂,如果刪除其中一個數據庫、表或分區,會導致其他對象數據丟失 | ★★★★★ | 請勿執行該操作 | 觀察目標路徑是否有文件丟失 |
Kafka高危操作
| 操作名稱 | 操作風險 | 風險等級 | 規避措施 | 重大操作觀察項目 |
|---|---|---|---|---|
| 刪除Topic | 該操作將會刪除已有的主題和數據 | ★★★ | 采用Kerberos認證,保證合法用戶具有操作權限,并確保主題名稱正確 | 觀察主題是否正常處理 |
| 刪除數據目錄 | 該操作將會導致業務信息丟失 | ★★★ | 請勿手動刪除數據目錄 | 觀察數據目錄是否正常 |
| 修改數據目錄下內容(創建文件、文件夾) | 該操作將會導致該節點上的Broker實例故障 | ★★★ | 請勿手動在數據目錄下創建或修改文件及文件夾 | 觀察數據目錄是否正常 |
| 修改磁盤自適應功能“disk.adapter.enable”參數 | 該操作會在磁盤使用空間達到閾值時調整Topic數據保存周期,超出保存周期的歷史數據可能被清除 | ★★★ | 若個別Topic不能做保存周期調整,將該Topic配置在“disk.adapter.topic.blacklist”參數中 | 在KafkaTopic監控頁面觀察數據的存儲周期 |
| 修改數據目錄“log.dirs”配置 | 該配置不正確將會導致進程故障 | ★★★ | 確保所修改或者添加的數據目錄為空目錄,且權限正確 | 觀察數據目錄是否正常 |
| 減容Kafka集群 | 該操作將會導致部分Topic數據副本數量減少,可能會導致Topic無法訪問 | ★★ | 請先做好數據副本轉移工作,然后再進行減容操作 | 觀察分區所在備份節點是否都存活,確保數據安全 |
| 單獨啟停基礎組件 | 該操作將會影響服務的一些基礎功能導致業務失敗 | ★★★ | 請勿單獨啟停ZooKeeper/Kerberos/LDAP等基礎組件,啟停基礎組件請勾選關聯服務 | 觀察服務狀態是否正常 |
| 重啟/停止服務 | 該操作將會導致業務中斷 | ★★ | 確保在必要時重啟/停止服務 | 觀察服務是否運行正常 |
| 修改配置參數 | 該操作將需要重啟服務使得配置生效 | ★★ | 確保在必要時修改配置 | 觀察服務是否運行正常 |
| 刪除/修改元數據 | 修改或者刪除ZooKeeper上Kafka的元數據可能導致Topic或者Kafka服務不可用 | ★★★ | 請勿刪除或者修改Kafka在ZooKeeper上保存的元數據信息 | 觀察Topic或者Kafka服務是否可用 |
| 修改元數據備份文件 | 修改Kafka元數據備份文件,并被使用進行Kafka元數據恢復成功后,可能導致Topic或者Kafka服務不可用 | ★★★ | 請勿修改Kafka元數據備份文件 | 觀察Topic或者Kafka服務是否可用 |
KrbServer高危操作
| 操作名稱 | 操作風險 | 風險等級 | 規避措施 | 重大操作觀察項目 |
|---|---|---|---|---|
| 修改KrbServer的參數KADMIN_PORT | 修改該參數后,若沒有及時重啟KrbServer服務和其關聯的所有服務,會導致集群內部KrbClient的配置參數異常,影響業務運行 | ★★★★★ | 修改該參數后,請重啟KrbServer服務和其關聯的所有服務 | 無 |
| 修改KrbServer的參數kdc_ports | 修改該參數后,若沒有及時重啟KrbServer服務和其關聯的所有服務,會導致集群內部KrbClient的配置參數異常,影響業務運行 | ★★★★★ | 修改該參數后,請重啟KrbServer服務和其關聯的所有服務 | 無 |
| 修改KrbServer的參數KPASSWD_PORT | 修改該參數后,若沒有及時重啟KrbServer服務和其關聯的所有服務,會導致集群內部KrbClient的配置參數異常,影響業務運行 | ★★★★★ | 修改該參數后,請重啟KrbServer服務和其關聯的所有服務 | 無 |
| 修改Manager系統域名 | 若沒有及時重啟KrbServer服務和其關聯的所有服務,會導致集群內部KrbClient的配置參數異常,影響業務運行 | ★★★★★ | 修改該參數后,請重啟KrbServer服務和其關聯的所有服務 | 無 |
| 配置跨集群互信 | 該操作會重啟KrbServer服務和其關聯的所有服務,影響集群的管理維護和業務 | ★★★★★ | 更換前確認操作的必要性,更換時確保同一時間無其它管理維護操作 | 觀察是否有未恢復的告警產生,觀察集群的管理維護是否正常,業務是否正常 |
LdapServer高危操作
| 操作名稱 | 操作風險 | 風險等級 | 規避措施 | 重大操作觀察項目 |
|---|---|---|---|---|
| 修改LdapServer的參數LDAP_SERVER_PORT | 修改該參數后,若沒有及時重啟LdapServer服務和其關聯的所有服務,會導致集群內部LdapClient的配置參數異常,影響業務運行 | ★★★★★ | 修改該參數后,請重啟LdapServer服務和其關聯的所有服務 | 無 |
| 恢復LdapServer數據 | 該操作會重啟Manager和整個集群,影響集群的管理維護和業務 | ★★★★★ | 修改前確認操作的必要性,修改時確保同一時間無其它管理維護操作 | 觀察是否有未恢復的告警產生,觀察集群的管理維護是否正常,業務是否正常 |
| 更換LdapServer所在節點 | 該操作會導致部署在該節點上的服務中斷,且當該節點為管理節點時,更換節點會導致重啟OMS各進程,影響集群的管理維護 | ★★★ | 更換前確認操作的必要性,更換時確保同一時間無其它管理維護操作 | 觀察是否有未恢復的告警產生,觀察集群的管理維護是否正常,業務是否正常 |
| 修改LdapServer密碼 | 修改密碼需要重啟LdapServer和Kerberos服務,影響集群的管理維護和業務 | ★★★★ | 修改前確認操作的必要性,修改時確保同一時間無其它管理維護操作 | 無 |
| 節點重啟導致LdapServer數據損壞 | 如果未停止LdapServer服務,直接重啟LdapServer所在節點,可能導致LdapServer數據損壞 | ★★★★★ | 使用LdapServer備份數據進行恢復 | 無 |
Loader高危操作
| 操作名稱 | 操作風險 | 風險等級 | 規避措施 | 重大操作觀察項目 |
|---|---|---|---|---|
| 修改Loader實例的浮動IP地址loader.float.ip | 導致服務啟動異常 | ★★ | 修改相關配置項時請嚴格按照提示描述,確保修改后的值有效 | 觀察Loader UI是否可以正常連接 |
| 修改Loader實例的啟動參數LOADER_GC_OPTS | 導致服務啟動異常 | ★★ | 修改相關配置項時請嚴格按照提示描述,確保修改后的值有效 | 觀察服務能否正常啟動 |
| 往HBase導入數據時,選擇清空表數據 | 目標表的原數據被清空 | ★★ | 選擇時,確保目標表的數據可以清空 | 選擇前,需確認目標表數據是否可以清空 |
Spark2x高危操作
說明
MRS 3.x之前版本,服務名稱為Spark。
| 操作名稱 | 操作風險 | 風險等級 | 規避措施 | 重大操作觀察項目 |
|---|---|---|---|---|
| 配置項的修改(spark.yarn.queue) | 導致服務啟動異常 | ★★ | 修改相關配置項時請嚴格按照提示描述,確保修改后的值有效 | 觀察服務能否正常啟動 |
| 配置項的修改(spark.driver.extraJavaOptions) | 導致服務啟動異常 | ★★ | 修改相關配置項時請嚴格按照提示描述,確保修改后的值有效 | 觀察服務能否正常啟動 |
| 配置項的修改(spark.yarn.cluster.driver.extraJavaOptions) | 導致服務啟動異常 | ★★ | 修改相關配置項時請嚴格按照提示描述,確保修改后的值有效 | 觀察服務能否正常啟動 |
| 配置項的修改(spark.eventLog.dir) | 導致服務啟動異常 | ★★ | 修改相關配置項時請嚴格按照提示描述,確保修改后的值有效 | 觀察服務能否正常啟動 |
| 配置項的修改(SPARK_DAEMON_JAVA_OPTS) | 導致服務啟動異常 | ★★ | 修改相關配置項時請嚴格按照提示描述,確保修改后的值有效 | 觀察服務能否正常啟動 |
| 刪除所有JobHistory2x實例 | 導致歷史應用的event log丟失 | ★★ | 至少保留一個JobHistory2x實例 | 觀察JobHistory2x中是否可以查看歷史應用信息 |
| 刪除或修改HDFS上的/user/spark2x/jars/8.1.0.1/spark-archive-2x.zip | 導致JDBCServer2x啟動異常及業務功能異常 | ★★★ | 刪除/user/spark2x/jars/8.1.0.1/spark-archive-2x.zip,等待10-15分鐘,zip包自動恢復 | 觀察服務能否正常啟動 |
Storm高危操作
| 操作名稱 | 操作風險 | 風險等級 | 規避措施 | 重大操作觀察項目 |
|---|---|---|---|---|
| 修改插件相關的配置項: l storm.scheduler l nimbus.authorizer l storm.thrift.transport l nimbus.blobstore.class l nimbus.topology.validator l storm.principal.tolocal | 導致服務啟動異常 | ★★★★ | 修改相關配置項時請嚴格按照提示描述,確保修改后的類名是存在并有效的 | 觀察服務能否正常啟動 |
| 修改Storm實例的啟動參數GC_OPTS NIMBUS_GC_OPTS SUPERVISOR_GC_OPTS UI_GC_OPTS LOGVIEWER_GC_OPTS | 導致服務啟動異常 | ★★ | 修改相關配置項時請嚴格按照提示描述,確保修改后的值有效 | 觀察服務能否正常啟動 |
| 修改用戶資源池配置參數resource.aware.scheduler.user.pools | 導致業務提交后無法正常運行 | ★★★ | 修改相關配置項時請嚴格按照提示描述,確保給每個用戶分配的資源合理有效 | 觀察服務能否正常啟動并且業務能否正常運行 |
| 修改數據目錄 | 該操作不當會導致服務異常,無法提供服務 | ★★★★ | 請勿手動操作數據目錄 | 觀察數據目錄是否正常 |
| 重啟服務/實例 | 該操作會導致服務有短暫中斷,如果有業務運行也會引起業務短暫中斷 | ★★★ | 確保在必要時重啟服務 | 觀察服務是否運行正常,業務是否恢復 |
| 同步配置(重啟服務) | 該操作會引起服務重啟,導致服務短暫中斷,若引起Supervisor重啟會導致所運行業務短暫中斷 | ★★★ | 確保在必要時修改配置 | 觀察服務是否運行正常,業務是否恢復 |
| 停止服務/實例 | 該操作會導致服務停止,業務中斷 | ★★★ | 確保在必要時停止服務 | 觀察服務是否正常停止 |
| 刪除/修改元數據 | 刪除Nimbus元數據會導致服務異常,并且已運行業務丟失 | ★★★★★ | 請勿手動刪除Nimbus元數據文件 | 觀察Nimbus元數據文件是否正常 |
| 修改文件權限 | 修改元數據目錄和日志目錄權限不當會引起服務異常 | ★★★★ | 請勿手動修改文件權限 | 觀察數據目錄和日志目錄權限是否正常 |
| 刪除拓撲 | 該操作會刪除正在運行中的拓撲 | ★★★★ | 確保在必要時刪除拓撲 | 觀察拓撲是否刪除成功 |
Yarn高危操作
| 操作名稱 | 操作風險 | 風險等級 | 規避措施 | 重大操作觀察項目 |
|---|---|---|---|---|
| 刪除或者修改數據目錄yarn.nodemanager.local-dirs和yarn.nodemanager.log-dirs | 該操作將會導致業務信息丟失 | ★★★ | 請勿手動刪除數據目錄 | 觀察數據目錄是否正常 |
ZooKeeper高危操作
| 操作名稱 | 操作風險 | 風險等級 | 規避措施 | 重大操作觀察項目 |
|---|---|---|---|---|
| 刪除或者修改ZooKeeper的數據目錄 | 該操作將會導致業務信息丟失 | ★★★ | 修改ZooKeeper目錄時候,嚴格按照擴容指導操作 | 觀察服務能否正常啟動,關聯組件能否正常啟動 |
| 修改ZooKeeper實例的啟動參數GC_OPTS | 導致服務啟動異常 | ★★ | 修改相關配置項時請嚴格按照提示描述,確保修改后的值有效 | 觀察服務能否正常啟動 |
| 設置ZooKeeper中znode的ACL信息 | 修改ZooKeeper中znode的權限,可能會導致其他用戶無權限訪問該znode,導致系統功能異常 | ★★★★ | 修改相關配置項時請嚴格按照“ZooKeeper權限設置指南”章節操作,確保修改ACL信息,不會影響其他組件正常使用ZooKeeper | 觀察項目觀察其他依賴ZooKeeper的組件能否正常啟動,并提供服務 |