禁用操作
下表中描述了在集群操作與維護階段,進行日常操作時應注意的禁用操作。
| 類別 |
操作風險 |
| 嚴禁刪除ZooKeeper相關數據目錄 |
HDFS/Yarn/HBase/Hive等很多組件都依賴于ZooKeeper,在ZooKeeper中保存元數據信息。刪除ZooKeeper中相關數據目錄將會影響相關組件的正常運行。 |
| 嚴禁手動修改Hive元數據庫的數據(Hivemeta數據庫) |
修改Hive元數據可能會導致Hive數據解析錯誤,Hive無法正常提供服務。 |
| 禁止對Hive的元數據表手動進行insert和update操作 |
修改Hive元數據可能會導致Hive數據解析錯誤,Hive無法正常提供服務。 |
| 嚴禁修改Hive私有文件目錄的權限 |
修改該目錄權限可能會導致Hive服務不可用。 |
| 嚴禁修改Kafka配置文件中broker.id |
修改Kafka配置文件中broker.id將會導致該節點數據失效。 |
| 嚴禁修改節點主機名 |
主機名修改后會導致該主機上相關實例和上層組件無法正常提供服務,且無法修復。 |
| 禁止重裝節點OS |
該操作會導致翼MR集群進入異常狀態,影響翼MR集群使用。 |
| 禁止使用私有鏡像 |
該操作會導致翼MR集群進入異常狀態,影響翼MR集群使用。 |
高危操作
以下各表分別描述了各組件在操作與維護階段,進行日常操作時應注意的高危操作。
集群高危操作
| 操作名稱 |
操作風險 |
風險等級 |
規避措施 |
重大操作觀察項目 |
| 綁定彈性公網IP |
該操作會將集群服務的相關主節點如:HDFS NameNode所在的master節點暴露在公網,會增大來自互聯網的網絡攻擊風險可能性。 |
★★★★★ |
請確認綁定的彈性公網IP為可信任的公網訪問IP,確認是否針對開放的相關端口進行設置安全組規則,只允許可信的IP可以訪問該端口,入方向規則不推薦設置允許0.0.0.0可以訪問。 |
無 |
| 開放集群22端口安全組規則 |
該操作會增大用戶利用22進行漏洞攻擊的風險。 |
★★★★★ |
針對開放的22端口進行設置安全組規則,只允許可信的IP可以訪問該端口,入方向規則不推薦設置允許0.0.0.0可以訪問。 |
無 |
| 刪除集群或刪除集群數據 |
該操作會導致數據丟失。 |
★★★★★ |
刪除前請務必再次確認該操作的必要性,同時要保證數據已完成備份。 |
無 |
| 縮容集群 |
該操作會導致數據丟失。 |
★★★★★ |
縮容前請務必再次確認該操作的必要性,同時要保證數據已完成備份。 |
無 |
| 卸載磁盤或格式化數據盤 |
該操作會導致數據丟失。 |
★★★★★ |
操作前請務必再次確認該操作的必要性,同時要保證數據已完成備份。 |
無 |
翼MR Manager高危操作
| 操作名稱 |
操作風險 |
風險等級 |
規避措施 |
重大操作觀察項目 |
| 修改日志級別 |
如果修改為DEBUG,會導致Manager運行速度明顯降低。 |
★★ |
修改前確認操作的必要性,并及時修改回默認設定。 |
無 |
| 重啟下層服務時,如果勾選同時重啟上層服務 |
該操作會導致上層服務業務中斷,影響集群的管理維護和業務。 |
★★★★ |
操作前確認操作的必要性,操作時確保同一時間無其它管理維護操作。 |
觀察是否有未恢復的告警產生,觀察集群的管理維護是否正常,業務是否正常。 |
| 修改OLDAP端口 |
修改該參數時,會重啟LdapServer和Kerberos服務和其關聯的所有服務,會影響業務運行。 |
★★★★★ |
操作前確認操作的必要性,操作時確保同一時間無其它管理維護操作。 |
無 |
| 重啟服務 |
重啟過程中會中斷服務,勾選同時重啟上層服務會導致依賴該服務的上層服務中斷。 |
★★★ |
操作前確認重啟的必要性。 |
觀察是否有未恢復的告警產生,觀察集群的管理維護是否正常,業務是否正常。 |
| 修改節點SSH默認端口 |
修改默認端口(22)將導致創建集群、添加服務/實例、添加主機、重裝主機等功能無法正常使用,并且會導致集群健康檢查結果中節點互信等檢查項不準確。 |
★★★ |
執行相關操作前將SSH端口改回默認值。 |
無 |
Flink高危操作
| 操作名稱 |
操作風險 |
風險等級 |
規避措施 |
重大操作觀察項目 |
| 修改日志級別 |
如果修改為DEBUG,會影響任務運行性能。 |
★★ |
修改前確認操作的必要性,并及時修改回默認設定。 |
無。 |
| 修改文件權限 |
該操作可能導致任務運行失敗。 |
★★★ |
修改前確認操作的必要性。 |
觀察相關業務操作是否正常。 |
HBase高危操作
| 操作名稱 |
操作風險 |
風險等級 |
規避措施 |
重大操作觀察項目 |
| 修改加密的相關配置項:hbase.regionserver.wal.encryption、hbase.crypto.keyprovider.parameters.uri、hbase.crypto.keyprovider.parameters.encryptedtext |
導致服務啟動異常。 |
★★★★ |
修改相關配置項時請嚴格按照提示描述,加密相關配置項是有關聯的,確保修改后的值有效。 |
觀察服務能否正常啟動。 |
| 已使用加密的情況下關閉或者切換加密算法,關閉主要指修改hbase.regionserver.wal.encryption為false,切換主要指AES和SMS4的切換 |
導致服務啟動失敗,數據丟失。 |
★★★★ |
加密HFile和WAL內容的時候,如果已經使用一種加密算法加密并且已經建表,請不要隨意關閉或者切換加密算法。未建加密表(ENCRYPTION=>AES/SMS4)的情況下可以切換,否則禁止操作。 |
無。 |
| 修改HBase實例的啟動參數GC_OPTS、HBASE_HEAPSIZE |
導致服務啟動異常。 |
★★ |
修改相關配置項時請嚴格按照提示描述,確保修改后的值有效,且GC_OPTS與HBASE_HEAPSIZE參數值無沖突。 |
觀察服務能否正常啟動。 |
| 使用OfflineMetaRepair工具 |
導致服務啟動異常。 |
★★★★ |
必須在HBase下線的情況下才可以使用該命令,而且不能在數據遷移的場景中使用該命令。 |
觀察HBase服務是否可以正常啟動。 |
HDFS高危操作
| 操作名稱 |
操作風險 |
風險等級 |
規避措施 |
重大操作觀察項目 |
| 修改HDFS的NameNode的數據存儲目錄dfs.namenode.name.dir、DataNode的數據配置目錄dfs.datanode.data.dir |
導致服務啟動異常。 |
★★★★★ |
修改相關配置項時請嚴格按照提示描述,確保修改后的值有效。 |
觀察服務能否正常啟動。 |
| 執行hadoop distcp命令時,使用-delete參數 |
Distcp拷貝時,源集群沒有而目的集群存在的文件,會在目的集群刪除。 |
★★ |
在使用Distcp的時候,確保是否保留目的集群多余的文件,謹慎使用-delete參數。 |
Distcp數據拷貝后,查看目的的數據是否按照參數配置保留或刪除。 |
| 修改HDFS實例的啟動參數GC_OPTS、HADOOP_HEAPSIZE和GC_PROFILE |
導致服務啟動異常 |
★★ |
修改相關配置項時請嚴格按照提示描述,確保修改后的值有效,且GC_OPTS與HADOOP_HEAPSIZE參數值無沖突。 |
觀察服務能否正常啟動。 |
| 修改HDFS的副本數目dfs.replication,將默認值由3改為1 |
1. 存儲可靠性下降,磁盤故障時,會發生數據丟失。 2. NameNode重啟失敗,HDFS服務不可用。 |
★★★★ |
修改相關配置項時,請仔細查看參數說明。保證數據存儲的副本數不低于2。 |
觀察默認的副本值是否不為1,HDFS服務是否可以正常提供服務。 |
| 修改Hadoop中各模塊的RPC通道的加密方式hadoop.rpc.protection |
導致服務故障及業務異常。 |
★★★★★ |
修改相關配置項時請嚴格按照提示描述,確保修改后的值有效。 |
觀察HDFS及其他依賴HDFS的服務能否正常啟動,并提供服務。 |
Hive高危操作
| 操作名稱 |
操作風險 |
風險等級 |
規避措施 |
重大操作觀察項目 |
| 修改Hive實例的啟動參數GC_OPTS |
修改該參數可能會導致Hive實例無法啟動。 |
★★ |
修改相關配置項時請嚴格按照提示描述,確保修改后的值有效。 |
觀察服務能否正常啟動。 |
| 刪除MetaStore所有實例 |
Hive元數據丟失,Hive無法提供服務。 |
★★★ |
除非確定丟棄Hive所有表信息,否則不要執行該操作。 |
觀察服務能否正常啟動。 |
| 使用HDFS文件系統接口或者HBase接口刪除或修改Hive表對應的文件 |
該操作會導致Hive業務數據丟失或被篡改。 |
★★ |
除非確定丟棄這些數據,或者確保該修改操作符合業務需求,否則不要執行該操作。 |
觀察Hive數據是否完整。 |
| 使用HDFS文件系統接口或者HBase接口修改Hive表對應的文件或目錄訪問權限 |
該操作可能會導致相關業務場景不可用。 |
★★★ |
請勿執行該操作。 |
觀察相關業務操作是否正常。 |
| 導出表數據覆蓋寫入本地目錄,例如將t1表中數據導出,覆蓋到“/opt/dir”路徑下:insert overwrite local directory '/opt/dir' select * from t1 |
該操作會刪除目標目錄,如果設置錯誤,會導致軟件或者操作系統無法啟動。 |
★★★★★ |
確認需要寫入的路徑下不要包含任何文件;或者不要使用overwrite關鍵字。 |
觀察目標路徑是否有文件丟失。 |
| 將不同的數據庫、表或分區文件指定至相同路徑,例如默認倉庫路徑“/user/hive/warehouse” |
執行創建操作后數據可能會紊亂,如果刪除其中一個數據庫、表或分區,會導致其他對象數據丟失。 |
★★★★★ |
請勿執行該操作。 |
觀察目標路徑是否有文件丟失。 |
Kafka高危操作
| 操作名稱 |
操作風險 |
風險等級 |
規避措施 |
重大操作觀察項目 |
| 刪除Topic |
該操作將會刪除已有的主題和數據。 |
★★★ |
采用Kerberos認證,保證合法用戶具有操作權限,并確保主題名稱正確。 |
觀察主題是否正常處理。 |
| 刪除數據目錄 |
該操作將會導致業務信息丟失。 |
★★★ |
請勿手動刪除數據目錄。 |
觀察數據目錄是否正常。 |
| 修改數據目錄下內容(創建文件、文件夾) |
該操作將會導致該節點上的Broker實例故障。 |
★★★ |
請勿手動在數據目錄下創建或修改文件及文件夾。 |
觀察數據目錄是否正常。 |
| 修改磁盤自適應功能“disk.adapter.enable”參數 |
該操作會在磁盤使用空間達到閾值時調整Topic數據保存周期,超出保存周期的歷史數據可能被清除。 |
★★★ |
若個別Topic不能做保存周期調整,將該Topic配置在“disk.adapter.topic.blacklist”參數中。 |
在KafkaTopic監控頁面觀察數據的存儲周期。 |
| 修改數據目錄“log.dirs”配置 |
該配置不正確將會導致進程故障。 |
★★★ |
確保所修改或者添加的數據目錄為空目錄,且權限正確。 |
觀察數據目錄是否正常。 |
| 減容Kafka集群 |
該操作將會導致部分Topic數據副本數量減少,可能會導致Topic無法訪問。 |
★★ |
請先做好數據副本轉移工作,然后再進行減容操作。 |
觀察分區所在備份節點是否都存活,確保數據安全。 |
| 單獨啟停基礎組件 |
該操作將會影響服務的一些基礎功能導致業務失敗。 |
★★★ |
請勿單獨啟停ZooKeeper/Kerberos/LDAP等基礎組件啟停基礎組件請勾選關聯服務。 |
觀察服務狀態是否正常。 |
| 重啟/停止服務 |
該操作將會導致業務中斷。 |
★★ |
確保在必要時重啟/停止服務。 |
觀察服務是否運行正常。 |
| 修改配置參數 |
該操作將需要重啟服務使得配置生效。 |
★★ |
確保在必要時修改配置。 |
觀察服務是否運行正常。 |
| 刪除/修改元數據 |
修改或者刪除ZooKeeper上Kafka的元數據可能導致Topic或者Kafka服務不可用。 |
★★★ |
請勿刪除或者修改Kafka在ZooKeeper上保存的元數據信息。 |
觀察Topic或者Kafka服務是否可用。 |
| 修改元數據備份文件 |
修改Kafka元數據備份文件,并被使用進行Kafka元數據恢復成功后,可能導致Topic或者Kafka服務不可用。 |
★★★ |
請勿修改Kafka元數據備份文件。 |
觀察Topic或者Kafka服務是否可用。 |
KrbServer高危操作
| 操作名稱 |
操作風險 |
風險等級 |
規避措施 |
重大操作觀察項目 |
| 修改KrbServer的參數KADMIN_PORT |
修改該參數后,若沒有及時重啟KrbServer服務和其關聯的所有服務,會導致集群內部KrbClient的配置參數異常,影響業務運行。 |
★★★★★ |
修改該參數后,請重啟KrbServer服務和其關聯的所有服務。 |
無。 |
| 修改KrbServer的參數kdc_ports |
修改該參數后,若沒有及時重啟KrbServer服務和其關聯的所有服務,會導致集群內部KrbClient的配置參數異常,影響業務運行。 |
★★★★★ |
修改該參數后,請重啟KrbServer服務和其關聯的所有服務。 |
無。 |
| 修改KrbServer的參數KPASSWD_PORT |
修改該參數后,若沒有及時重啟KrbServer服務和其關聯的所有服務,會導致集群內部KrbClient的配置參數異常,影響業務運行。 |
★★★★★ |
修改該參數后,請重啟KrbServer服務和其關聯的所有服務。 |
無。 |
| 修改Manager系統域名 |
若沒有及時重啟KrbServer服務和其關聯的所有服務,會導致集群內部KrbClient的配置參數異常,影響業務運行。 |
★★★★★ |
修改該參數后,請重啟KrbServer服務和其關聯的所有服務。 |
無。 |
| 配置跨集群互信 |
該操作會重啟KrbServer服務和其關聯的所有服務,影響集群的管理維護和業務。 |
★★★★★ |
更換前確認操作的必要性,更換時確保同一時間無其它管理維護操作。 |
觀察是否有未恢復的告警產生,觀察集群的管理維護是否正常,業務是否正常。 |
LdapServer高危操作
| 操作名稱 |
操作風險 |
風險等級 |
規避措施 |
重大操作觀察項目 |
| 修改LdapServer的參數LDAP_SERVER_PORT |
修改該參數后,若沒有及時重啟LdapServer服務和其關聯的所有服務,會導致集群內部LdapClient的配置參數異常,影響業務運行。 |
★★★★★ |
修改該參數后,請重啟LdapServer服務和其關聯的所有服務。 |
無。 |
| 恢復LdapServer數據 |
該操作會重啟Manager和整個集群,影響集群的管理維護和業務。 |
★★★★★ |
修改前確認操作的必要性,修改時確保同一時間無其它管理維護操作。 |
觀察是否有未恢復的告警產生,觀察集群的管理維護是否正常,業務是否正常。 |
| 更換LdapServer所在節點 |
該操作會導致部署在該節點上的服務中斷,且當該節點為管理節點時,更換節點會導致重啟OMS各進程,影響集群的管理維護。 |
★★★ |
更換前確認操作的必要性,更換時確保同一時間無其它管理維護操作。 |
觀察是否有未恢復的告警產生,觀察集群的管理維護是否正常,業務是否正常。 |
| 修改LdapServer密碼 |
修改密碼需要重啟LdapServer和Kerberos服務,影響集群的管理維護和業務。 |
★★★★ |
修改前確認操作的必要性,修改時確保同一時間無其它管理維護操作。 |
無。 |
| 節點重啟導致LdapServer數據損壞 |
如果未停止LdapServer服務,直接重啟LdapServer所在節點,可能導致LdapServer數據損壞。 |
★★★★★ |
使用LdapServer備份數據進行恢復。 |
無。 |
YARN高危操作
| 操作名稱 |
操作風險 |
風險等級 |
規避措施 |
重大操作觀察項目 |
| 刪除或者修改數據目錄yarn.nodemanager.local-dirs和yarn.nodemanager.log-dirs |
該操作將會導致業務信息丟失。 |
★★★ |
請勿手動刪除數據目錄。 |
觀察數據目錄是否正常。 |
ZooKeeper高危操作
| 操作名稱 |
操作風險 |
風險等級 |
規避措施 |
重大操作觀察項目 |
| 刪除或者修改ZooKeeper的數據目錄 |
該操作將會導致業務信息丟失。 |
★★★ |
修改ZooKeeper目錄時候,嚴格按照擴容指導操作。 |
觀察服務能否正常啟動,關聯組件能否正常啟動。 |
| 修改ZooKeeper實例的啟動參數GC_OPTS |
導致服務啟動異常。 |
★★ |
修改相關配置項時請嚴格按照提示描述,確保修改后的值有效。 |
觀察服務能否正常啟動。 |
| 設置ZooKeeper中znode的ACL信息 |
修改ZooKeeper中znode的權限,可能會導致其他用戶無權限訪問該znode,導致系統功能異常。 |
★★★★ |
修改相關配置項時請嚴格按照“ZooKeeper權限設置指南”章節操作,確保修改ACL信息,不會影響其他組件正常使用ZooKeeper。 |
觀察項目觀察其他依賴ZooKeeper的組件能否正常啟動,并提供服務。 |