一、完善項目排障機制,做好預防性措施
1、完善項目內評審機制,關鍵操作執行前反復驗證,如:是否拋出異常、返回值是否正確、確認操作結果是否符合預期等;
2、制定排障預案,嚴格按照排障流程執行操作;
3、研發人員需要輸出詳細的操作手冊,手冊詳細記錄操作內容、操作步驟、測試信息、回退方案等,確保現場人員根據操作手冊可無誤準確的執行操作;
4、增加hdfs清理回收站過期數據保留時長,降低數據丟失風險。
二、完善現場操作流程,嚴守部門故障修復制度
1、在程序上線前完整全面地進行checklist,變更事時至少2名研發人員在場,操作與檢查同步進行;
2、檢查待部署機器上的程序和新程序是否互相影響,包括環境變量、資源、工具包或本地庫;
3、正式上線后,在生產環境操作時,故障發生后,嚴格遵守部門故障報送流程執行操作;
4、正式上線后,在生產環境操作時,上線、問題故障修復,嚴格遵守部門SOP及CCB變更流程操作執行。
三、提升技術能力,增強風險意識
1、研發人員具備風險識別意識,能夠快速形成應急預案;
2、提升研發人員的排障能力和組件運維能力;
3、現場加強現場巡檢,增加巡檢頻次。