軟 / 硬件故障處理應急預案
更新時間 2025-02-05 09:37:35
最近更新時間: 2025-02-05 09:37:35
分享文章
本頁介紹天翼云TeleDB數據庫軟 / 硬件故障處理應急預案。
故障定位
單臺主機節點系統發生軟、硬件故障。
故障影響
TeleDB為高可靠性的集群數據庫,在一臺設備出現故障情況下,可以實現自動切換,切換期間業務會短暫受影響。
處理步驟
在業務受影響時,應急措施如下:
- 先利用高可用性軟件自動切換,或手工方式將應用切換到備用機,保證業務的持續運行;
- 如果是操作系統故障,根據報錯信息分析錯誤原因,并盡快解決。
- 如果問題嚴重無法恢復,則馬上使用系統備份帶恢復系統并檢查錯誤原因,如果有系統DUMP,分析DUMP。
- 對于是硬件故障,根據系統面板上的顯示信息及故障現象,分析確定故障發生部位。
- 檢查系統各部件及連線是否脫落或松動。
- 對故障部件十分確定的情況下攜帶相應備件到現場維修更換。
- 如果對故障原因不確定或確定有多種故障原因,將逐一更換懷疑故障部件,判斷如何解決問題。
- 如果不能在短時間恢復故障系統時,將聯系公司備件保障中心提供不低于故障系統的備機運到現場,替換故障系統,恢復應用運行,主要有如下步驟:
- 移植必要的硬件到維護公司提供的備機上
- 調整操作系統與故障主機一致
- 移植必要的硬件到維護公司提供的備機上
- 把故障主機的內置硬盤插到備機上
- 把故障主機的磁盤掛載到備機上
- 配置系統用戶、網絡等環境
- 在備機上恢復應用軟件和數據
- 把備機當作系統的備用機進入系統運行
- 在上述操作后,有了較為寬裕的時間恢復故障主機。
- 故障主機恢復后,替換下維護公司提供的備機,重新接管業務。
- 對于主機系統中的單機系統如果出現系統無法啟動的重大故障。可以通過備份來恢復系統。恢復系統后連接存儲啟動數據庫以及應用。
- 數據庫恢復正常后通知業務部門。
- 由項目經理對問題進行總結,事后匯報情況處理記錄。