時延相關
更新時間 2024-02-22 11:03:26
最近更新時間: 2024-02-22 11:03:26
分享文章
本節主要介紹時延相關
災備任務時延增高常見原因
RTO增大常見原因
RTO是增量同步期間DRS實例上的事務傳輸到災備目標庫且回放成功的時間差,RTO值較大說明DRS上需要回放到目標實例的事務有積壓。一般有以下幾種原因:
- 災備任務初始化完成不久,啟動災備任務到當前時間累積的增量數據需要回放。
- 業務數據庫對無主鍵表進行了批量操作,DRS災備實例正在同步變更數據較大的無主鍵表。為了確保無主鍵表數據一致性,對所有執行操作都進行位點記錄,因此效率相比有主鍵表低。同時,如果目標表無索引,數據更新效率會更低。
- 業務數據庫執行了DDL操作,DRS災備實例需要等待DDL在災備目標實例執行完成后,再執行數據回放。
- 業務數據庫對熱點表進行頻繁操作。DRS災備實例會對熱點表的事務進行合并后再進行回放,減少頻繁對目標庫操作。
- 災備數據庫訪問異常導致增量數據無法回放成功。
RTO增大處理建議
步驟 1 在“實時災備管理”頁面,選擇指定的災備任務,單擊任務名稱進入“基本信息”頁簽。
步驟 1 在“基本信息”頁簽,單擊“災備監控”頁簽,查看時延監控的RTO的變化情況。
如果RTO逐漸降低或者只是短時間內增加,則無需關注。
如果RTO持續增加,可在災備數據庫執行以下語句,查看是否有執行時間比較長的sql或者正在執行的DDL。
show processlist
如果災備數據庫異常,需要聯系數據庫運維工程師解決。
RPO增大常見原因
RPO是增量同步期間業務數據庫一個事務的提交時間與送達DRS實例的時間差,RPO值較大,說明業務數據庫最新的變更數據還沒有抽取到DRS災備實例。一般有以下幾種原因:
- 業務數據庫和DRS災備實例之間的網絡不穩定,讀取業務數據庫端的變更日志比較慢。
- 業務數據庫訪問異常導致增量數據無法抽取成功。
RPO增大處理建議
步驟 2 在“實時災備管理”頁面,選擇指定的災備任務,單擊任務名稱進入“基本信息”頁簽。
步驟 2 在“基本信息”頁簽,單擊“災備監控”頁簽,查看時延監控的RPO的變化情況。
如果RPO逐漸降低或者只是短時間內增加,則無需關注。
如果業務數據庫異常,需要聯系數據庫運維工程師解決。
MongoDB鏈路時延增高可能原因
涉及鏈路
MongoDB->DDS入云遷移
DDS->MongoDB出云遷移
可能原因
DRS在任務增量階段,為保證遷移/同步/災備的性能,會集合級的進行并發回放。如果出現以下特殊情況,DRS只支持單線程寫入,不支持并發回放。
集合的索引中有unique key時;
集合屬性的capped為true時;
若出現時延增高的這種情況,用戶可排查是否以上原因導。