Ceph集群rados对象unfound处理流程-天翼云开发者社区

1.1 環境檢查

<dd id='j4bdx'></dd>

; 通過ceph -s等方(fang)式檢查集群狀態是否已穩定，不(bu)存在

osd服(fu)務反復up/down；

上報心跳超時；

有slow ops

有大量數據遷移中

等情況。

1.2 查詢unfound對象相應的信息

查看unfound對象所在的pg

#ceph health detail

查詢丟失對象

#ceph pg {pgid} list_unfound

對對應pg進行狀態查詢，記錄對應的active/up set及恢復狀態中是否有osd處于down狀態

#ceph pg {pgid} query

若后端存儲類型為filestore，先備份osd上的對象（若為bluestore則跳過）

查(cha)尋丟失(shi)對象(xiang)(xiang)，將對象(xiang)(xiang)哈希(xi)轉(zhuan)(zhuan)化(hua)為16進制(zhi)，如(ru)下圖轉(zhuan)(zhuan)換后為4E220181

對象(xiang)所(suo)在的目錄層級為哈希字符由(you)后至前，直(zhi)至沒有(you)子目錄，如(ru)圖中對象(xiang)所(suo)在目錄為

/var/lib/ceph/osd/ceph-{osdid}/{pgid}_head/DIR_1/DIR_8/DIR_1/DIR0/DIR2

將對(dui)應(ying)對(dui)象拷貝，并(bing)校驗文件完整性

#cp -a {object} {target dir}

#md5sum {object}

1.3 拉起down狀態osd服務

嘗試將down的osd恢復，一般恢復后就可以找到object

登錄osd所在機器

#systemctl restart ceph-osd@{osdid}

檢查osd啟動狀態

檢查啟動后對象(xiang)是(shi)否仍舊為unfound狀(zhuang)態

1.4 回退unfound對象（osd服務無法拉起/拉起后對象仍未unfound狀態）

執行前建議讓研發同學評估此操作是否存在數據丟失風險

集群僅為副本模式時可執行回退，EC模式無法回退

若osd無(wu)法(fa)拉起(qi)，先將osd刪除

#ceph osd out osd.{osdid}

#.ceph osd rm osd.{osdid}

#ceph osd crush remove osd.{osdid}

#ceph auth del osd.{osdid}

將(jiang)丟(diu)失(shi)回退至存活osd中存放的(de)舊(jiu)版本

#ceph pg {pgid} mark_unfound_lost revert

觀察對象是否恢復

1.5 刪除unfound對象（若無法回退）

執行前建議讓研發同學評估此操作是否存在數據丟失風險

若osd無(wu)法拉起，先(xian)將osd刪除

#ceph osd out osd.{osdid}

#.ceph osd rm osd.{osdid}

#ceph osd crush remove osd.{osdid}

#ceph auth del osd.{osdid}

將丟失對象刪除

#ceph pg {pgid} mark_unfound_lost delete

觀察集群狀態是否恢復

1.1 環境檢查

  通(tong)過ceph -s等方式檢查集群(qun)狀(zhuang)態是否已穩定，不存在

osd服(fu)務反復up/down；

上報心跳超時；

有slow ops

有大量數據遷移中

等情況。

1.2 查詢unfound對象相應的信息

查看unfound對象所在的pg

#ceph health detail

查詢丟失對象

#ceph pg {pgid} list_unfound

對對應pg進行狀態查詢，記錄對應的active/up set及恢復狀態中是否有osd處于down狀態

#ceph pg {pgid} query

若后端存儲類型為filestore，先備份osd上的對象（若為bluestore則跳過）

查尋丟失對象(xiang)，將對象(xiang)哈希(xi)轉化為16進制(zhi)，如(ru)下圖(tu)轉換后(hou)為4E220181

對(dui)(dui)象(xiang)所在(zai)的目錄層級為哈(ha)希字符由后至前(qian)，直至沒有子目錄，如圖中(zhong)對(dui)(dui)象(xiang)所在(zai)目錄為

/var/lib/ceph/osd/ceph-{osdid}/{pgid}_head/DIR_1/DIR_8/DIR_1/DIR0/DIR2

將對(dui)應對(dui)象(xiang)拷貝，并校(xiao)驗文件完整性

#cp -a {object} {target dir}

#md5sum {object}

1.3 拉起down狀態osd服務

嘗試將down的osd恢復，一般恢復后就可以找到object

登錄osd所在機器

#systemctl restart ceph-osd@{osdid}

檢查osd啟動狀態

檢查啟(qi)動(dong)后對(dui)象(xiang)是否仍舊(jiu)為unfound狀(zhuang)態

1.4 回退unfound對象（osd服務無法拉起/拉起后對象仍未unfound狀態）

執行前建議讓研發同學評估此操作是否存在數據丟失風險

集群僅為副本模式時可執行回退，EC模式無法回退

若osd無法拉(la)起，先將(jiang)osd刪除

#ceph osd out osd.{osdid}

#.ceph osd rm osd.{osdid}

#ceph osd crush remove osd.{osdid}

#ceph auth del osd.{osdid}

將丟失回退(tui)至存(cun)活osd中存(cun)放的舊版(ban)本(ben)

#ceph pg {pgid} mark_unfound_lost revert

觀察對象是否恢復

1.5 刪除unfound對象（若無法回退）

執行前建議讓研發同學評估此操作是否存在數據丟失風險

若osd無法拉起，先(xian)將osd刪除

#ceph osd out osd.{osdid}

#.ceph osd rm osd.{osdid}

#ceph osd crush remove osd.{osdid}

#ceph auth del osd.{osdid}

將丟失對象刪除

#ceph pg {pgid} mark_unfound_lost delete

觀察集群狀態是(shi)否恢(hui)復

亚欧色一区w666天堂,色情一区二区三区免费看,少妇特黄A片一区二区三区,亚洲人成网站999久久久综合,国产av熟女一区二区三区

應用商城

定價

合作伙伴

開發者

支持與服務

了解天翼云

Ceph集群rados對象unfound處理流程

1.1 環境檢查

1.2 查詢unfound對象相應的信息

1.3 拉起down狀態osd服務

嘗試將down的osd恢復，一般恢復后就可以找到object

1.4 回退unfound對象（osd服務無法拉起/拉起后對象仍未unfound狀態）

執行前建議讓研發同學評估此操作是否存在數據丟失風險

1.5 刪除unfound對象（若無法回退）

執行前建議讓研發同學評估此操作是否存在數據丟失風險

Ceph集群rados對象unfound處理流程

1.1 環境檢查

1.2 查詢unfound對象相應的信息

1.3 拉起down狀態osd服務

嘗試將down的osd恢復，一般恢復后就可以找到object

1.4 回退unfound對象（osd服務無法拉起/拉起后對象仍未unfound狀態）

執行前建議讓研發同學評估此操作是否存在數據丟失風險

1.5 刪除unfound對象（若無法回退）

執行前建議讓研發同學評估此操作是否存在數據丟失風險

亚欧色一区w666天堂,色情一区二区三区免费看,少妇特黄A片一区二区三区,亚洲人成网站999久久久综合,国产av熟女一区二区三区

活動

應用商城

定價

合作伙伴

開發者

支持與服務

了解天翼云

Ceph集群rados對象unfound處理流程

1.1 環境檢查

1.2 查詢unfound對象相應的信息

1.3 拉起down狀態osd服務

嘗試將down的osd恢復，一般恢復后就可以找到object

1.4 回退unfound對象（osd服務無法拉起/拉起后對象仍未unfound狀態）

執行前建議讓研發同學評估此操作是否存在數據丟失風險

1.5 刪除unfound對象（若無法回退）

執行前建議讓研發同學評估此操作是否存在數據丟失風險

Ceph集群rados對象unfound處理流程

1.1 環境檢查

1.2 查詢unfound對象相應的信息

1.3 拉起down狀態osd服務

嘗試將down的osd恢復，一般恢復后就可以找到object

1.4 回退unfound對象（osd服務無法拉起/拉起后對象仍未unfound狀態）

執行前建議讓研發同學評估此操作是否存在數據丟失風險

1.5 刪除unfound對象（若無法回退）

執行前建議讓研發同學評估此操作是否存在數據丟失風險