應用場景
數據快遞是一種海量數據傳輸解決方案,支持 TB 到 PB 級數據上云,通過硬盤(外置 USB 接口),向并行文件傳輸大量數據,解決海量數據傳輸網絡成本高、傳輸時間長等難題。
智算場景:AI 場景的素材數據、原型數據等需要寄送到數據中心,投喂給智算平臺,提升數據質量和模型效果。
原始數據遷移:把基因、石油、氣象、IOT 等原始數據遷移到并行文件服務。
離線備份數據:將客戶完整備份或增量備份發送到并行文件服務,實現可靠的冗余離站存儲。
注意
專屬資源的客戶,擁有獨立的機房設備,可采用了郵寄硬盤到存儲機房的方式。
準備工作
客戶需要自助完成遷移數據存儲到硬盤等存儲介質上,建議客戶將小文件壓縮成大文件后再進行數據遷移。
存儲介質郵寄到機房后,聯系運維人員將硬盤插在可連接HPFS客戶端的物理機上作為遷移機器。需要提前和運維人員確認硬盤數量和遷移服務器網絡是否和HPFS互通。
操作步驟
客戶將硬盤快遞到云公司機房的專屬資源池集群。
機房配置單獨的數據遷移服務器用于讀取客戶硬盤數據。數據拷貝服務器通過網閘與天翼云資源池隔離。
客戶硬盤插入到拷貝服務器后,先進行安全掃描,確保客戶數據無安全隱患。此前步驟,網閘處于關閉狀態
打開網閘,將客戶硬盤數據拷貝到云內服務器上。
與客戶聯系確認數據準確。
關閉網閘。
在數據拷貝服務器上,按客戶要求將硬盤數據銷毀和硬盤快遞寄回。
數據拷貝源端掛載
遷移機器上安裝支持 NTFS 文件系統的 ntfs-3g軟件包,并掛載客戶的硬盤:
yum install -y ntfs-3g
ntfs-3g /dev/sdd1 /mnt/ntfs -o rw,big_writes,noatime為了進一步提升機械盤的性能,將該硬盤的預讀大小和 IO 隊列長度做了修改(修改預讀和 IO 隊列是磁盤調優的方法,配置參數并不通用,需要測試),之后測試遷移帶寬達到150MB/s 左右的限值。
cd /sys/devices/pci0000:00/0000:00:14.0/usb2/2-3/2-3.3/2-3.3:1.0/host16/target16:0:0/16:0:0:0/block/sdd/queue/
echo 4096 > read_ahead_kb \\預讀擴大到4M
echo 4096 > nr_requests \\IO隊列擴大到4096數據拷貝目的端掛載
掛載用戶已開通HPFS的客戶端:
mount -t lustre -o seckey=xxxxxx 11.2.xxx.x@tcp0:11.2.xxx.x@tcp0:/hp0001/yZcQcAXicFaxxxxxxxxxxxxyqum9s2bu3 /mnt/shar遷移命令執行
因為當前用例是單個機械盤進行數據拷貝,并行執行無法提高速度,所以使用單任務 rsync更合適。執行遷移命令:
nohup rsync -a --partial --inplace -v /mnt/ntfs/ /mnt/share/ &命令執行后查看 nohup文件和使用 iostat及 df工具觀察遷移過程,在遷移大文件時,帶寬能到200MB/s,在遷移小文件時帶寬會比較小,屬于正常狀況。