1. 故障描述
本案例是HP P2000的存儲(chǔ)vmware exsi虛擬化平臺(tái),由RAID-5由10塊lT硬盤組成,其中6號(hào)盤是熱備盤,由于故障導(dǎo)致RAID-5磁盤陣列的兩塊盤掉線,表現(xiàn)為兩塊硬盤亮黃燈。 經(jīng)用戶方維護(hù)人員檢測(cè),故障硬盤應(yīng)為物理故障,表現(xiàn)為:序列號(hào)無(wú)法讀取,在SAS擴(kuò)展卡上硬盤無(wú)法識(shí)別。
2. 數(shù)據(jù)備份與修復(fù)
故障發(fā)生后用戶方工程師與我公司聯(lián)系,經(jīng)過(guò)詳細(xì)咨詢,了解到故障比較嚴(yán)重,必須把RAID-5磁盤陣列帶到我公司進(jìn)行檢測(cè),檢測(cè)RAID-5的每塊成員盤是物理故障(磁頭損壞或者盤片劃傷)還是邏輯故障。由于情況緊急,工程師在接到原盤以后,立即著手準(zhǔn)備檢測(cè)。對(duì)能識(shí)別的好盤用連接到北亞鏡像服務(wù)器上使用WinHex做扇區(qū)級(jí)鏡像,同時(shí)對(duì)不能識(shí)別的壞盤進(jìn)行檢測(cè)。
首先將壞盤連接到外部的SAS擴(kuò)展卡上,加電后通過(guò)硬盤工作聲音判斷硬盤電機(jī)能夠起轉(zhuǎn),但是磁頭沒(méi)有進(jìn)行尋道操作,于是嘗試把硬盤PCB分離下來(lái)對(duì)HDA組件氧化部分進(jìn)行清潔操作,將PCB還原后故障依舊。于是和客戶溝通使用6號(hào)熱備盤的好PCB替換到故障盤上進(jìn)行嘗試性修復(fù),再將故障盤PCB上的ROM芯片替換到6號(hào)盤的好PCB上面后硬盤工作時(shí)起轉(zhuǎn)和磁頭尋道聲音都正常,但是在尋道結(jié)束后,有明顯的敲盤聲音,于是判斷有可能磁頭損壞。在和用戶溝通后嘗試使用6號(hào)熱備盤中的好磁頭對(duì)故障盤進(jìn)行替換操作以讀取數(shù)據(jù)。在無(wú)塵室對(duì)故障盤進(jìn)行開盤更換磁頭操作后,將故障盤連接到專業(yè)硬盤維修工作上進(jìn)行檢測(cè),發(fā)現(xiàn)故障盤已經(jīng)不能識(shí)別,數(shù)據(jù)無(wú)法讀取。
因?yàn)橛脩粲袃蓧K故障盤,之前嘗試修復(fù)的都是其中一塊,再次和客戶溝通嘗試對(duì)另一塊故障盤進(jìn)行修復(fù)操作。和先前的故障盤一樣,這塊盤的故障依舊是磁頭損壞,因?yàn)橛脩舻?/p>
HP OEM盤價(jià)格昂貴,于是嘗試在網(wǎng)上購(gòu)買ST原廠的相同型號(hào)硬盤進(jìn)行磁頭更換。這塊硬盤的磁頭更換完成后,設(shè)備能夠正常識(shí)別硬盤,于是將故障盤所有扇區(qū)完整鏡像到一塊相同容量的備份盤中。
3.重組RAID-5
步驟【判斷起始扇區(qū)】所有硬盤都鏡像好后就可以重組了,用WinHex打開9塊盤(熱備盤不需要加進(jìn)去重組),先把鏡像文件解析成磁盤。可以看到這9塊盤的0扇區(qū)都有“55 AA”標(biāo)志,如圖1所示。
圖1
查找結(jié)果如圖2所示,0x01C2H處表示該分區(qū)的類型,這里顯示“05”,代表這是一個(gè)擴(kuò)展分區(qū)。因此從0扇區(qū)看這是一個(gè)不正常的MBR分區(qū)結(jié)構(gòu)。
圖2
按圖1方式繼續(xù)往下找,分別在9號(hào)盤和8號(hào)盤找到了“55 AA”的標(biāo)志。9號(hào)盤查詢結(jié)果如圖3所示。這是一個(gè)正常的MBR分區(qū),其0x01C6處數(shù)值代表指向的下一個(gè)扇區(qū)為GPT的頭部。
圖3
8號(hào)盤查詢結(jié)果如圖4所示。其0x01C6處數(shù)值代表指向下一個(gè)扇區(qū)。但是下一個(gè)扇區(qū)很明顯不是GPT的頭部。
圖4
由此可以確定9號(hào)盤是第一塊盤,8號(hào)盤可能是最后一塊盤。GPT分區(qū)所在扇區(qū)起始于172032扇區(qū),因此初步確定LUN的起始扇區(qū)是172032扇區(qū)。
【判斷條帶(stripe)大小】條帶也稱塊,它是RAID處理數(shù)據(jù)的基本單元。不同的RAID其條帶大小有所不同。RAID-5的1個(gè)條帶組中有1個(gè)校驗(yàn)區(qū),1個(gè)校驗(yàn)區(qū)的大小等于1個(gè)條帶的大小,根據(jù)這一點(diǎn),針對(duì)這個(gè)RAID-5案例做分析。如果對(duì)VMFS的文件系統(tǒng)不熟悉,可以通過(guò)比較法確定條帶大小。如某一條帶組中的校驗(yàn)區(qū)跟這一條帶組中的非校驗(yàn)區(qū)可能相差的很明顯,通過(guò)WinHex查看并做對(duì)比,就可以找到條帶大小。
本案例判斷出一個(gè)條帶是1024個(gè)扇區(qū)。
【判斷RAID-5成員盤盤序】按照1024扇區(qū)分割,使一個(gè)記錄為一個(gè)條帶的大小,如圖5所示。并且9塊盤跳到同一記錄283123。
圖5
當(dāng)9塊盤都定位到同一位置時(shí),通過(guò)對(duì)比可以判斷校驗(yàn)區(qū)的走向,繼而判斷整個(gè)RAID-5的走向。之前已經(jīng)判斷出9號(hào)盤是第一塊盤了,把9號(hào)盤放在第一個(gè)位置,接著就可以判斷走向了,結(jié)果如圖6所示(drive9是第4塊盤)。確定RAID-5為左走向,盤序?yàn)?,2,3,4,10,1,7,8,5。
圖6
前面內(nèi)容初步確定了LUN的起始扇區(qū)是172032扇區(qū)。用WinHex跳到172032扇區(qū),觀察各硬盤實(shí)際情況。如果172032扇區(qū)是LUN的起始扇區(qū),那么這個(gè)扇區(qū)所屬條帶中的5號(hào)盤應(yīng)該是校驗(yàn)區(qū),但是此條帶中卻顯示8號(hào)盤是檢驗(yàn)區(qū),根據(jù)本案例RAID-5的左走向,5號(hào)盤的校驗(yàn)區(qū)應(yīng)該在172032-1024=171008扇區(qū),即上一個(gè)條帶。跳轉(zhuǎn)到171008扇區(qū),發(fā)現(xiàn)校驗(yàn)區(qū)為5號(hào)盤。因此可以確定LUN的起始扇區(qū)為171008扇區(qū)。
【重組RAID-5】使用專業(yè)恢復(fù)工具按照確定的盤序組好,添加進(jìn)去,如圖7所示。選擇RAID-5,Stripe size 512KB,左異步。
圖7
點(diǎn)擊Build進(jìn)行重組。組好后,由于數(shù)據(jù)從1024*8=8192個(gè)扇區(qū)開始,若專業(yè)恢復(fù)工具沒(méi)有跳轉(zhuǎn)到此扇區(qū)的功能,那么剛組好的RAID必須和一個(gè)文件再進(jìn)行一次Build重組操作。RAID的起始扇區(qū)(Start sectors)選擇8192,這個(gè)文件可以任意選擇起始扇區(qū)和大小大小(Count sectors),如圖8和圖9所示,圖10是組好的RAID-5。
圖8
圖9
圖10
4.移交數(shù)據(jù)
整個(gè)RAID-5就重建好后,由我公司商務(wù)聯(lián)系用戶方驗(yàn)收數(shù)據(jù),用戶方確定數(shù)據(jù)沒(méi)問(wèn)題,簽訂完驗(yàn)收合同后,完整的RAID-5數(shù)據(jù)即可移交。移交時(shí)根據(jù)用戶方要求把數(shù)據(jù)移交到用戶方帶來(lái)的新盤上。恢復(fù)完的數(shù)據(jù)保留在我公司服務(wù)器上3天,之后數(shù)據(jù)自動(dòng)被系統(tǒng)銷毀。
新聞熱點(diǎn)
疑難解答
圖片精選