圣誕節(jié)就快來臨了,在IT人員的愿望清單里,可靠的服務(wù)器必不可少。隨著虛擬化技術(shù)的出現(xiàn),一臺(tái)物理服務(wù)器承載了幾十個(gè)工作負(fù)載,對(duì)可靠性的需求就更加強(qiáng)烈,因?yàn)橛布收吓c失敗的遷移都會(huì)導(dǎo)致服務(wù)器崩潰,那就麻煩了。
與服務(wù)器可靠性相關(guān)的技術(shù),如冗余電源供應(yīng)、內(nèi)存錯(cuò)誤監(jiān)測(cè)與糾正都進(jìn)行得有點(diǎn)慢。需要識(shí)別、容納與解決故障條件的協(xié)議與行為花費(fèi)太昂貴,而且橫跨所有層的交互操作并沒有廣泛的實(shí)施標(biāo)準(zhǔn)。本文介紹一些最新的工具,方便IT人士打造可靠的服務(wù)器。
存儲(chǔ)子系統(tǒng)可靠性
檢查奇偶校驗(yàn)位與錯(cuò)誤糾正碼ECC的技術(shù)可追溯到十多年前,較新的內(nèi)存熱備份與鏡像都也比較完善。當(dāng)然,隨著內(nèi)存數(shù)量與其重要性在服務(wù)器中伴隨著虛擬化蹭蹭上升,我們需要更強(qiáng)悍的內(nèi)存控制技術(shù)。
請(qǐng)求與巡視清除是ECC內(nèi)存的高級(jí)應(yīng)用。在請(qǐng)求清除中,系統(tǒng)可在運(yùn)行期間糾正隨機(jī)或偶然的ECC閱讀錯(cuò)誤。巡視清除可積極主動(dòng)地定位并糾結(jié)系統(tǒng)內(nèi)存中的錯(cuò)誤。如果這些行動(dòng)對(duì)于修復(fù)內(nèi)存錯(cuò)誤還不管用,那么就意味著永久性故障。潛在的永久性故障觸發(fā)彈性功能,如使用鏡像內(nèi)存模式拖拽數(shù)據(jù)。有些系統(tǒng)會(huì)將失敗位置打上標(biāo)簽,防止今后使用有問題的內(nèi)存。
EEC只能在任何內(nèi)存位置上糾正單位錯(cuò)誤,如果是其他高級(jí)錯(cuò)誤就得用上其他技術(shù)。如單臺(tái)設(shè)備數(shù)據(jù)糾正器SDDC或高級(jí)ECC,其結(jié)合ECC模式在單個(gè)內(nèi)存芯片里糾正多位內(nèi)存錯(cuò)誤。通過比較,雙設(shè)備數(shù)據(jù)糾正器DDDC可讓服務(wù)器抵御兩個(gè)內(nèi)存芯片上同時(shí)發(fā)生的多位錯(cuò)誤。增強(qiáng)型的DDDC或DDDC+1能在此基礎(chǔ)上發(fā)現(xiàn)并糾正額外的單位錯(cuò)誤。這些技術(shù)解決了范圍更廣的內(nèi)存小故障,預(yù)防共工作負(fù)載崩潰。
內(nèi)存鏡像通過提供DIMM保護(hù)內(nèi)存,對(duì)內(nèi)存內(nèi)容進(jìn)行同步化的復(fù)制。當(dāng)監(jiān)測(cè)到有內(nèi)存故障,系統(tǒng)交換到鏡像副本,直到替換出故障的DIMM.市面上的新款服務(wù)器支持局部?jī)?nèi)存鏡像:只對(duì)任務(wù)關(guān)鍵工作負(fù)載所用服務(wù)器部分內(nèi)存進(jìn)行鏡像。顯然,這是降低成本的一種方式。
處理器子系統(tǒng)可靠性
服務(wù)器可靠性最大的威脅是在于當(dāng)內(nèi)存或處理器故障傳達(dá)到系統(tǒng),并且在工作負(fù)載之間傳遞。數(shù)據(jù)遏制模式識(shí)別一個(gè)或多個(gè)內(nèi)存位置有錯(cuò)誤,預(yù)防其他進(jìn)程繼續(xù)使用。例如在發(fā)生不可糾正錯(cuò)誤時(shí),過濾模式阻止系統(tǒng)將網(wǎng)絡(luò)數(shù)據(jù)移動(dòng)到PCIe總線,隔離服務(wù)器,阻止任何意外的網(wǎng)絡(luò)數(shù)據(jù)傳輸?shù)接脩艋蚱渌?wù)器那去。
服務(wù)器使用處理器清除,將工作負(fù)載從有錯(cuò)的處理器核心無縫遷移到空閑的核心。有錯(cuò)的處理器就一直空閑著,直到解決了錯(cuò)誤問題。至于內(nèi)存清除,處理器清除只能在你的服務(wù)器有空余核心時(shí)才能發(fā)揮效用,所以對(duì)于利用率高的主機(jī)來說不太方便,因?yàn)闊o法忍受宕機(jī)時(shí)間。如果你的服務(wù)器使用插座禁用功能,它甚至可以啟動(dòng)一個(gè)有故障的處理器。
可靠性服務(wù)器的其他功能
過去,服務(wù)器故障會(huì)導(dǎo)致關(guān)閉整個(gè)系統(tǒng),修復(fù)有錯(cuò)的設(shè)備。某些服務(wù)器現(xiàn)在包括熱添加或熱插拔功能,所有在服務(wù)器運(yùn)行期間,有相關(guān)技術(shù)能升級(jí)或替換核心組件,如CPU、DIMM、PCIe卡等。
熱添加是電氣工程的、BIOS和操作系統(tǒng)智能的結(jié)晶。某些操作系統(tǒng),如Windows Server 2008 R2、Red Hat Enterprise Linux 6與SUSE Linux Enterprise Server 11,可在服務(wù)器運(yùn)行期間識(shí)別新資源并加以配置。
新聞熱點(diǎn)
疑難解答
圖片精選