使用、功能與設(shè)置選項(xiàng)不斷演變,所以數(shù)據(jù)中心硬件經(jīng)理需要知曉當(dāng)今服務(wù)器內(nèi)存的類型以及它們?nèi)绾斡绊懹?jì)算。
保障服務(wù)器可靠性
內(nèi)存存儲(chǔ)著每個(gè)虛擬機(jī)的鏡像與數(shù)據(jù),所以內(nèi)存的可靠性對(duì)企業(yè)服務(wù)器來說尤其重要。如果內(nèi)存故障,很可能導(dǎo)致該內(nèi)存中虛擬機(jī)奔潰,造成數(shù)據(jù)丟失或更嚴(yán)重的服務(wù)器故障。不同類型服務(wù)器內(nèi)存可以在緩解內(nèi)存故障上起到不同效果。
錯(cuò)誤校正碼(ECC)是一種已知技術(shù),用于定位與校正內(nèi)存內(nèi)容中的錯(cuò)誤。ECC采用某種算法來存儲(chǔ)內(nèi)存中一定量的數(shù)據(jù),如單64位內(nèi)存地址,接著為數(shù)據(jù)計(jì)算一個(gè)代碼,將代碼放入某個(gè)保留內(nèi)存空間。當(dāng)服務(wù)器讀取內(nèi)存內(nèi)容,并計(jì)算出一個(gè)ECC,再將其與內(nèi)存中的ECC相比較。如果兩者匹配,則被認(rèn)為是有效。如果不匹配,則ECC算法會(huì)檢測那個(gè)比特是錯(cuò)誤的并修改之。ECC檢測不能修復(fù)雙位錯(cuò)誤。
高級(jí)ECC通過分配多個(gè)獨(dú)立的ECC設(shè)備,而不是單個(gè)進(jìn)行內(nèi)存讀取,擴(kuò)展了ECC機(jī)制。高級(jí)ECC可以糾正單位與雙位錯(cuò)誤并檢測內(nèi)存設(shè)備故障。
單設(shè)備錯(cuò)誤校正(SDDC)采用混合ECC結(jié)構(gòu)檢測并修正多位錯(cuò)誤,最多支持4比特;該技術(shù)同樣能夠確認(rèn)并關(guān)閉雙列直插存儲(chǔ)器模塊(DIMM)上失效的內(nèi)存芯片 。SDDC可以從服務(wù)器內(nèi)存映射中移除失效芯片或整個(gè)內(nèi)存模塊,讓服務(wù)器通過備用模塊恢復(fù)內(nèi)存內(nèi)容。高端服務(wù)器制造商采用交易標(biāo)簽來識(shí)別、關(guān)閉與恢復(fù)內(nèi)存故障管理,如IBM的Chipkill,Hewlett Packard Enterprise的Advanced ECC與Chipspare,還有基于Intel的鎖步內(nèi)存。
某些服務(wù)器內(nèi)存類型會(huì)犧牲性能來保護(hù)內(nèi)存完整性。配置為高可靠性的服務(wù)器,會(huì)試圖對(duì)一些相關(guān)聯(lián)的故障進(jìn)行處理,如總線頻率(速度)、溫度、電壓水平和內(nèi)存刷新率等。服務(wù)器會(huì)降低頻率與電壓,從而降低內(nèi)存組件的壓力,熱損耗和故障率。
如果你正計(jì)劃更新數(shù)據(jù)中心服務(wù)器,會(huì)發(fā)現(xiàn)有更多的服務(wù)器內(nèi)存選項(xiàng)可用,現(xiàn)在的內(nèi)存模塊使用串行存在檢測(SPD)空間,來記錄每個(gè)模塊可校正的內(nèi)存錯(cuò)誤數(shù)量與位置。SPD跟蹤錯(cuò)誤率并尋找可能出現(xiàn)可修正錯(cuò)誤急劇增加的模塊。技術(shù)人員可以據(jù)此先發(fā)制人,如內(nèi)存熱備或?qū)⒐ぷ髫?fù)載遷移至其他服務(wù)器,然后更換有問題的DIMM。相似的技術(shù),如內(nèi)存頁退役,跟蹤可恢復(fù)的內(nèi)存錯(cuò)誤到內(nèi)存頁或區(qū)域。一旦發(fā)現(xiàn)可校正錯(cuò)誤變得過大,系統(tǒng)會(huì)將受災(zāi)頁面退休并禁止使用,直到問題內(nèi)存模塊被更換。
服務(wù)器內(nèi)存在性能中的角色
數(shù)據(jù)中心硬件采購者為了獲取最佳內(nèi)存與系統(tǒng)性能,應(yīng)該為每個(gè)DIMM通道購買相同區(qū)塊、容量和速度的內(nèi)存。如果DIMM容量不同時(shí),需要確保所有DIMM兼容相同的區(qū)塊與速度,而且所有通道都采用相同大小的組合。每個(gè)可用通道都應(yīng)該在相同位置安裝邏輯唯一的DIMM。
要理解服務(wù)器級(jí)的內(nèi)存配置,最好是理解內(nèi)存的幾何形狀與特征。區(qū)塊通常是與DIMM的內(nèi)存芯片組織方式與如何實(shí)現(xiàn)硬件層交互有關(guān)。例如,一塊擁有8個(gè)8位芯片的DIMM,擁有一個(gè)區(qū)塊,而一塊在雙面都擁有8個(gè)芯片的DIMM則擁有兩個(gè)區(qū)塊。
內(nèi)存模塊容量直接與構(gòu)成模塊的內(nèi)存芯片有關(guān)。容量通常被以芯片深度x芯片寬度x區(qū)塊數(shù)方式進(jìn)行標(biāo)注。例如,擁有4個(gè)區(qū)塊的128Mbit x 16位芯片,具有的總內(nèi)存容量為128 x 16 x 4 = 8,192 Mbits或1GB內(nèi)存容量。DIMM被組織到通道中,并通過服務(wù)器內(nèi)存管理器管理。
DIMM同樣可以通過速度來分類:總線連接內(nèi)存與處理器的時(shí)鐘率。安裝了DDR4 DIMM的最新企業(yè)級(jí)服務(wù)器創(chuàng)下了每秒1866 - 2133百萬次數(shù)據(jù)傳輸(MT/s)的記錄,與此同時(shí)采用較舊的DDR3 DIMM內(nèi)存的服務(wù)器最高只能達(dá)到1600MT/s或1333MT/s。
服務(wù)器處理器必須支持所需的內(nèi)存頻率。舊的或更廉價(jià)的服務(wù)器內(nèi)存類型可能限制了內(nèi)存以較低的頻率運(yùn)行,影響性能。
并不是越多越好
增加服務(wù)器內(nèi)存容量可以簡單增加更多的DIMM,但過多的DIMM可能會(huì)降低頻率進(jìn)而影響性能。例如,裝有兩個(gè)DIMM的服務(wù)器,速度可達(dá)2133MT/s,但如果再增加一根,速度會(huì)降低為1866MT/s。建議采用較少的DIMM,而使用更大容量的內(nèi)存。低負(fù)載DIMM能夠提供最大的容量與性能。
如果服務(wù)器支持,就選擇彈性內(nèi)存取代高級(jí)ECC。高級(jí)ECC會(huì)捆綁多個(gè)內(nèi)存通道主機(jī)控制器來支持SDDC大數(shù)據(jù)帶寬(x8)內(nèi)存芯片。某些情況下,一些通道可能無法使用,而且無法被填充。多內(nèi)存控制器之間交互也同樣會(huì)阻礙內(nèi)存性能。諸如Dell PowerEdge R710提供了另一種優(yōu)化模式,以支持獨(dú)立運(yùn)行所有內(nèi)存通道和內(nèi)存控制器,但這樣可能會(huì)限制內(nèi)存集合不大于x4。
為提升數(shù)據(jù)中心技術(shù)并支持更多并發(fā)虛擬機(jī),服務(wù)器買家需要理解這些方法以提高內(nèi)存設(shè)備性能。
ot articles