RAID 卡溫度及風扇轉速調節
前言
本文討論RAID卡溫度以及潛在的影響。
檢視RAID卡的溫度
root@scanode1s:~# storcli64 /c0 show all |grep -i temp Support Temperature = Yes Temperature Sensor for ROC = Present Temperature Sensor for Controller = Absent ROC temperature(Degree Celsius) = 54 Model State Temp Mode MfgDate Next Learn root@scanode1s:~#
其中ROC temperature 即是我們需要關心的溫度。一般來講,該溫度的合理值55攝氏度附近。目前空調狀態不太好的機房,可能也會漲到60~80攝氏度。
如果R OC Temperature溫度超過105攝氏度,從RAID卡的角度,你就會看到如下類似的日誌:
WARNING:Controller temperature threshold exceeded. This may indicate inadequate system cooling, switch to low performace mode.
這種比較可怕,可能會出現大面積掉盤的情況。我們曾遇到客戶,冬季客戶主動把機房的空調關掉了,結果很快就有盤從RAID組中離線,RAID變成Degrade的情況。
因此,對於一個伺服器而言,實時監控RAID卡的散熱情況,也是非常重要的。
影響RAID溫度的要素
RAID卡溫度的要素,無非有如下幾個要素
- 機房溫度
- 風扇轉速
- 磁碟業務壓力
- RAID組內的一致性檢查等帶來磁碟I/O的行為
注意,計算機房溫度高,風扇有問題等問題存在,但是如果沒有任何磁碟I/O基本上也不會導致RAID溫度過好。我們遇到的多次RAID卡溫度過高,都是糟糕的散熱條件,遇到了較高的業務壓力,又碰上了一致性檢查,多個條件一起作用,終於RAID卡溫度飆高不下。
如果發現機房的散熱條件不好,或者機器老化等要素,可以針對性地調整一致性檢查的速度和模式
- 調整一致性檢查的模式從ModeConc改成ModeSeq,串型模式
- 調整CCRate從預設的30,調整成15
- 一致性檢查的時間,可以調整成夜間12點這種業務和溫度比較低的時間。
風扇轉速
我們以超微主機板為例,風扇有相關的執行模式 Fan Mode:
- Standard Speed
- Full Speed
- Optimal Speed
- HeavyIO Speed
風扇按照控制區域來分,分成兩類:
-
CPU or system Fans,一般被標記成 FAN0 FAN1 FAN2 ,命名方式為FAN+數字,這部分為Zone 0
-
Peripheral zone Fans, 一般被命名為FANA FANB FANC,明明方式為FAN+字母,這部分為Zone 1
-
上面提到的四種模式:
- Standard: BMC 同時控制兩個zone, with CPU Zone base CPU temp(target speed 50%),and Peripheral zone based on PCH temp (with target speed 50%)
- Optimal: BMC Control of the CPU zone (target speed 30%),with Peripheral zone fixed at low speed (fixed ~30%)
- Full: all Fans running at 100%
- HeavyIO : BMC control both CPU zone (target speed 50%) and Peripheral zone fixed at 75%
如果像儲存伺服器這種,Optimal肯定是不合適了,Full的話也不太合適,因為太吵,可選的就是兩個,Standard和HeavyIO。如果保守起見,可以選擇Heavy IO,防止散熱不好的情況下,RA ID卡溫度過高。
如何調整風扇轉速和模式
調整風扇模式
我們以全速模式為例,如何講風扇調整為全速模式:
ipmitool 0x30 0x45 0x01 0x01
注意倒數第二個0x01表示的是Zone:
- 0x00 表示的是zone 0, 即負責CPU zone的風扇
- 0x01 表示的是zone 1
最後一個0x01 表示的是模式:
- standard :0
- Full: 1
- Optimal: 2
- HeavyIO:4
我們故意做個測試,來看下將風扇模式調整成Full的效果:
調整成Full模式之後,很快的時間內溫度就下降下來了。
調整轉速
Full模式雖然開心,效果明顯,但是很明顯噪音很大。所以100%的風扇轉速雖然爽,但是忍受不了噪音。那如何處理?
ipmitool raw 0x30 0x70 0x66 0x01 0x<z> 0x<n>
z的合法值為0 和1 ,其中0表示Zone 0, 1 表示Zone 1.
n的合法值是從0x00 到0x64 ,即從0%到100%。
比如說我們覺得Full模式的100%太吵,Heavy IO模式的75%效果雖然不錯,但是也太吵,我們可以將Zone1的百分比調整成60%。
ipmitool raw 0x30 0x70 0x66 0x01 0x1 0x3C
總結
下面總結是對於儲存伺服器而言的,並非針對所有應用場景
- RAID卡的溫度要實時監測,確保執行穩定
- 風扇模式有4種,Full和Optimal都不可取,Standard和Heavy IO可以選擇
- 對於轉速不滿意的,可以通過ipmitool 指令調節轉速,使其在合理範圍內調節。