Node's Baseboard Management Controller (BMC) and/or Chassis Management Controller (CMC) are unresponsive
更新済み
このスレッドはS210, X210, X410, NL410 or HD400 shows event: 'Node's Baseboard Management Controller (BMC) and/or Chassis Management Controller (CMC) are unresponsive を元に作成されています.
環境:OneFS, Isilon, Isilon S210, Isilon X410,Isilon HD400,Isilon NL410,Isilon X210
事象内容:S210, X210, X410, NL410 、HD400のBaseboard Management Controller (BMC) または Chassis Management Controller (CMC) にてNodeが無反応になる。発生時は以下のようなevent (900010011) などのエラーコードが出る。
1.3429 12/15 15:48 C Node's Baseboard Management Controller (BMC) and/or Chassis Management Controller (CMC) are unresponsive. Hardware is no longer being monitored.
Please contact EMC/Isilon support.
BMC /CMC ハードウェアの無反応はバッテリ、センサの表示問題を引き起こし、NodeをUndetectedとして認識させることもある。またNodeはRead Onlyモードになる。
またコマンドがTimeOut になったりWeb UIでの操作が遅くなるといった事象も発生する。
原因:複合的なファームウェアの問題
解決策:BMC/CMC firmwareのアップデートをしても事象が解決しない場合はサポートへの連絡をすること。
OneFS 8.0.0.2 以上であれば Node Firmware Package として可能、他のバージョンではboot table USBからのインストールが可能。
ファームウェアアップデートの早急対策が推奨だがそれができない場合は後述の代替案にて当面をしのぐことは可能。
Step 1 - BMC/CMCのリセット
Note Power Cycle が必要。'shutdown -p now' もしくはWeb UIからの作業。
Node のPower Down が完了したら電源ケーブルを両系で抜き、1分待つ。そのあと電源投入。(Node 背面のPower ボタンを押下)
Step 2 - CMC firmware versionの確認
警告:CMC firmwareの最新版へのアップデートはBMC firmwareの前にすること。CMC firmwareを最新にせずにBMC firmwareだけを最新にするとNodeが立ち上がらない可能性があり。
バージョン確認方法>
OneFS versions 8.0以前
# isi firmware status
OneFS version 8.0 以上
# isi upgrade cluster firmware devices
CMC firmware version が以下よりも古い場合node firmware upgrade がBMC firmwareの前に実行必要
S210 / X410 01.02
HD400 01.04
NL410 00.0b
X210 00.0a
もしすべてのNodeのCMCversionがUpdateされている場合は(上記バージョン以上であること)Step 4へ。
そうでなければStep 3へ
Step 3 - CMC firmware アップデート
CMC versionが最新でない場合はregular node firmware updateで全てのCMC versionをBMC firmwareアップグレードの前に
そろえておくこと。Node Firmware PackageはEMC Support web siteで入手可能。
アップグレードの際は各Nodeでのerror stateをクリアする必要があるので'shutdown -p now'でPower Downしたあと電源コードを1分間抜いて、
Power ボタンでの起動をする事。この方法ができない場合は2回まで同じ方法で起動をしてみる事。(詳しい事はKB 477066で確認)
firmwareがすべてのNodeにインストールされたら BMC firmware.のアップグレード。
Step 4 - BMC firmware versionの確認:
以下のコマンドで BMCの確認: (Note:BMCの疎通かくにんはこのコマンドのみ。もしBMCからの反応が無い場合は step 1へ戻る)
#/usr/bin/isi_hwtools/isi_ipmicmc -d -V -a bmc | grep firmware
(バージョンが1.25より古い場合はBMCのアップグレードが必要)
Step 5 - BMC firmwareのアップグレード
OneFS 8.0.0.2もしくはそれ以上のバージョンであれば node firmware package でアップグレードが可能。またUSB stickでのアップグレードも可能。
これは他のバージョンでも実行可能。
Step 5a: OneFS 8.0.0.2 もしくはそれ以上のバージョンならStep 5bへ
その他は以下の方法
1) インストールされたnode firmware packageの確認
# isi upgrade firmware package
'No firmware images available', であれば次のステップは割愛
2) firmware packageがあった場合は以下のコマンドでアンインストール
# isi upgrade patches uninstall
3) BMC node firmware packageのダウンロード。 /ifs/data directory へ格納
4) BMC node firmware package のインストール
# isi upgrade patches install /ifs/data/IsiFw_Package_BMC_v1.0.tar?
5) インストールがすんだらクラスター内のBMC firmwareのアップグレード。
# isi upgrade cluster firmware start
6) BMC firmware updateが終了したら BMC firmware update packageをuninstall
# isi upgrade patches uninstall IsiFw_Package_BMC_v1.0.tar?
Step 5
該当のNodeのBMC firmwareをUSB firmware stick image でアップデート。.
注意: このアップデートプロセスはNode リブートが必要です。アップデートが終了するまでNodeは
オフラインになります。そしてFail Over 設定がされていればNFSコネクションはフェイルオーバします。
またアップデートが始まると接続クライアントへの接続は切れますので一度に数Nodeでのアップデートは推奨しません。
1) KB 323035を参考にしてUSBへイメージをダウンロード.
2) Nodeのserial console へ接続、ログインし、 'shutdown -p now' でNode のシャットダウン。もしNodeがシャットダウンせずにリブートした場合はBootを待ち再度
HutDownコマンド発行。2回目でShutDownしない場合はサポートへ相談
3) Nodeのシャットダウンが成功したら USB stick を nodeへ、そしてPower ボタンにて電源投入。 node のpower-on self test (POST)画終了したら
以下が表示される。
This utility will update the BMC firmware on the following Intel products to firmware version 01.25.9722:
- Intel(R) Server Board S2600CP
- Intel(R) Server Board S1400FP
Do NOT reboot the node during the update process. The update completed
successfully if the following message is displayed:
BMC update completed.
==========================================================================
Enter 'q' to quit, any other key to continue:
4) BMC firmware update のスタートでは, プロンプトでpress any key (Q以外) する。アップデートのプロセスをキャンセルするのであればQ .
アップデートが正常終了した場合は以下の表示二なる。
BMC update completed.
Please remove the USB key and reset the node using power button.
5) 上記メッセージが出たら、power button にてNodeのPower Off をする。そしてUSBをぬいてpower button で電源オン。
NodeがClusterに認識されたことを確認して新しいFirmware の確認。
# /usr/bin/isi_hwtools/isi_ipmicmc -d -V -a bmc | grep firmware
BMC firmware のアップデートが成功していれば以下表示される
IPMI firmware version = 01.25
追加のNodeでのアップグレードが必要な場合はインストラクション2の5bを確認
Step 6 - イベントのクリア
該当Nodeが通常起動状態で、ファームウェアもアップデートされたら残っているイベントのクリアが可能。
になったらOnce all currently affected nodes are back in a normal operating state and the node firmware has been updated on the cluster,
# isi events ls
# isi events cancel
event historyのクリアは以下
# isi events quiet
注意: BMC/CMC firmwareのアップデートをしても事象が収束しない場合はサポートへ連絡すること
上記の手順でのBMC firmware ができない場合は以下で代用可能
- BMC/CMC reset patch のインストール
- OneFS: ?OneFS 7.1.1.0 - 7.1.1.9: patch-169250
- OneFS 7.2.0.0 - 7.2.0.5: patch-169527
- OneFS 7.2.1.0 - 7.2.1.2: patch-169252
- OneFS 8.0.0.0: patch-169253
このパッチはあくまで回避策(BMC/CMCアップグレード)
- BMC/CMC hardwareの不用意な負荷は避けること
事象はBMC/CMC へのquery activity負荷によっておこることが多く。情報収集過多もその原因の可能性はあり(Webからのisi_gather_info採取など)
.また外部モニタリング機能もその影響を担う可能性もあるので注意(SNMP・PAPI. など)
注意
KB 477066 ('Node fails to boot with multiple errors including 'This system has 0 formatted boot disk.' and 'UnbootableBootdiskException: 5'.)ではこの事象の様々な症状を紹介
詳細な手順を示した解決策については、EMCサポート ソリューション(https://support.emc.com/kb/466373)を参照してください。