Isilon OneFS 7.x: Nodeの稼働時間が497日間になると、nvme driverのタイムアウトエラーが表示され、Panicによる再起動が発生する可能性があります

対象製品: Isilon OneFS 7.1, Isilon OneFS 7.2, Isilon OneFS 7.0

対象Node Type: GEN5 S210, X210, X410, NL410, HD400

 

事象:

Isilon OneFS 7.xバージョンの問題により、497日間連続稼働しているノードでノードパニックにより再起動が発生する可能性があります。

node internal central processing unit (CPU) clockで複数のノードが同時にこの閾値に到達すると、クラスタ内の多くの、または

全てのノードが同時にパニックにより再起動し、データを一時的に使用できなくなる可能性があります。

 

発生エラーメッセージ例:

nvme driver timed out waiting for device: EMC 2GB NVRAM (LOx) after 30 seconds

 

注:

497日間経って本事象が発生しない場合でも、 994日、1491日後に同事象が発生する可能性があります。

 

原因:

nvme timeout check機能が、誤ってNVMe(non-volatile memory express)timeout宣言をする場合があります。

timeoutが発生すると、ノードパニックにより再起動します。

 

対処:

OneFS 8.0または8.1への早急なアップグレードが推奨されます。

upgradeによる対処が出来ない場合のworkaroundは以下の通りです。

 

Workaround:

以下コマンドを実行し、Nodeの起動時間を確認してください。

# isi_for_array -s "uptime"

 

コマンド出力結果の例は、以下の通りです。

cluster-1: 12:17PM  up 14 day, 23:31, 0 users, load averages: 1.28, 0.97, 1.03

cluster-2: 12:17PM  up 14 day, 23:31, 1 user, load averages: 0.55, 0.98, 1.11

cluster-3: 12:17PM  up 14 day, 23:31, 0 users, load averages: 1.43, 1.20, 1.13

 

クラスタ内のいずれかのNodeの稼働時間が497日に近づいている場合は、対象Nodeの再起動による事象回避をご検討ください。

 

単一Nodeの再起動を実施するには、対象NodeにSSHでログイン後、以下コマンドを実行してください。

 

# reboot

 

クラスタ全体ではなく、複数Nodeの再起動が必要な場合は、同コマンドを1台ずつ実行してください。

纏めて複数Nodeで再起動を行うと、複数のNodeが同時にoff-lineとなり、一時的にデータ使用が出来なくなるため、

一度に一台ずつ実行し、再起動を行ったNodeがクラスタにjoinした事を確認した後、次のNodeの再起動を実行してください。

 

クラスタ全体(全Node)の再起動が必要な場合や、メンテナンス作業により一時的なデータ使用不可に問題がない場合等で、

同時に再起動を実行したい場合は、以下コマンドをご利用ください。

 

# isi_for_array reboot

 

* 本内容は、KB 525831を日本語に訳したものです。Source情報は以下をご参照ください。

 

Source: KB 525831

Isilon OneFS 7.x: Nodes that have run for 497 consecutive days may display nvme driver time out error, followed by panic and reboot

https://support.emc.com/kb/525831