VNX障害時の影響

製品:

VNXシリーズ

 

説明:

VNX障害発生時の影響に対する簡易説明

 

※作業時間(目安)については全ての処理が円滑に進んだ場合の目安の時間であることについてご了承ください

※作業時間(目安)には事前準備、事後処理の時間は含まれていません(特に事前準備に必要な時間はお客様環境[データセンタ環境]により大きく異なります)

※それぞれの障害部位の単体障害を想定して書かれているものであり、複合障害時には当てはまるものではありません

 

最終更新日:2018年9月4日

 

解決策:

 

SPE(ストレージ・アレイ・エンクロージャ)冗長化構成数量デグレード作業時間(目安)障害時の業務影響交換時の業務影響

SP(Storage Processor)

 

注*(下記参照)

二重化2Path切れ1時間

なし(代替Pathを使用し業務は継続)

  • SP交換時トレスパスが発生するためにpowermt restoreコマンドにてパスの復旧が必要となる可能性あり
  • R31.008(2011年5月7日リリース)以前の古いBlock OEコードを利用している場合のみSP片系運用中にライトキャッシュが無効になる(【参考】OEコードの確認方法:VNX/VNX2 Blockバージョン確認方法
パワーサプライ/システム冷却モジュール(電源/冷却モジュール)

二重化

4

(SP×2)

なし30分なし(SP毎に2個のモジュールを実装しており、それぞれのSPに1個までの障害を許容)なし

注*VNX2 シリーズではSP ( Storage Processor )の事をCPU モジュールと呼ぶ時もあります。

 

SP(Storage Processor)冗長化構成数量デグレード作業時間(目安)障害時の業務影響交換時の業務影響
Cache Memory--なし1.5時間なし(代替Pathを使用し業務は継続)

SP交換が必要

  • SP交換時トレスパスが発生するためにpowermt restoreコマンドにてパスの復旧が必要となる可能性あり
  • R31.008(2011年5月7日リリース)以前の古いBlock OEコードを利用している場合のみSP片系運用中にライトキャッシュが無効になる(【参考】OEコードの確認方法:VNX/VNX2 Blockバージョン確認方法
SFP(Small Form-Factor Pluggable)--Path切れ30分なし(代替Pathを使用し業務は継続)当該SFP Port Dead
I/Oモジュール--Path切れ30分なし(代替Pathを使用し業務は継続)
  • 当該I/O Port Dead
  • 交換時に該当SPのシャットダウンが必要
ベースモジュールPath切れ1時間なし(代替SPを使用し業務は継続)

 

DAE(ディスクアレイエンクロージャ)冗長化構成数量デグレード作業時間(目安)障害時の業務影響交換時の業務影響
ディスク エンクロージャ--なし2時間障害の状況による当該エンクロージャ内のRAIDグループ(LUN)がオフライン
ディスク ドライブ冗長化-なし1時間なしなし(交換後コピーバックを実施)
LCC(Link Control Card)二重化なし30分なし場合によってはSPシャットダウンあり(注*)
パワー サプライ(電源モジュール)二重化なし30分なしなし

 

(注*)該当LCCの経路上にFAST CacheがVertically boundされたRaid Groupが構成されている場合に限り、SPをシャットダウンする必要あり。336092 : Replace LCC on a enclosure that  has Fast Cache drivehttps://support.emc.com/kb/336092 )

 

DME(データムーバエンクロージャ)冗長化構成数量デグレード作業時間(目安)障害時の業務影響交換時の業務影響
データムーバ エンクロージャ--なし2時間障害の状況によるエンクロージャはオフラインでの交換が必要
データムーバ CPUモジュール(BLADE)冗長化-なし1時間
データムーバ メモリ二重化

2(DME毎)

なし
パワーサプライ/システム冷却モジュール(電源/冷却モジュール)二重化

 

CS(コントロールステーション)冗長化構成数量デグレード作業時間(目安)障害時の業務影響交換時の業務影響
コントロールステーション二重化(Dual構成の場合)2なし3~5時間障害の影響による(詳細はリンク先を参照願います)

 

SPS(バッテリー)冗長化構成数量デグレード作業時間(目安)障害時の業務影響交換時の業務影響
スタンバイパワーサプライ(バッテリー)二重化

2(システム全体)

なし1時間なしなし(交換後バッテリーのリチャージ処理が起動)

 

 

全体図

 

Blockコンポーネント

VNX-block.png

 

Blockコンポーネント番号

VNX-components.png

 

Blockコンポーネント論理構成図

VNX-block-logicdg.png

 

 

Fileコンポーネント

VNX-Unified-file.png

 

Fileコンポーネント論理構成図

VNX-file-logicdg.png

 

 

Control Station障害

 

正面図

CS.png

 

障害部位Control Station
役割DataMoverの管理と監視、およびバックエンドストレージへ管理インターフェースの提供を行う。またEMCリモート環境からのリモート接続、EMCへのオートコール、オンサイト時のローカル接続を提供する
冗長構成デュアルControl Stationにより冗長化可能
影響詳細

業務データIOの制御は行わないために、業務に影響はない ※業務データIOの制御を行うのはDataMover

サーバ(クライアント側)出力メッセージネットワーク監視を実施している場合、Control Station及びStorage ProcessorのLink downメッセージを検知する可能性あり
障害時の状況特になし。しかしながらスケジュールスナップショットの作成を行っている場合やcronを動かしている場合には、障害時のスナップショット作成、cron処理は出来ない(スキップされる)
対処方法Control Station交換
交換条件特になし ※オンライン交換可能
交換時の影響交換完了まで影響の変化はない
交換時のオペレーションControl Stationの初期構築、リモート接続テスト、オートコールテスト

 

 

Storage Processor障害 (VNX2 シリーズではCPUモジュールとも言う)

 

背面図(VNX5300/5500)

SP-5300.png

背面図(VNX5400/5600)

SP-5400.png

障害部位Storage Processor
役割Diskアクセス(ステージング/ デステージング処理、プリフェッチ処理など)、サーバアクセス(IO要求受け付け、キャッシュ検索、ステータス返答など)の制御を行うコントローラ
冗長構成二重化
影響詳細
  • 該当Storage Processorが停止することで管理しているLUNが片系のStorage Processorに切り替わる(Trespass)が、パス管理ソフトウェアによりパスの切り替わりも行われるために、業務継続可能
  • 該当Storage Processorと接続しているSPSのステータス監視が不可能
  • 該当Storage Processorに対して実行している運用JOBがある場合は、JOBがABENDする可能性有り
  • 負荷の状況によりIO遅延が発生する可能性有り
サーバ側出力メッセージ
  • データアクセス瞬断によるリカバリ系のメッセージ出力
  • パス管理ソフトウェアによるリカバリー系のメッセージ出力の可能性
  • 運用JOBがABENDした旨のメッセージ出力の可能性
障害時の状況該当Storage Processorが管理するFront End、Back Endが停止し、片系Storage ProcessorへのLUNの管理切り替わりが発生、サーバ側でパス管理ソフトウェアによるパスの切り替わりが発生
対処方法Storage Processor交換
交換条件該当Storage Processorが停止していること
交換時の影響障害発生時に既に片系のStorage Processorに処理が切り替わっているため、影響の変化はない
交換後のオペレーションサーバ側のパス管理ソフトウェアの設定が手動復旧設定の場合のみ、パス管理ソフトウェアより該当Storage Processor上のFront End IO Moduleへのパス戻し

 

 

キャッシュメモリ障害

 

VNX5300(メモリ2枚)、VNX5500(メモリ3枚)

cache5300.png

 

VNX5400(メモリ4枚)、VNX5600(メモリ8枚)

cache5600.png

 

障害部位キャッシュメモリ
役割高速記憶装置(キャッシュ)で、頻繁に使用するデータを一時的に保存しサーバからのIO要求に対して処理を高速化する
冗長構成二重化
影響詳細
  • 該当Storage Processorが停止することで管理しているLUNが片系のStorage Processorに切り替わる(Trespass)が、パス管理ソフトウェアによりパスの切り替わりも行われるために、業務継続可能
  • 該当Storage Processorと接続しているSPSのステータス監視が不可能
  • 該当Storage Processorに対して実行している運用JOBがある場合は、JOBがABENDする可能性有り
  • 負荷の状況によりIO遅延が発生する可能性有り
サーバ側出力メッセージ
  • データアクセス瞬断によるリカバリ系のメッセージ出力
  • パス管理ソフトウェアによるリカバリー系のメッセージ出力の可能性
  • 運用JOBがABENDした旨のメッセージ出力の可能性
障害時の状況

該当キャッシュメモリが搭載されたStorage Processorが停止することで、片系Storage ProcessorへのLUNの管理切り替わりが発生、サーバ側でパス管理ソフトウェアによって、パスの切り替わりが発生

対処方法キャッシュメモリ交換
交換条件該当Storage Processorが停止していること
交換時の影響障害発生時に既に片系のStorage Processorに処理が切り替わっているため、影響の変化はない
交換後のオペレーションサーバ側のパス管理ソフトウェアの設定が手動復旧設定の場合のみ、パス管理ソフトウェアより該当Storage Processor上のFront End IO Moduleへのパス戻し

 

 

Front End IO Module障害

 

frontendiomodule.png

 

障害部位Front End IO Module
役割サーバとStorage Processor間の接続性を提供する
冗長構成二重化
影響詳細
  • サーバ側のパス管理ソフトウェアによりパスの切り替わりが行われるために、業務継続可能
  • 負荷の状況によりIO遅延が発生する可能性有り
サーバ側出力メッセージパス管理ソフトウェアによる、リカバリー系のメッセージ出力の可能性
障害時の状況パス管理ソフトウェアによって、パスの切り替わりが発生
対応方法FE IO Module交換
交換条件該当FE IO Moduleが搭載されたStorage Processorが停止していること
交換時の影響交換時に停止を行うStorage Processorに他のFront End IO Moduleが動作している場合には、そのFront End IO Moduleを利用しているサーバに対する処理がもう片方のStorage Processorに切り替わり、上記「影響詳細」に記載されている事象が発生
交換後のオペレーションサーバ側のパス管理ソフトウェアの設定が手動復旧設定の場合のみ、パス管理ソフトウェアより該当Storage Processor上のFront End IO Moduleへのパス戻し

 

 

SFP(Small Form-Factor for Pluggable) Module障害

 

sfp.png

障害部位SFP(Small Form-Factor for Pluggable) Module

役割

Front End IO ModuleとFCケーブルの間で電気信号と光信号を変換するトランシーバで、サーバとVNXとのデータ通信を可能とする
冗長構成あり(サーバからのパス本数分の冗長化)
影響詳細
  • サーバ側のパス管理ソフトウェアにより適切なパスの切り替わりが行われるために、業務継続可能
  • 負荷の状況によりIO遅延が発生する可能性有り
サーバ側出力メッセージパス管理ソフトウェアによる、リカバリー系のメッセージ出力の可能性
障害時の状況該当SFP Moduleの1portがLink Down
対応方法SFP Module交換
交換条件特になし ※オンライン交換可能
交換時の影響障害発生時に該当portへのパスが閉塞が発生しているため、影響の変化はない
交換後のオペレーションサーバ側のパス管理ソフトウェアの設定が手動復旧設定の場合のみ、パス管理ソフトウェアより該当Storage Processor上のFront End IO Moduleへのパス戻し

 

 

 

Power Supply(Disk Processor Enclosure)障害

 

背面図(VNX5300/5500)

ps5300.png

背面図(VNX5400/5600)

ps5400.png

障害部位Power Supply (DPE)
役割Disk Processor Enclosureに電源を供給、およびStorage Processor内部を冷却する
冗長構成二重化
影響詳細冗長構成のために影響なし
サーバ側出力メッセージメッセージ出力なし
障害時の状況該当Disk Processor EnclosureのPower Supplyが非冗長状態
対応方法Power Supply交換
交換条件特になし ※オンライン交換可能
交換時の影響Power Supply交換に伴う影響はない
交換後のオペレーション特になし

 

 

Power Supply (Disk Array Enclosure)障害

 

背面図(3.5 inch DAE)

psdae35.png

背面図(2.5 inch DAE)

psdae25.png

障害部位

Power Supply (DAE)

役割Disk Array Enclosure (DAE)へ電源を配給する装置
冗長構成二重化
影響詳細冗長構成のため、影響はない
サーバ側出力メッセージメッセージ出力なし
障害時の状況Power Supply (DAE)が非冗長状態
対応方法Power Supply(DAE)交換
交換条件特になし ※オンライン交換可能
交換時の影響Power Supply (DAE)交換に伴う影響はない
交換後のオペレーション特になし

 

 

 

SPS(VNX)/BBU(VNX2)障害

 

SPS背面図(VNX5300/5500/5700)

sps.png

BBU背面図(VNX5400/5600)

bbu.png

障害部位

SPS(Standby Power Supply)/BBU(Battery Backup Unit)
役割電源障害発生時に、SP内のWriteキャッシュデータ(ダーティデータ)をDiskへ書き込むために、DPE/SPEへと電源を供給する
冗長構成二重化
影響詳細冗長構成のために影響なし
サーバ側出力メッセージメッセージ出力なし
障害時の状況SPS/BBUが非冗長状態
対処方法SPS/BBU交換
交換条件特になし ※オンラインでの交換可能
交換時の影響SPS/BBU交換に伴う影響はない
交換後のオペレーション特になし

 

 

LCC(Link Control Card)障害

 

背面図(3.5 inch DAE)

lcc35.png

背面図(2.5 inch DAE)

lcc25.png

障害部位
LCC(Link Control Card)
役割Storage ProcessorとDisk Driveの接続を制御、Disk Driveへの通信経路の冗長化を提供する
冗長構成二重化
影響詳細
  • 該当LCCが接続しているStorage Processorが管理するLUNのアクセス経路が片系のStorage Processorに切り替わるため、業務継続可能
  • 負荷の状況によりIO遅延が発生する可能性
サーバ側出力メッセージデータアクセス瞬断による、リカバリ系のメッセージ出力の可能性
障害時の状況該当LCCのLUNアクセス経路において、該当LCCと接続しているStorage Processorの経路が片系のStorage Processorに切り替わり発生
対応方法

LCC交換(LCCケーブル障害時はケーブル交換)

交換条件特になし ※オンライン交換可能
交換時の影響該当LCCと接続しているLUNへのアクセス経路は片系のStorage Processorに切り替わっているため、影響の変化はない
交換後のオペレーション特になし

 

 

 

Vault Disk障害

Vault DiskとはBoot用OS、Block/File OE領域、構成情報格納領域、Write Cacheデータ退避領域などストレージシステムに必要なシステム領域が格納されたDisk Driveであり、各領域ごとに様々な冗長構成が組み込まれている。Vault DriveはDPEを使用するモデルではDPEの0~3番のDisk Driveを使用する。

 

正面図(3.5 inch DPE)

vaultdrive35.png

正面図(2.5 inch)

vaultdrive25.png

障害部位Vault Drive (Disk)
役割ストレージシステム領域を保存している記憶装置
冗長構成有り(冗長化仕様は領域ごとに様々)
影響詳細冗長構成が組まれているために業務影響はない
サーバ側出力メッセージメッセージ出力なし
障害時の状況
  • ユーザLUNがVault Drive上に作成されている場合はホットスペアディスクが起動し、ユーザLUN領域に対するリビルドが開始される
  • ユーザLUNがVault Drive上に作成されていない場合は特になし
対処方法Disk交換
交換条件ユーザLUNがVault Drive上に作成されている場合はホットスペアディスクへのリビルドが完了していること ※オンライン交換可能
交換時の影響Disk交換に伴う影響はない
交換後のオペレーションユーザLUNがVault Drive上に作成されている場合は、交換を行ったVault Drive (Disk)へのコピーバック完了確認

 

 

 

Disk(Vaulkt Disk以外)障害

 

正面図

disk1.png

正面図(2.5inch DAE)

disk2.png


障害部位
Disk(Vault Disk以外)
役割記憶装置。データ保存領域を提供する。
冗長構成RAID構成
影響詳細RAID構成が組まれているため、業務継続は可能。リビルドによるIOパフォーマンスが低下する可能性あり。
サーバ側出力メッセージメッセージ出力なし
障害時の状況

ホットスペアディスクが起動し、リビルドが開始される。

対処方法Disk交換
交換条件ホットスペアへのリビルドが完了していること。 ※オンライン交換可能
交換時の影響該当RAIDグループへのIOパフォーマンスが低下する可能性あり。
交換後のオペレーション

VNX・・・交換後のDiskへのコピーバック完了確認。

VNX2・・・なし(コピーバック無し)


 

 

DPE Component通信エラー障害

 

論理図抜粋

dpecomp.png

 

被疑部位
DPE搭載Component
影響詳細DPE搭載の物理コンポーネント(Power Supplyなど)に対するポーリング監視(3秒毎)において、コンポーネントからの応答がなかった場合に発生するが、即時復旧しているために影響はない。(復旧しない場合には追加で別のメッセージが発生する)
サーバ側出力メッセージメッセージ出力なし
障害時の状況正常に稼働
対応方法一過性障害のために様子見。

 

 

 

SP-SPS間通信エラー障害

 

論理図抜粋

spsps.png

被疑箇所

SPS(Standby Power Supply) or Cable

影響詳細毎週一度(デフォルトでは日曜日午前2時)実施されるSPSバッテリテストにおいて、バッテリ切り替わりのタイミングでStorage Processorとの疎通が取れない場合に発生するが、一時的な通信エラーであり影響はない。
サーバ側出力メッセージメッセージ出力なし
障害時の状況正常に稼働
対応方法一過性障害のため様子見。

 

 

 

 

 

BE Component一過性障害

 

論理図抜粋

becomp.png

被疑部位
Header 2
影響詳細LCC不要やLCCケーブル不要、またDisk不良に伴うSCSI応答遅延によるSCSI通信エラーであるが、単発かつリカバリーされているために影響はない。
サーバ側出力メッセージメッセージ出力なし
障害時の状況正常に稼働
対応方法

一過性障害のため様子見。

※SCSI通信エラーが複数回発生している場合は、LCC、LCCケーブル、Diskなどの交換が必要となることがあります