Isilon(S210)障害時の影響
更新済み
製品:
Isilon S210シリーズ
説明:
障害発生時の影響に対する簡易説明
※復旧時間(目安)については全ての処理が円滑に進んだ場合の目安の時間であることについてご了承ください
※復旧時間(目安)には事前準備、事後処理の時間は含まれていません(特に事前準備に必要な時間はお客様環境[データセンタ環境]により大きく異なります)
※それぞれの障害部位の単体障害を想定して書かれているものであり、複合障害時には当てはまるものではありません
最終更新日:2016年8月23日
解決策:
目次
4. 業務影響の定義について
- Node障害
- BootDrive障害
- BootDrive Carrier Card障害
- Disk障害
- InfiniBand Card障害
- Network Interface Card(NIC)障害
- SAS Controller Card障害
- NVRAM Card障害
- DIMM障害
- Battery障害
- Power Supply障害
- FAN障害
- Intrusion Switch障害
- Front Panel障害
(前面)
2Uの筐体に2.5 inch Diskを24本搭載可能。
各Node前面のFront Panelには、対象Nodeのステータスを表示するLCDパネル及び、クラスタ、Nodeを操作可能なコントロールボタンが付属しています。
(背面その1)
(背面その2)
(背面その3)
(InfiniBand Switch)
Mellanox社製 InfiniBand Switch
Intel社製 InfiniBand Switch
(ハードウェア諸元)
S210 |
|
---|---|
Processor |
Dual 6-core Intel Ivy Bridge Processors |
RAM |
32GB, 64GB, 128GB, 256GB |
NVRAM |
2GB |
標準Ethernet |
2×1GbE, 2×10GbE |
InfiniBand |
2×QDR(QSFP Port)-Copper or 1m-100m fibre cabling |
HDD |
300GB, 600GB, 900GB, 1.2TB 900GB SED |
SSD |
6 本までの400GB, 800GB MLC、800GB SED |
Power Supply |
Dual 110v/220v |
重量 |
55ポンド(25.0kg) |
オプション
- HDD: 300GBから1.2TBまでの2.5インチSAS(10k)ディスク
- SSD: メタデータ用途/データ用途/L3 Cache用途
- No SSDs
- 1本搭載の場合は400GB SSDも選択可能
- 1~6本までの800GB SSD
- メモリ:32GB (Default), 64GB , 128GB, 256GB
- External NW:
- Dual GbE & Dual 10GbE SFP+(Fiber or Twinax Copper)
- SFPはSRモデル
- Internal NW:
- Dual QDR InfiniBand optic fiber cable(最大100m)
業務影響レベル
1 - 通常業務が停止する障害
2 - 「パフォーマンス劣化」「機能制限」がおこる障害
3 - 通常業務に支障がない障害
障害部位 |
Node |
---|---|
役割 |
各コンポーネントを搭載したノード本体. ClientからのDiskアクセス、(IO要求受け付け、キャッシュ検索、ステータス返答など)の制御を行うコントローラ機能も備える。 |
冗長構成 |
他ノードとN重化 (保護レベルに依存。初期保護レベルはN+2d:1n) |
業務影響 |
2 - 「パフォーマンス劣化」「機能制限」がおこる障害 |
影響詳細 |
通常稼働時にパフォーマンスが逼迫している場合、対象ノードが停止することで、対象ノードで担っていた処理能力減となりパフォーマンス影響が生じる可能性。 |
サーバ側出力 メッセージ |
対象ノードで保持していたIPは他ノードにFailoverされるが、瞬断するため、パス経路に関してリカバリやリトライに類するメッセージ出力の可能性。 |
障害時の状況 |
対象ノードが停止し、他ノードへのFailoverが発生。 対象ノード内のDiskに保存されているデータについては、他ノードのDiskよりI/O可能、対象ノードのIPについては他ノードへ引き継がれる。 |
対応方法 |
対象ノード内の被疑コンポーネント交換 |
交換条件 |
対象ノードが停止していること。 |
交換時の影響 |
他ノードへFailoverしているため影響の変化はない。 |
交換後のオペレーション |
他ノードからのFailbackを実施する必要があり、設定によりオートもしくはマニュアルでFailbackを実施する。 |
復旧時間(目安) |
180分 |
障害部位 |
Boot Drive |
---|---|
役割 |
IsilonのOS:OneFSを保存 |
冗長構成 |
二重化 |
業務影響 |
3 - 通常業務に支障がない障害 |
影響詳細 |
冗長構成のため、影響はない。 |
サーバ側出力メッセージ |
メッセージ出力なし |
障害時の状況 |
該当ノードのBoot Driveが非冗長状態。 |
対応方法 |
Boot Drive交換 |
交換条件 |
対象Boot Drive搭載ノードが停止していること |
交換時の影響 |
|
交換後のオペレーション |
他ノードからのFailbackを実施する必要があり、設定によりオートもしくはマニュアルでFailbackを実施する。 |
復旧時間(目安) |
180分 |
障害部位 |
Boot Drive Carrier Card |
---|---|
役割 |
Boot DriveとSATAケーブル間の接続用カード |
冗長構成 |
他ノードとN重化 (保護レベルに依存。初期保護レベルはN+2d:1n) |
業務影響 |
2 - 「パフォーマンス劣化」「機能制限」がおこる障害 |
影響詳細 |
該当Boot Drive Carrier Cardを搭載したノードは停止もしくはパニックし再起動するが他ノードへFailoverするため業務継続は可能。 |
サーバ側出力メッセージ |
対象ノードで保持していたIPは他ノードにFailoverされるが、瞬断するため、パス経路に関してリカバリやリトライに類するメッセージ出力の可能性。 |
障害時の状況 |
対象ノードが停止し、他ノードへのFailoverが発生。 対象ノード内のDiskに保存されているデータについては、他ノードのDiskよりI/O可能、対象ノードのIPについては他ノードへ引き継がれる。 |
対応方法 |
Boot Drive Carrier Card交換 |
交換条件 |
対象Boot Drive Carrier Card搭載ノードが停止していること。 |
交換時の影響 |
他ノードへFailoverしているため影響の変化はない。 |
交換後のオペレーション |
他ノードからのFailbackを実施する必要があり、設定によりオートもしくはマニュアルでFailbackを実施する。 |
復旧時間(目安) |
180分 |
障害部位 |
Disk |
---|---|
役割 |
記憶装置でデータ保存領域を提供する。 |
冗長構成 |
FlexProtect構成(保護レベルに依存。初期保護レベルはN+2d:1n) |
業務影響 |
3 - 通常業務に支障がない障害 |
影響詳細 |
FlexProtect構成が組まれているため、業務継続は可能。 |
サーバ側出力メッセージ |
メッセージ出力なし |
障害時の状況 |
Smartfailが起動し、同一ノードの空き領域に再構築。 |
対応方法 |
Disk交換 |
交換条件 |
Smartfailが完了していること。 ※オンライン交換可能 |
交換時の影響 |
業務影響なし。 |
交換後のオペレーション |
特になし |
復旧時間(目安) |
90分 ※交換後、フォーマットが必要になり所要時間はDisk容量に依存 |
障害部位 |
InfiniBand Card |
---|---|
役割 |
InfiniBand Switchへ接続するPortを提供するPCI-Eカード |
冗長構成 |
他ノードとN重化 (保護レベルに依存。初期保護レベルはN+2d:1n) |
業務影響 |
2 - 「パフォーマンス劣化」「機能制限」がおこる障害 |
影響詳細 |
該当InfiniBand Cardを搭載したノードは停止もしくはパニックし再起動するが他ノードへFailoverするため業務継続は可能。 |
サーバ側出力メッセージ |
対象ノードで保持していたIPは他ノードにFailoverされるが、瞬断するため、パス経路に関してリカバリやリトライに類するメッセージ出力の可能性。 |
障害時の状況 |
対象ノードが停止し、他ノードへのFailoverが発生。 対象ノード内のDiskに保存されているデータについては、他ノードのDiskよりI/O可能、対象ノードのIPについては他ノードへ引き継がれる。 |
対応方法 |
InfiniBand Card交換 |
交換条件 |
対象InfiniBand Card搭載ノードが停止していること。 |
交換時の影響 |
他ノードへFailoverしているため影響の変化はない。 |
交換後のオペレーション |
他ノードからのFailbackを実施する必要があり、設定によりオートもしくはマニュアルでFailbackを実施する。 |
復旧時間(目安) |
180分 |
障害部位 |
Network Interface Card (NIC) |
---|---|
役割 |
外部インターフェイスへ接続するPortを提供するPCI-Eカード |
冗長構成 |
他ノードとN重化 (保護レベルに依存。初期保護レベルはN+2d:1n) |
業務影響 |
2 - 「パフォーマンス劣化」「機能制限」がおこる障害 |
影響詳細 |
該当NICを搭載したノードは停止もしくはパニックし再起動するが他ノードへFailoverするため業務継続は可能。 |
サーバ側出力メッセージ |
対象ノードで保持していたIPは他ノードにFailoverされるが、瞬断するため、パス経路に関してリカバリやリトライに類するメッセージ出力の可能性。 |
障害時の状況 |
対象ノードが停止し、他ノードへのFailoverが発生。 対象ノード内のDiskに保存されているデータについては、他ノードのDiskよりI/O可能、対象ノードのIPについては他ノードへ引き継がれる。 |
対応方法 |
NIC交換 |
交換条件 |
対象NIC搭載ノードが停止していること。 |
交換時の影響 |
他ノードへFailoverしているため影響の変化はない。 |
交換後のオペレーション |
他ノードからのFailbackを実施する必要があり、設定によりオートもしくはマニュアルでFailbackを実施する。 |
復旧時間(目安) |
180分 |
障害部位 |
SAS Controller Card |
---|---|
役割 |
外部インターフェイスへ接続するSAS Portを提供するPCI-Eカード |
冗長構成 |
他ノードとN重化 (保護レベルに依存。初期保護レベルはN+2d:1n) |
業務影響 |
2 - 「パフォーマンス劣化」「機能制限」がおこる障害 |
影響詳細 |
該当SAS Controller Cardを搭載したノードは停止もしくはパニックし再起動するが他ノードへFailoverするため業務継続は可能。 |
サーバ側出力メッセージ |
対象ノードで保持していたIPは他ノードにFailoverされるが、瞬断するため、パス経路に関してリカバリやリトライに類するメッセージ出力の可能性。 |
障害時の状況 |
対象ノードが停止し、他ノードへのFailoverが発生。 対象ノード内のDiskに保存されているデータについては、他ノードのDiskよりI/O可能、対象ノードのIPについては他ノードへ引き継がれる。 |
対応方法 |
NIC交換 |
交換条件 |
対象SAS Controller Card搭載ノードが停止していること。 |
交換時の影響 |
他ノードへFailoverしているため影響の変化はない。 |
交換後のオペレーション |
他ノードからのFailbackを実施する必要があり、設定によりオートもしくはマニュアルでFailbackを実施する。 |
復旧時間(目安) |
180分 |
障害部位 |
NVRAM Card |
---|---|
役割 |
L2 Cacheとして、頻繁に使用するデータを一時的に保存しサーバからのIO要求に対して処理を高速化する。 |
冗長構成 |
他ノードとN重化 (保護レベルに依存。初期保護レベルはN+2d:1n) |
業務影響 |
2 - 「パフォーマンス劣化」「機能制限」がおこる障害 |
影響詳細 |
該当NVRAM Cardを搭載したノードは停止もしくはパニックし再起動するが他ノードへFailoverするため業務継続は可能。 |
サーバ側出力メッセージ |
対象ノードで保持していたIPは他ノードにFailoverされるが、瞬断するため、パス経路に関してリカバリやリトライに類するメッセージ出力の可能性。 |
障害時の状況 |
対象ノードが停止し、他ノードへのFailoverが発生。 対象ノード内のDiskに保存されているデータについては、他ノードのDiskよりI/O可能、対象ノードのIPについては他ノードへ引き継がれる。 |
対応方法 |
NVRAM Card交換 |
交換条件 |
対象NVRAM Card搭載ノードが停止していること。 |
交換時の影響 |
他ノードへFailoverしているため影響の変化はない。 |
交換後のオペレーション |
他ノードからのFailbackを実施する必要があり、設定によりオートもしくはマニュアルでFailbackを実施する。 |
復旧時間(目安) |
180分 |
障害部位 |
DIMM(Dual Inline Memory Module) |
---|---|
役割 |
L1 Cacheとして、頻繁に使用するデータを一時的に保存しサーバからのIO要求に対して処理を高速化する。 |
冗長構成 |
二重化 |
業務影響 |
2 - 「パフォーマンス劣化」「機能制限」がおこる障害 |
影響詳細 |
該当キャッシュメモリを搭載したノードは停止もしくはパニックし再起動するが他ノードへFailoverするため業務継続は可能。 |
サーバ側出力メッセージ |
対象メモリが搭載されているノードが再起動もしくは停止となるため、パス経路に関してリカバリやリトライに類するメッセージ出力の可能性。 |
障害時の状況 |
対象ノードが停止し、他ノードへのFailoverが発生。 対象ノード内のDiskに保存されているデータについては、他ノードのDiskよりI/O可能、対象ノードのIPについては他ノードへ引き継がれる。 |
対応方法 |
メモリ交換 |
交換条件 |
対象メモリ搭載ノードが停止していること |
交換時の影響 |
他ノードへFailoverしているため影響の変化はない。 |
交換後のオペレーション |
他ノードからのFailbackを実施する必要があり、設定によりオートもしくはマニュアルでFailbackを実施する。 |
復旧時間(目安) |
180分 |
障害部位 |
Battery |
---|---|
役割 |
書き込みキャッシュをDiskへ書き込みするまでの間にノードに電源を確保するための予備電源装置。 |
冗長構成 |
二重化 |
業務影響 |
3 - 通常業務に支障がない障害 |
影響詳細 |
冗長構成のため、影響はない。 |
サーバ側出力メッセージ |
メッセージ出力なし |
障害時の状況 |
Batteryが非冗長状態。 |
対応方法 |
Battery交換 |
交換条件 |
対象Battery搭載ノードが停止していること |
交換時の影響 |
他ノードへFailoverしているため影響の変化はない。 |
交換後のオペレーション |
他ノードからのFailbackを実施する必要があり、設定によりオートもしくはマニュアルでFailbackを実施する。 |
復旧時間(目安) |
180分 |
障害部位 |
Power Supply |
---|---|
役割 |
ノードに電源を供給 |
冗長構成 |
二重化 |
業務影響 |
3 - 通常業務に支障がない障害 |
影響詳細 |
冗長構成のため、影響はない。 |
サーバ側出力メッセージ |
メッセージ出力なし |
障害時の状況 |
Power Supplyが非冗長状態。 |
対応方法 |
Power Supply交換 |
交換条件 |
対象NVRAM Card搭載ノードが停止していること。 |
交換時の影響 |
特になし ※オンライン交換可能 |
交換後のオペレーション |
特になし |
復旧時間(目安) |
30分 |
障害部位 |
FAN |
---|---|
役割 |
Disk及び基盤冷却用のFANモジュール |
冗長構成 |
2+1 |
業務影響 |
3 - 通常業務に支障がない障害 |
影響詳細 |
冗長構成のため、影響はない。 ※Node内の各コンポーネント毎の上限温度閾値(約45度~68度)が設定されており、閾値を超えた場合、該当ノードはRead Onlyとなります。 1個のFAN故障では上記状態にはなり得ず、複数同時に故障した場合に、Read Onlyとなることが想定されます |
サーバ側出力メッセージ |
メッセージ出力なし |
障害時の状況 |
該当FANが停止 |
対応方法 |
FAN交換 |
交換条件 |
対象FAN搭載ノードが停止していること。 |
交換時の影響 |
他ノードへFailoverしているため影響の変化はない。 |
交換後のオペレーション |
他ノードからのFailbackを実施する必要があり、設定によりオートもしくはマニュアルでFailbackを実施する。 |
復旧時間(目安) |
180分 |
障害部位 |
Intrusion Switch |
---|---|
役割 |
シャーシの開閉状態を監視するスイッチ |
冗長構成 |
無し |
業務影響 |
3 - 通常業務に支障がない障害 |
影響詳細 |
シャーシの開閉状態を監視しているのみであるため、影響はない。 |
サーバ側出力メッセージ |
メッセージ出力なし |
障害時の状況 |
シャーシの開閉状態を監視できない。 |
対応方法 |
Intrusion Switch交換 |
交換条件 |
対象Intrusion Switch搭載ノードが停止していること。 |
交換時の影響 |
他ノードへFailoverしているため影響の変化はない。 |
交換後のオペレーション |
他ノードからのFailbackを実施する必要があり、設定によりオートもしくはマニュアルでFailbackを実施する。 |
復旧時間(目安) |
180分 |
障害部位 |
Front Panel |
---|---|
役割 |
対象Nodeのステータスを表示するLCDパネル及び、 クラスタ、ノードを操作可能なコントロールボタンが付属 |
冗長構成 |
無し |
業務影響 |
3 - 通常業務に支障がない障害 |
影響詳細 |
LCDパネルにてのステータス確認及びコントロールボタンでの操作が不可となるが、業務影響はなし。 |
サーバ側出力メッセージ |
メッセージ出力なし |
障害時の状況 |
該当Front Panelが操作不可 |
対応方法 |
Front Panel交換 |
交換条件 |
特になし ※オンライン交換可能 |
交換時の影響 |
Front Panel交換に伴う影響はない。 |
交換後のオペレーション |
特になし |
復旧時間(目安) |
30分 |