未解決
この投稿は5年以上前のものです
Community Manager
•
3.1K メッセージ
0
2612
VPLEX:バージョン5.5 u2以降のESXiホストで、ストレージ デバイスへの接続のランダムな一時的な喪失や、パフォーマンスの低下が発生する(000463942)
バージョン:4 |
記事タイプ:不具合修正 |
対象読者:レベル30 = お客様 |
最終発行日:2016年11月30日水曜日17:09:36(GMT) |
概要:
VMFSハートビート スロットでのATS不一致のため、ESXiホストはデバイスの制御を回復しようとします。そのためホストは、VMFSを保有するLUNに対して、SCSIデバイスのリセットを発行します。このLUNでアクティブなすべてのIOは中止され、SCSIデバイスはリセットされます。接続が一時的に失われたことがVMKernelログに表示されます。
問題
ESXiホストのVMFSデータストアへの接続が、短時間失われます。この期間、データストアのいずれかのVMでクラッシュ、またはIOエラーが発生する場合があります。
VMFS3またはVMFS5データストアで、ESXiホストのCompare & Write(SCSIオペレーション コード89)を使用したハートビート ロックの取得要求が、「(ATS) Miscompare during verify operation」のために失敗します。
このVMFSハートビート スロットでのATS(Atomic Test & Set)不一致のため、ESXiホストはデバイスの制御を回復しようとします。そのためホストは、VMFSを保有するLUNに対して、
SCSIデバイスのリセットを発行します。
このLUNでアクティブなすべてのIOは中止され、SCSIデバイスはリセットされます。
ATS不一致は、NMPとPowerPathの両方で発生する可能性があります。
ホストのVMKernelログに、次のようなイベントが表示されます。
2015-09-30T22:13:55.516Z cpu1:33645)ScsiDeviceIO: 2338: Cmd(0x413686250680) 0x89, CmdSN 0x12b from world 32949 to dev "naa.60001440000000XXXXXXXXXXXXXXXXXX" failed H:0x0 D:0x2 P:0x0 Valid sense data:0xe 0x1d 0x0.
NMPを保有するホストでは、次のように表示される場合もあります。
2015-09-30T22:13:55.516Z cpu1:33645)NMP: nmp_ThrottleLogForDevice:2321: Cmd 0x89 (0x413686450680, 32949) to dev "naa.60001440000000XXXXXXXXXXXXXXXXXX" on path "vmhba2:C0:T5:L13" Failed: H:0x0 D:0x2 P:0x0 Valid sense data: 0xe 0x1d 0x0. Act:NONE
これらのイベントは、VPLEXがVMwareハードウェア支援ロック機構(ATS)で使用されるSCSIオペレーション コード89(COMPARE AND WRITE)に対応してセンス データ0E/1D/00を ホスト(MISCOMPARE DURING VERIFY OPERATION)に返すことを意味します。
ATS(Atomic Test & Set)
これは、VMFSボリュームでメタデータを更新するときにSCSI予約の代わりに使用されるロック機構です。基本的にATSロックはディスク セクターを変更するためのメカニズムと見なすことができます。これが成功すると、ESXiホストはVMFS上でメタデータの更新を実行できるようになります。ATSロックでは、プロビジョニング中にVMDKに領域が割り当てられます。ファイルの新しいサイズを反映させるためにメタデータの特定の特性を変更する必要があるからです。興味深いことに、最初のVAAIリリースでは、ATSプリミティブは各ストレージ アレイで個別に実装する必要がありました。そのため、ATSオペコードはベンダーによって異なっていました。現在、ATSは標準のT10になり、オペコード0x89(COMPARE AND WRITE)を使用します。
VAAIが有効化されたアレイでフォーマットされたVMFS5データストアでは、ハートビット ロックにはATSが使用されます。VAAIが有効化されたVMFS5にはSCSI予約はもうありません。ATSは、競合が発生した場合も継続して使用されます。非VAAIアレイでは、VMFS5の重要なセクションを確立する際に、SCS
予約が継続して使用されます。
VPLEXファームウェア ログには、次のイベントが表示されます。
ホストHBAのログアウト(tach/38、stdf/18)と再ログイン(tach/37、stdf/17):
128.221.252.67/cpu0/log:5988:W/"0060165f237510728-2":23768:<6>2015/09/18 06:53:24.45: (A0-FC01): login with 0x1234567890123456 (nPortId 0x012345) type TGT is closing. 128.221.252.68/cpu0/log:5988:W/"0060165e9a38102140-2":46706:<6>2015/09/18 06:53:24.45: (B0-FC01): login with 0x1234567890123456 (nPortId 0x012345) type TGT is closing.
128.221.252.68/cpu0/log:5988:W/"0060165e9a38102140-2":46707:<4>2015/09/18 06:53:24.45: connection lost. IT: [EXAMPLESERVER_HBA1 (0x1234567890123456) B0-FC01 (0x50001442b035 128.221.252.67/cpu0/log:5988:W/"0060165f237510728-2":23769:<4>2015/09/18 06:53:24.45: connection lost. IT: [EXAMPLESERVER_HBA1 (0x1234567890123456) A0-FC01 (0x50001442a035
128.221.252.68/cpu0/log:5988:W/"0060165e9a38102140-2":46708:<6>2015/09/18 06:53:24.45: (B0-FC01): login with 0x1234567890123456 (nPortId 0x012345) type TGT is ready. 128.221.252.67/cpu0/log:5988:W/"0060165f237510728-2":23770:<6>2015/09/18 06:53:24.45: (A0-FC01): login with 0x1234567890123456 (nPortId 0x012345) type TGT is ready. 128.221.252.67/cpu0/log:5988:W/"0060165f237510728-2":23771:<4>2015/09/18 06:53:24.45: connection established. IT: [EXAMPLESERVER_HBA1 (0x1234567890123456) A0-FC01 (0x50001 128.221.252.68/cpu0/log:5988:W/"0060165e9a38102140-2":46709:<4>2015/09/18 06:53:24.45: connection established. IT: [EXAMPLESERVER_HBA1 (0x1234567890123456) B0-FC01 (0x50001
Registered State Change Notification (RSCN) Received (tach/42), due to the Host HBA resets (logouts/logins), preceded by the string "TGT_LGN_FR
128.221.252.68/cpu0/log:5988:W/"0060165e9a38102140-2":46710:<6>2015/09/18 06:53:26.50: (B0-FC00): finished discovery in 58.650 msec, reason to start: TGT_LGN_FROM_UNKNOWN_NP D, result: succeeded 128.221.252.67/cpu0/log:5988:W/"0060165f237510728-2":23772:<6>2015/09/18 06:53:26.52: (A0-FC00): finished discovery in 61.626 msec, reason to start:TGT_LGN_FROM_UNKNOWN_NPID:RSCN_RECEIVED, result: succeeded
通常のRSCN_RECEIVEDメッセージ(tach/42)も想定:
128.221.252.68/cpu0/log:5988:W/"0060165e9a38102140-2":46711:<6>2015/09/18 06:53:26.64: (B0-FC01): finished discovery in 63.309 msec, reason to start: RSCN_RECEIVED, result: 128.221.252.67/cpu0/log:5988:W/"0060165f237510728-2":23773:<6>2015/09/18 06:53:26.66:(A0-FC01): finished discovery in 62.665 msec, reason to start: RSCN_RECEIVED, result
SCSI Operation Code 89 (Compare & Write) Host aborts (stdf/10 with status code starting with "89"):
firmware.log_20150123073924.1:128.221.252.67/cpu0/log:5988:W/"0060165f237510728-2":235 11:35:43.15: stdf/10 Scsi Tmf [Abort Task] on fcp ITLQ: [EXAMPLESERVER_HBA1 (0x1234567 A0-FC01 (0x50001442a0353d01) 0x7d000000000000 0x2ed] vol VIRTUAL_VOLUME_NAME_vol taskElapsedTime(usec) 7996921 dormantQCnt 5 enabledQCnt 1 status 8900000000000100:0 firmware.log_20150123073924.1:128.221.252.67/cpu0/log:5988:W/"0060165f237510728-2":235 11:35:44.15: stdf/10 Scsi Tmf [Abort Task] on fcp ITLQ: [EXAMPLESERVER_HBA1 (0x1234567 A0-FC01 (0x50001442a0353d01) 0x7d000000000000 0x55d] vol VIRTUAL_VOLUME_NAME_vol taskElapsedTime(usec) 929473 dormantQCnt 6 enabledQCnt 1 status 8900000000000100:0
イベントの説明:
tach/38:FCログインが閉じます。
stdf/18:このログ メッセージは、ログアウトまたはファブリックからの離脱によってFCPイニシエータ ポートの接続が失われるたびに生成されます。
tach/37:FCログインはIOを提供する準備ができました。
tach/42:最近完了したFC検出のサマリー。
stdf/10:ホストがIOを中止します。ホストは、満足できない状況が続く場合は、「論理ユニット リセット」および「ターゲット リセット」TMFにエスカレーションします。
原因: 実際には2つの問題があり、両方ともATSハートビート機能によりトリガーされます。
1.EMCを含むさまざまなアレイ ベンダーが、ESXi 5.5u2で取り込まれたATSハートビート機能の問題を抱えています。
注:VMware KB 2113956では、この問題の影響を受けるESXバージョンはVMware ESXi 5.5.xおよびVMware ESXi 6.0.xとされていますが、具体的なバージョンがすべて明記されているわけではありません。このKBでは、バージョン5.5 u 2以降のすべてのESXiホストとすべてのvSphere 6.0バージョンが影響を受けると想定しています。
VMware vSphereバージョン5.5.0 Update 2(ビルド2068190)以降とvSphere 6.0以降では、VMFSハートビート ロックにATS(Atomic Test & Set)が使用されます。5.5.0 u2より前のバージョンでは、SCSI-2非永続型予約がこの目的に使用されました。
ホストは、任意のボリュームのハートビートに定期的にI/Oを実行することによってそのライブネスを示します。そのため、ホストのハートビート スロット上で一定期間アクティビティが確認できない場合、ホストはボリュームへの接続を失ったと見なすことができます。
ATSハートビートI/Oは、タイムアウト値が非常に低いため、ホストの切断やアプリケーションの停止を引き起こし、ディスクへの接続の喪失やホストの接続パフォーマンスを低下させる可能性があります。
ホストは、ハートビート スロットの不一致を登録し、LUNがリセットを発行したときにLUNのアクティブIOをすべて破棄します。このLUNの保留中のIOはすべてホスト センス8(H:0X8 SCSIリセット)で失敗します。
NMPを使用しているESXiホストからのメッセージの例:
2015-10-01T00:31:00.333Z cpu9:33645)NMP: nmp_ThrottleLogForDevice:2321: Cmd 0x89 (0x412e82aeed40, 32805) to dev "naa.60001440000000XXXXXXXXXXXXXXXXXX" on path "vmhba2:C0:T5:L10" Failed: H:0x8 D:0x0 P:0x0 Possible sense data: 0x5 0x20 0x0. Act:EVAL
2015-10-01T00:31:00.333Z cpu9:33645)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe:237: NMP device "naa.60001440000000XXXXXXXXXXXXXXXXXX" state in doubt; requested fast path state update...
2015-10-01T00:31:00.333Z cpu9:33645)ScsiDeviceIO: 2338: Cmd(0x412e82aeed40) 0x89, CmdSN 0x72b97 from world 32805 to dev "naa.60001440000000XXXXXXXXXXXXXXXXXX" failed H:0x8 D:0x0 P:0x0 Possible sense data: 0x5 0x20 0x0.
2015-10-01T00:31:01.333Z cpu9:33645)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe:237: NMP device "naa.60001440000000XXXXXXXXXXXXXXXXXX" state in doubt; requested fast path state update...
2015-10-01T00:31:01.333Z cpu9:33645)ScsiDeviceIO: 2338: Cmd(0x413686ad0b80) 0x89, CmdSN 0x72b9a from world 32805 to dev "naa.60001440000000XXXXXXXXXXXXXXXXXX" failed H:0x8 D:0x0 P:0x0 Possible sense data: 0x5 0x24 0x0.
2015-10-01T00:31:01.406Z cpu9:33645)ScsiDeviceIO: 2307: Cmd(0x41368008ee80) 0x2a, CmdSN 0x8000005d from world 1655292 to dev "naa.60001440000000XXXXXXXXXXXXXXXXXX" failed H:0x8 D:0x0 P:0x0
2015-10-01T00:31:01.406Z cpu9:33645)ScsiDeviceIO: 2307: Cmd(0x413686778800) 0x2a, CmdSN 0x8000004d from world 1655292 to dev "naa.60001440000000XXXXXXXXXXXXXXXXXX" failed H:0x8 D:0x0 P:0x0
2015-10-01T00:31:01.406Z cpu9:33645)ScsiDeviceIO: 2307: Cmd(0x4136838cc140) 0x2a, CmdSN 0x80000049 from world 1655292 to dev "naa.60001440000000XXXXXXXXXXXXXXXXXX" failed H:0x8 D:0x0 P:0x0
2015-10-01T00:31:01.608Z cpu9:33645)ScsiDeviceIO: 2307: Cmd(0x4136848c5c00) 0x2a, CmdSN 0x80000065 from world 1655292 to dev "naa.60001440000000XXXXXXXXXXXXXXXXXX" failed H:0x8 D:0x0 P:0x0
2015-10-01T00:31:01.609Z cpu9:33645)ScsiDeviceIO: 2307: Cmd(0x4136836fde80) 0x2a, CmdSN 0x8000002c from world 1655292 to dev "naa.60001440000000XXXXXXXXXXXXXXXXXX" failed H:0x8 D:0x0 P:0x0
2015-10-01T00:31:01.811Z cpu9:33645)NMP: nmp_ThrottleLogForDevice:2321: Cmd 0x2a (0x4136804206c0, 1655292) to dev "naa.60001440000000XXXXXXXXXXXXXXXXXX" on path "vmhba2:C0:T5:L10" Failed: H:0x8 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0. Act:EVAL
2015-10-01T00:31:02.014Z cpu9:33645)ScsiDeviceIO: 2307: Cmd(0x4136848cb740) 0x28, CmdSN 0x72b98 from world 34950 to dev "naa.60001440000000XXXXXXXXXXXXXXXXXX" failed H:0x8 D:0x0 P:0x0
2015-10-01T00:31:02.014Z cpu18:34950)HBX: 2832: Waiting for timed out [HB state abcdef02 offset 4161536 gen 297 stampUS 933180151199 uuid 551234ba-5123418f-0123-7123457d566e jrnl drv 14.60] on vol 'VPLEX-VOLUME-NAME'
2015-10-01T00:31:02.015Z cpu9:33645)ScsiDeviceIO: 2307: Cmd(0x41368386e100) 0x2a, CmdSN 0x72b99 from world 32805 to dev "naa.60001440000000XXXXXXXXXXXXXXXXXX" failed H:0x8 D:0x0 P:0x0
2015-10-01T00:31:05.675Z cpu9:33039)VMW_SATP_INV: satp_inv_UpdatePath:754: Failed to update path "vmhba3:C0:T5:L10" state. Status Transient storage condition, suggest retry
注:ホストは接続の問題をデバイスに報告します。これは物理的な接続の問題ではなく、ホストからの単一のLUNリセットの結果です。ストレージへのパスの喪失は発生しません。
2.バージョン1.1.58.0-1より前のQLogic qlnativefc HBAドライバには、ATSハートビートに関する重大な問題があります。
このドライバは、アレイのATSハートビート機能に問題がある場合に返されるSCSI ATS不一致センス コードを正しく解釈できず、ホストのマルチパス レイヤー(NMPまたはPowerPath)に適切なメッセージを送り返すことができません。そのため、ESXiカーネルはissコマンドを認識できず、ホストに報告されるメッセージを取得できません。
変更: ESXiバージョン5.5.0 Update 2(ビルド2068190)以降にアップグレードされたホスト。
ESXiバージョン6.0以降にアップグレードされたホスト。
解決方法:
1. EMCを含むさまざまなアレイ ベンダーが、ESXi 5.5u2で取り込まれたATSハートビート機能の問題を抱えています。
現時点では、EMCアレイの観点からの回避策はありません。お客様は、VMware社に連絡するか、KB 15034に従ってvmsupportにEMCgrabを提出して問題を確認してもらうことができます。現在、影響を受けるお客様には、ESXiでVAAI ATSハートビート機能を無効にすることを推奨しています。
詳細については、VMware KB 2113956を参照してください。
この機能を無効にすると、ホストはSCSI-2予約レガシー モードに戻ります。
2. QLogic qlnativefc HBAドライバには、ATSハートビートに関する重大な問題があり、ドライバ バージョン1.1.58.0-1で解決されています。
1.1.58.0-1より前のバージョンのHBA qlnativefcドライバを使用している場合は、qlnativefc 1.1.58.0-1バージョンに更新する必要があります。最新のqlnativefc 1.1.58.0-1ドライバは次のページからダウンロードできます。
注:この解決策は、VAAI ATSハートビートで使用されるSCSI OpCode 0x89コマンド(COMPARE & WRITE)を実行したときに、VPLEXから不一致(センス データ0E/1D/00)がホストに返される場合にのみ有効です。それ以外の理由(タイムアウトやホストによる破棄など)で0x89(Compare & Write)コマンドが失敗している場合、ソリューションは有効ではありません。この場合は、EMCサポートに連絡することを推奨します。
この記事は、ECN(EMCコミュニティ ネットワーク)上にHVCとしてプロモートされています。https://community.emc.com/docs/DOC-54138
プライマリ VPLEXシリーズ
製品:
製品: VPLEXシリーズ、VPLEX Geo、VPLEX Local、VPLEX Metro、VPLEX VS1、VPLEX VS2、VPLEX Virtual Edition、VPLEX GeoSynchrony 5.1、VPLEX GeoS
VPLEX GeoSynchrony 5.1 Patch 2、VPLEX GeoSynchrony 5.1 Patch 3、VPLEX GeoSynchrony 5.1 Patch 4、VPLEX GeoSynchrony 5.2、VPLEX GeoS
VPLEX GeoSynchrony 5.2 Service Pack 1、VPLEX GeoSynchrony 5.2 Service Pack 1 Patch 1、VPLEX GeoSynchrony 5.2 Service Pack 1 Patch 2、V
Service Pack 1 Patch 3、VPLEX GeoSynchrony 5.3、VPLEX GeoSynchrony 5.3 Patch 1、VPLEX GeoSynchrony 5.3 Patch 2、VPLEX GeoSynchrony 5
GeoSynchrony 5.3 Patch 4、VPLEX GeoSynchrony 5.4、VPLEX GeoSynchrony 5.4 Service Pack 1、VPLEX GeoSynchrony 5.4 Service Pack 1 Pa