VMAX:ESXiホスト上の単一のストレージ デバイスへの接続のランダムな一時的喪失(000471429)
更新済み
バージョン:2 |
記事タイプ:不具合修正 |
対象読者:レベル30 = お客様 |
最終発行日:2016年2月21日日曜日02:01:58(GMT) |
概要: |
ESXi 5.5にアップグレードした後、ランダムなLUNのストレージ デバイスからの切断が報告されるとお客様から報告されています。ESXiホストのVMFSデータストアへの接続が、短時間失われます。この期間、データストアのいずれかのVMでクラッシュ、またはIOエラーが発生する場合があります。 |
||
問題: |
|||
VMFSハートビート スロットでのATS不一致のため、ESXiホストはデバイスの制御を回復しようとします。 |
|||
そのためホストは、VMFSを保有するLUNに対して、SCSIデバイスのリセットを発行します。 |
|||
このLUNでアクティブなすべてのIOは中止され、SCSIデバイスはリセットされます。接続が一時的に失われたことが |
|||
VMKernelログに示されます。 |
|||
原因: |
ESXI 5.5 U2へのアップグレードでは、VMFSハートビートのロックにATSを使用するようになりました。5.5 U2よりも前には、SCSI 2の非永続的な予約がハートビートのロックにまだ使用されていましたが、ハートビートではないその他のVMFSロック操作にATSも使用されていました。 |
||
ホストが比較ペイロードをアレイに送信するときに、比較データはディスク上のものと同じではありません。このため、ホストに対して不一致を生成します。アレイはあるF1コマンドと他のものとの違いを認識できないため、比較ペイロードが正しくない場合、任意のF1コマンドは不一致で終わる可能性があります。
VMKernelログでは次のようなログが表示されます。
vmkernel: cpu1:695753)lpfc: lpfc_scsi_cmd_iocb_cmpl:2185: 2:(0):3271: FCP cmd xf1 failed <3/151> sid x032818, did x030c00, oxid x1aa iotag x547 SCSI Chk Cond - 0xe: Data(x2:xe:x1d:x0)
vmkernel: cpu5:32850)NMP: nmp_ThrottleLogForDevice:2322: Cmd 0xf1 (0x412e8020a0c0, 32837) to dev "naa.6000097000029200000533033373031" on path "vmhba1:C0:T3:L151" Failed: H:0x0 D:0x2 P:0x0 Valid sense data: 0xe 0x1d 0x0. Act:NONE
vmkernel: cpu5:32850)ScsiDeviceIO: 2325: Cmd(0x412e82c28040) 0xfe, CmdSN 0x375b from world 32837 to dev "naa.6000097000029200000533033373031" failed H:0x0 D:0x2 P:0x5 Possible sense data: 0x0 0x0 0x0.
vmkernel: cpu5:32850)HBX: 1929: ATS Miscompare detected between test and set HB images at offset 4169728 on vol '545cba87-ffac9b20-d176-0017a4771c10'.
vmkernel: cpu5:32850)HBX: 1930: Test version: [HB state abcdef02 offset 4169728 gen 115 stampUS 248963960635 uuid 5519f43f-e494f1fb-e4c0-0017a4771822 jrnl drv 14.60]
vmkernel: cpu5:32850)HBX: 1931: Set version: [HB state abcdef02 offset 4169728 gen 115 stampUS 248966960590 uuid 5519f43f-e494f1fb-e4c0-0017a4771822 jrnl drv 14.60]
vmkernel: cpu1:33641)ScsiDeviceIO: 2307: Cmd(0x412e864f3240) 0x28, CmdSN 0xfffffa801bfcb130 from world 23391138 to dev "naa.6000097000029200000533033373031" failed H:0x8 D:0x0 P:0x0 vmkernel: cpu36:32919)HBX: 270: Reclaimed heartbeat for volume 545cba87-ffac9b20-d176-0017a4771c10 (vMAX_FC_DS_373031): [Timeout] Offset 4169728
Hostd: [FFD34920 info 'Vimsvc.ha-eventmgr'] Event 688 : Successfully restored access to volume 545cba87-ffac9b20-d176-0017a4771c10 following connectivity issues.
SCSIのチェック状況をホストに返し不一致を報告するF1およびFEが存在します。ホストは次にHBスロットの不一致を登録し、LUNがリセットを発行したときにLUNのアクティブIOをすべて破棄します。このLUNの保留中のIOはすべてホスト センス8(H:0X8 SCSIリセット)で失敗します。
注:ホストは接続性の問題をデバイスに報告します。これは物理的な接続の問題ではなく、ホストからの単一のLUNリセットの結果です。ストレージへのパスが失われることはありません。
変更: ESXi 5.5 update 2へのホストのアップグレード
解決方法: 推奨される回避策は、F1ハートビート メカニズムを無効化することです。詳細については、VMware KB 2113956(http://kb.vmware.com/kb/2113956 )を参照してください。この機能を無効化すると、ホストはレガシー モードに戻ります。
現時点でEMCは、アレイがF1コマンドを受信したときに不一致を生成しないことを保証できません。ハートビートの不一致、およびその後の切断が発生するリスクを取ることを望まないお客様は、この機能部分を無効化する必要があります。
現時点では、EMCアレイの観点からの回避策はありません。お客様は、VMware社に連絡するか、vmsupportにESXi emcgrabを提出して問題を確認してもらうことができます。現在、影響を受けるお客様には、ESXサーバ上でVAAI ATSハートビート機能を無効にすることを推奨しています。
注: 注:このソリューションは、ハートビートで発生するF1コマンドについて、ホストがアレイから不一致を返される場合にのみ適用されます それ以外の理由(タイムアウトやホストによる破棄など)でF1コマンドが失敗している場合、ソリューションは有効ではありません。この場合は、EMCサポートに連絡することを推奨します。
製品: VMware ESXi、Symmetrix VMAX 10K(シリアル番号xxx959xxxxのシステム)/VMAXe、Symmetrix VMAX 10K(シリアル番号xxx987xxxxのシステム)、Symmetrix VMAX 40K、Symmetrix VMAX SE、Symmetrix VMAX/VMAX 20K、VMware ESX Server、VMware ESX