新しい会話を開始

未解決

この投稿は5年以上前のものです

Community Manager

 • 

3.1K メッセージ

2612

2017年8月23日 01:00

VPLEX:バージョン5.5 u2以降のESXiホストで、ストレージ デバイスへの接続のランダムな一時的な喪失や、パフォーマンスの低下が発生する(000463942)

バージョン:4

記事タイプ:不具合修正

対象読者:レベル30 = お客様

最終発行日:20161130日水曜日17:09:36GMT

概要:         


VMFSハートビート スロットでのATS不一致のため、ESXiホストはデバイスの制御を回復しようとします。そのためホストは、VMFSを保有するLUNに対して、SCSIデバイスのリセットを発行します。このLUNでアクティブなすべてのIOは中止され、SCSIデバイスはリセットされます。接続が一時的に失われたことがVMKernelログに表示されます。

問題

ESXiホストのVMFSデータストアへの接続が、短時間失われます。この期間、データストアのいずれかのVMでクラッシュ、またはIOエラーが発生する場合があります。

VMFS3またはVMFS5データストアで、ESXiホストのCompare & WriteSCSIオペレーション コード89)を使用したハートビート ロックの取得要求が、「(ATS) Miscompare during verify operation」のために失敗します。


このVMFSハートビート スロットでのATSAtomic Test & Set)不一致のため、ESXiホストはデバイスの制御を回復しようとします。そのためホストは、VMFSを保有するLUNに対して、

SCSIデバイスのリセットを発行します。

このLUNでアクティブなすべてのIOは中止され、SCSIデバイスはリセットされます。

ATS不一致は、NMPPowerPathの両方で発生する可能性があります。


ホストのVMKernelログに、次のようなイベントが表示されます。

2015-09-30T22:13:55.516Z cpu1:33645)ScsiDeviceIO: 2338: Cmd(0x413686250680) 0x89, CmdSN 0x12b from world 32949 to dev "naa.60001440000000XXXXXXXXXXXXXXXXXX" failed H:0x0 D:0x2 P:0x0 Valid sense data:0xe 0x1d 0x0.

NMPを保有するホストでは、次のように表示される場合もあります。

2015-09-30T22:13:55.516Z cpu1:33645)NMP: nmp_ThrottleLogForDevice:2321: Cmd 0x89 (0x413686450680, 32949) to dev "naa.60001440000000XXXXXXXXXXXXXXXXXX" on path "vmhba2:C0:T5:L13" Failed: H:0x0 D:0x2 P:0x0 Valid sense data: 0xe 0x1d 0x0. Act:NONE

これらのイベントは、VPLEXVMwareハードウェア支援ロック機構(ATS)で使用されるSCSIオペレーション コード89COMPARE AND WRITE)に対応してセンス データ0E/1D/00 ホスト(MISCOMPARE DURING VERIFY OPERATION)に返すことを意味します。




ATSAtomic Test & Set

これは、VMFSボリュームでメタデータを更新するときにSCSI予約の代わりに使用されるロック機構です。基本的にATSロックはディスク セクターを変更するためのメカニズムと見なすことができます。これが成功すると、ESXiホストはVMFS上でメタデータの更新を実行できるようになります。ATSロックでは、プロビジョニング中にVMDKに領域が割り当てられます。ファイルの新しいサイズを反映させるためにメタデータの特定の特性を変更する必要があるからです。興味深いことに、最初のVAAIリリースでは、ATSプリミティブは各ストレージ アレイで個別に実装する必要がありました。そのため、ATSオペコードはベンダーによって異なっていました。現在、ATSは標準のT10になり、オペコード0x89COMPARE AND WRITE)を使用します。

VAAIが有効化されたアレイでフォーマットされたVMFS5データストアでは、ハートビット ロックにはATSが使用されます。VAAIが有効化されたVMFS5にはSCSI予約はもうありません。ATSは、競合が発生した場合も継続して使用されます。非VAAIアレイでは、VMFS5の重要なセクションを確立する際に、SCS

予約が継続して使用されます。


VPLEXファームウェア ログには、次のイベントが表示されます。

ホストHBAのログアウト(tach/38stdf/18)と再ログイン(tach/37stdf/17):


128.221.252.67/cpu0/log:5988:W/"0060165f237510728-2":23768:<6>2015/09/18 06:53:24.45: (A0-FC01): login with 0x1234567890123456 (nPortId 0x012345) type TGT is closing. 128.221.252.68/cpu0/log:5988:W/"0060165e9a38102140-2":46706:<6>2015/09/18 06:53:24.45: (B0-FC01): login with 0x1234567890123456 (nPortId 0x012345) type TGT is closing.


128.221.252.68/cpu0/log:5988:W/"0060165e9a38102140-2":46707:<4>2015/09/18 06:53:24.45: connection lost. IT: [EXAMPLESERVER_HBA1 (0x1234567890123456) B0-FC01 (0x50001442b035 128.221.252.67/cpu0/log:5988:W/"0060165f237510728-2":23769:<4>2015/09/18 06:53:24.45: connection lost. IT: [EXAMPLESERVER_HBA1 (0x1234567890123456) A0-FC01 (0x50001442a035


128.221.252.68/cpu0/log:5988:W/"0060165e9a38102140-2":46708:<6>2015/09/18 06:53:24.45: (B0-FC01): login with 0x1234567890123456 (nPortId 0x012345) type TGT is ready. 128.221.252.67/cpu0/log:5988:W/"0060165f237510728-2":23770:<6>2015/09/18 06:53:24.45: (A0-FC01): login with 0x1234567890123456 (nPortId 0x012345) type TGT is ready. 128.221.252.67/cpu0/log:5988:W/"0060165f237510728-2":23771:<4>2015/09/18 06:53:24.45: connection established. IT: [EXAMPLESERVER_HBA1 (0x1234567890123456) A0-FC01 (0x50001 128.221.252.68/cpu0/log:5988:W/"0060165e9a38102140-2":46709:<4>2015/09/18 06:53:24.45: connection established. IT: [EXAMPLESERVER_HBA1 (0x1234567890123456) B0-FC01 (0x50001


Registered State Change Notification (RSCN) Received (tach/42), due to the Host HBA resets (logouts/logins), preceded by the string "TGT_LGN_FR

128.221.252.68/cpu0/log:5988:W/"0060165e9a38102140-2":46710:<6>2015/09/18 06:53:26.50: (B0-FC00): finished discovery in 58.650 msec, reason to start: TGT_LGN_FROM_UNKNOWN_NP D, result: succeeded 128.221.252.67/cpu0/log:5988:W/"0060165f237510728-2":23772:<6>2015/09/18 06:53:26.52: (A0-FC00): finished discovery in 61.626 msec, reason to start:TGT_LGN_FROM_UNKNOWN_NPID:RSCN_RECEIVED, result: succeeded


通常のRSCN_RECEIVEDメッセージ(tach/42)も想定:

128.221.252.68/cpu0/log:5988:W/"0060165e9a38102140-2":46711:<6>2015/09/18 06:53:26.64: (B0-FC01): finished discovery in 63.309 msec, reason to start: RSCN_RECEIVED, result: 128.221.252.67/cpu0/log:5988:W/"0060165f237510728-2":23773:<6>2015/09/18 06:53:26.66:(A0-FC01): finished discovery in 62.665 msec, reason to start: RSCN_RECEIVED, result


SCSI Operation Code 89 (Compare & Write) Host aborts (stdf/10 with status code starting with "89"):

firmware.log_20150123073924.1:128.221.252.67/cpu0/log:5988:W/"0060165f237510728-2":235 11:35:43.15: stdf/10 Scsi Tmf [Abort Task] on fcp ITLQ: [EXAMPLESERVER_HBA1 (0x1234567 A0-FC01 (0x50001442a0353d01) 0x7d000000000000 0x2ed] vol VIRTUAL_VOLUME_NAME_vol taskElapsedTime(usec) 7996921 dormantQCnt 5 enabledQCnt 1 status 8900000000000100:0 firmware.log_20150123073924.1:128.221.252.67/cpu0/log:5988:W/"0060165f237510728-2":235 11:35:44.15: stdf/10 Scsi Tmf [Abort Task] on fcp ITLQ: [EXAMPLESERVER_HBA1 (0x1234567 A0-FC01 (0x50001442a0353d01) 0x7d000000000000 0x55d] vol VIRTUAL_VOLUME_NAME_vol taskElapsedTime(usec) 929473 dormantQCnt 6 enabledQCnt 1 status 8900000000000100:0


イベントの説明:

tach/38FCログインが閉じます。

stdf/18このログ メッセージは、ログアウトまたはファブリックからの離脱によってFCPイニシエータ ポートの接続が失われるたびに生成されます。
tach/37FCログインはIOを提供する準備ができました。

tach/42最近完了したFC検出のサマリー。

stdf/10ホストがIOを中止します。ホストは、満足できない状況が続く場合は、「論理ユニット リセット」および「ターゲット リセット」TMFにエスカレーションします。

原因:       実際には2つの問題があり、両方ともATSハートビート機能によりトリガーされます。

1.EMCを含むさまざまなアレイ ベンダーが、ESXi 5.5u2で取り込まれたATSハートビート機能の問題を抱えています。

注:VMware KB 2113956では、この問題の影響を受けるESXバージョンはVMware ESXi 5.5.xおよびVMware ESXi 6.0.xとされていますが、具体的なバージョンがすべて明記されているわけではありません。このKBでは、バージョン5.5 u 2以降のすべてのESXiホストとすべてのvSphere 6.0バージョンが影響を受けると想定しています。

VMware vSphereバージョン5.5.0 Update 2(ビルド2068190)以降とvSphere 6.0以降では、VMFSハートビート ロックにATSAtomic Test & Set)が使用されます。5.5.0 u2より前のバージョンでは、SCSI-2非永続型予約がこの目的に使用されました。

ホストは、任意のボリュームのハートビートに定期的にI/Oを実行することによってそのライブネスを示します。そのため、ホストのハートビート スロット上で一定期間アクティビティが確認できない場合、ホストはボリュームへの接続を失ったと見なすことができます。

ATSハートビートI/Oは、タイムアウト値が非常に低いため、ホストの切断やアプリケーションの停止を引き起こし、ディスクへの接続の喪失やホストの接続パフォーマンスを低下させる可能性があります。

ホストは、ハートビート スロットの不一致を登録し、LUNがリセットを発行したときにLUNのアクティブIOをすべて破棄します。このLUNの保留中のIOはすべてホスト センス8H:0X8 SCSIリセット)で失敗します。

NMPを使用しているESXiホストからのメッセージの例

2015-10-01T00:31:00.333Z cpu9:33645)NMP: nmp_ThrottleLogForDevice:2321: Cmd 0x89 (0x412e82aeed40, 32805) to dev "naa.60001440000000XXXXXXXXXXXXXXXXXX" on path "vmhba2:C0:T5:L10" Failed: H:0x8 D:0x0 P:0x0 Possible sense data: 0x5 0x20 0x0. Act:EVAL

2015-10-01T00:31:00.333Z cpu9:33645)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe:237: NMP device "naa.60001440000000XXXXXXXXXXXXXXXXXX" state in doubt; requested fast path state update...

2015-10-01T00:31:00.333Z cpu9:33645)ScsiDeviceIO: 2338: Cmd(0x412e82aeed40) 0x89, CmdSN 0x72b97 from world 32805 to dev "naa.60001440000000XXXXXXXXXXXXXXXXXX" failed H:0x8 D:0x0 P:0x0 Possible sense data: 0x5 0x20 0x0.

2015-10-01T00:31:01.333Z cpu9:33645)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe:237: NMP device "naa.60001440000000XXXXXXXXXXXXXXXXXX" state in doubt; requested fast path state update...

2015-10-01T00:31:01.333Z cpu9:33645)ScsiDeviceIO: 2338: Cmd(0x413686ad0b80) 0x89, CmdSN 0x72b9a from world 32805 to dev "naa.60001440000000XXXXXXXXXXXXXXXXXX" failed H:0x8 D:0x0 P:0x0 Possible sense data: 0x5 0x24 0x0.

2015-10-01T00:31:01.406Z cpu9:33645)ScsiDeviceIO: 2307: Cmd(0x41368008ee80) 0x2a, CmdSN 0x8000005d from world 1655292 to dev "naa.60001440000000XXXXXXXXXXXXXXXXXX" failed H:0x8 D:0x0 P:0x0

2015-10-01T00:31:01.406Z cpu9:33645)ScsiDeviceIO: 2307: Cmd(0x413686778800) 0x2a, CmdSN 0x8000004d from world 1655292 to dev "naa.60001440000000XXXXXXXXXXXXXXXXXX" failed H:0x8 D:0x0 P:0x0

2015-10-01T00:31:01.406Z cpu9:33645)ScsiDeviceIO: 2307: Cmd(0x4136838cc140) 0x2a, CmdSN 0x80000049 from world 1655292 to dev "naa.60001440000000XXXXXXXXXXXXXXXXXX" failed H:0x8 D:0x0 P:0x0

2015-10-01T00:31:01.608Z cpu9:33645)ScsiDeviceIO: 2307: Cmd(0x4136848c5c00) 0x2a, CmdSN 0x80000065 from world 1655292 to dev "naa.60001440000000XXXXXXXXXXXXXXXXXX" failed H:0x8 D:0x0 P:0x0

2015-10-01T00:31:01.609Z cpu9:33645)ScsiDeviceIO: 2307: Cmd(0x4136836fde80) 0x2a, CmdSN 0x8000002c from world 1655292 to dev "naa.60001440000000XXXXXXXXXXXXXXXXXX" failed H:0x8 D:0x0 P:0x0

2015-10-01T00:31:01.811Z cpu9:33645)NMP: nmp_ThrottleLogForDevice:2321: Cmd 0x2a (0x4136804206c0, 1655292) to dev "naa.60001440000000XXXXXXXXXXXXXXXXXX" on path "vmhba2:C0:T5:L10" Failed: H:0x8 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0. Act:EVAL

2015-10-01T00:31:02.014Z cpu9:33645)ScsiDeviceIO: 2307: Cmd(0x4136848cb740) 0x28, CmdSN 0x72b98 from world 34950 to dev "naa.60001440000000XXXXXXXXXXXXXXXXXX" failed H:0x8 D:0x0 P:0x0

2015-10-01T00:31:02.014Z cpu18:34950)HBX: 2832: Waiting for timed out [HB state abcdef02 offset 4161536 gen 297 stampUS 933180151199 uuid 551234ba-5123418f-0123-7123457d566e jrnl drv 14.60] on vol 'VPLEX-VOLUME-NAME'

2015-10-01T00:31:02.015Z cpu9:33645)ScsiDeviceIO: 2307: Cmd(0x41368386e100) 0x2a, CmdSN 0x72b99 from world 32805 to dev "naa.60001440000000XXXXXXXXXXXXXXXXXX" failed H:0x8 D:0x0 P:0x0

2015-10-01T00:31:05.675Z cpu9:33039)VMW_SATP_INV: satp_inv_UpdatePath:754: Failed to update path "vmhba3:C0:T5:L10" state. Status Transient storage condition, suggest retry

注:ホストは接続の問題をデバイスに報告します。これは物理的な接続の問題ではなく、ホストからの単一のLUNリセットの結果です。ストレージへのパスの喪失は発生しません。

2.バージョン1.1.58.0-1より前のQLogic qlnativefc HBAドライバには、ATSハートビートに関する重大な問題があります。

このドライバは、アレイのATSハートビート機能に問題がある場合に返されるSCSI ATS不一致センス コードを正しく解釈できず、ホストのマルチパス レイヤー(NMPまたはPowerPath)に適切なメッセージを送り返すことができません。そのため、ESXiカーネルはissコマンドを認識できず、ホストに報告されるメッセージを取得できません。

変更:       ESXiバージョン5.5.0 Update 2(ビルド2068190)以降にアップグレードされたホスト。

ESXiバージョン6.0以降にアップグレードされたホスト。

解決方法:

1. EMCを含むさまざまなアレイ ベンダーが、ESXi 5.5u2で取り込まれたATSハートビート機能の問題を抱えています。

現時点では、EMCアレイの観点からの回避策はありません。お客様は、VMware社に連絡するか、KB 15034に従ってvmsupportEMCgrabを提出して問題を確認してもらうことができます。現在、影響を受けるお客様には、ESXiVAAI ATSハートビート機能を無効にすることを推奨しています。

詳細については、VMware KB 2113956を参照してください。

この機能を無効にすると、ホストはSCSI-2予約レガシー モードに戻ります。


2. QLogic qlnativefc HBAドライバには、ATSハートビートに関する重大な問題があり、ドライバ バージョン1.1.58.0-1で解決されています。


1.1.58.0-1より前のバージョンのHBA qlnativefcドライバを使用している場合は、qlnativefc 1.1.58.0-1バージョンに更新する必要があります。最新のqlnativefc 1.1.58.0-1ドライバは次のページからダウンロードできます。

https://my.vmware.com/web/vmware/details?downloadGroup=DT-ESXI55-QLOGIC-QLNATIVEFC-11580-1&productId=353


注:この解決策は、VAAI ATSハートビートで使用されるSCSI OpCode 0x89コマンド(COMPARE & WRITE)を実行したときに、VPLEXから不一致(センス データ0E/1D/00)がホストに返される場合にのみ有効です。それ以外の理由(タイムアウトやホストによる破棄など)で0x89Compare & Write)コマンドが失敗している場合、ソリューションは有効ではありません。この場合は、EMCサポートに連絡することを推奨します。

この記事は、ECNEMCコミュニティ ネットワーク)上にHVCとしてプロモートされています。https://community.emc.com/docs/DOC-54138

プライマリ  VPLEXシリーズ

製品:

製品:       VPLEXシリーズ、VPLEX GeoVPLEX LocalVPLEX MetroVPLEX VS1VPLEX VS2VPLEX Virtual EditionVPLEX GeoSynchrony 5.1VPLEX GeoS

VPLEX GeoSynchrony 5.1 Patch 2VPLEX GeoSynchrony 5.1 Patch 3VPLEX GeoSynchrony 5.1 Patch 4VPLEX GeoSynchrony 5.2VPLEX GeoS

VPLEX GeoSynchrony 5.2 Service Pack 1VPLEX GeoSynchrony 5.2 Service Pack 1 Patch 1VPLEX GeoSynchrony 5.2 Service Pack 1 Patch 2V

Service Pack 1 Patch 3VPLEX GeoSynchrony 5.3VPLEX GeoSynchrony 5.3 Patch 1VPLEX GeoSynchrony 5.3 Patch 2VPLEX GeoSynchrony 5

GeoSynchrony 5.3 Patch 4VPLEX GeoSynchrony 5.4VPLEX GeoSynchrony 5.4 Service Pack 1VPLEX GeoSynchrony 5.4 Service Pack 1 Pa

レスポンスがありません。
イベントは見つかりませんでした!

Top