客户应用系统使用两台相同配置的VNX存储,怀疑VNX导致应用性能下降。系统维护人员在主机上用“dd”的命令对两台VNX分别进行了读写测试,对照后发现其中一台的读性能很差,测试结果如下:


写测试:两台存储性能相同

VNX1

314572800000 bytes (315 GB) copied, 521.238 seconds, 604 MB/s

314572800000 bytes (315 GB) copied, 527.589 seconds, 596 MB/s

314572800000 bytes (315 GB) copied, 529.907 seconds, 594 MB/s

314572800000 bytes (315 GB) copied, 537.869 seconds, 585 MB/s

VNX2

314572800000 bytes (315 GB) copied, 509.022 seconds, 618 MB/s

314572800000 bytes (315 GB) copied, 521.032 seconds, 604 MB/s

314572800000 bytes (315 GB) copied, 528.544 seconds, 595 MB/s

314572800000 bytes (315 GB) copied, 535.1 seconds, 588 MB/s

读测试:VNX2读性能只有VNX1的一半

VNX1

314572800000 bytes (315 GB) copied, 447.419 seconds, 703 MB/s

314572800000 bytes (315 GB) copied, 460.649 seconds, 683 MB/s

314572800000 bytes (315 GB) copied, 474.604 seconds, 663 MB/s

314572800000 bytes (315 GB) copied, 508.481 seconds, 619 MB/s

VNX2

314572800000 bytes (315 GB) copied, 1163.37 seconds, 270 MB/s

314572800000 bytes (315 GB) copied, 1167.6 seconds, 269 MB/s

314572800000 bytes (315 GB) copied, 1244.01 seconds, 253 MB/s

314572800000 bytes (315 GB) copied, 1792.76 seconds, 175 MB/s

 

     在VNX2上用Unisphere Analyzer收集性能数据,分析后发现硬盘1.1.18性能异常:

         1.硬盘响应时间对比,1.1.18明显高于其它硬盘:

Snap1.bmp

 

        2. 硬盘忙时平均队列深度对比,1.1.18最差,与1.1.18同一个Raid Group中的其它硬盘稍差,其它Raid Group中硬盘最好:

Snap2.bmp

 

进一步检查VNX2SP日志发现硬盘1.1.18有很多”Read Command Timeout”报错信息。结合现场观察到的写性能正常,读性能差的现象,判断是硬盘1.1.18故障导致了VNX2上的性能问题。

B 12/18/13 19:41:07 Bus1 Enc1 Dsk18       801 Soft SCSI Bus Error [READ Command timeout] 0    17267bd0 10006

B 12/18/13 19:41:07 Bus1 Enc1 Dsk18       801 Soft SCSI Bus Error [READ Command timeout] 0    17267b00 10006

B 12/18/13 19:41:07 Bus1 Enc1 Dsk18       801 Soft SCSI Bus Error [READ Command timeout] 0    3a8aa5d0 10006

B 12/18/13 19:41:07 Bus1 Enc1 Dsk18       801 Soft SCSI Bus Error [READ Command timeout] 0    3155bd00 10006

 

更换硬盘1.1.18后,VNX2性能恢复正常。由于原硬盘的读性能很差,更换硬盘时Proactive Copy花了接近10个小时。