VPLEXEMC近年主推的虚拟化产品之一。在实际应用中,时常有客户抱怨,实施VPLEX后没有硬件故障情况下性能下降严重。遇到这种问题,往往需要我们详细询问客户并收集很多信息来分析。

     要收集并检查的信息名目种类繁多:后端 VNX性能数据、后端Symmetrix STP性能数据、后端SAN交换机日志、前端SAN 交换机日志、主机日志及性能参数(IO响应时间,IOsize大小、文件系统类型、数据类型及读写比例、主机CPU内存利用率是否偏高、主机多路径软件设置是否符合VPLEX要求、metro环境用户两地间链路情况……

        看到如此多的问题,想必各位看着都头大一圈,其实大多数情况下性能问题没有那么复杂,这里我们介绍vplex中性能问题的简单检查处理步骤及VPLEX简单性能监控功能。

首先运行普通检查程序VplexPlatformHealthCheck确保vplex没有故障,运行后检查Vplex各部件是否正常。

举例输出如下

service@ManagementServer:~> VPlexPlatformHealthCheck

System Information

------------------

     single engine(small config)system detected

 

Management Server IP Connectivity Check

---------------------------------------

Port Plugged : OK

IP interfaces : OK

IP Connectivity to Directors Check : OK

 

Local-com FC Connectivity Check

-------------------------------

Director to Director Connectivity Check : OK

 

Management Server System Check

------------------------------

Process Check : OK

Check Partitions : OK

CPU Check : OK

BMC Check : OK

 

Director (engine-1-1 director 1A 128.221.252.35) Health Check

-------------------------------------------------------------

    Process Check: OK

    CPU Check: OK

    SSD Check: OK

    Partition Check: OK

    RPM Check: OK

    flashDir Check: OK

    WWN Seed Check: OK

    Health Check: OK

    Hardware Module Check: OK

 

Director (engine-1-1 director 1B 128.221.252.36) Health Check

-------------------------------------------------------------

    Process Check: OK

    CPU Check: OK

    SSD Check: OK

    Partition Check: OK

    RPM Check: OK

    flashDir Check: OK

    WWN Seed Check: OK

    Health Check: OK

    Hardware Module Check: OK

 

第二步在vplex无故障情况下,查看Vplex提供的GUI界面monitor页,此页面可以查看CPU利用率


CPU.png

FE 前端口延迟时间

MWSnap005 2014-09-17, 16_56_42.jpg

前端口IO流量

MWSnap003 2014-09-17, 16_56_23.jpg

BE后端口延迟时间

MWSnap006 2014-09-17, 16_56_48.jpg

BE后端口IO流量

MWSnap004 2014-09-17, 16_56_36.jpg


前后端口IO延迟是否一致,前端口延迟过长还是后端口延迟过长,快速定位问题

dvbi.jpg


检查所有前端口延迟是否一致,是否有个别链路超时。检查所有后端口延迟是否一致,是否有个别端口超时。如果是Metro架构,需要观察WAN端口流量和WAN端口延迟时间是否超时


MWSnap008 2014-09-17, 16_57_35.jpgMWSnap009 2014-09-17, 16_57_49.jpg

   笔者曾遇到某医院案例,客户反映客户端处理每笔业务需要3分钟,正常情况应该在3秒内完成,检查前后端,前端口正常,后端口中有一个端口严重超时并丢包率很高,检查交换机log。对应端口显示同样是CRC错误和C3discards高,建议客户更换高质量OM3光纤线,更换后故障立即消失。通过运用同样方法解决了两家银行客户的同样问题,综合近期案例,vplex遇到问题最简单直接的方法就是利用vplex提供的monitor页面,观察和监控各个端口的流量及响应时间,快速判断定位类似“性能”故障。