我觉得技术支持Support工程师的工作是和医生是相近的,医生通过“望”、“闻”、“问”、“切”来诊断病情,提出最可靠适合于患者的诊疗方案,同理,Support也通过这四项中医基本方法来帮助客户解决Server的各项毛病。所以,作为一名稳重的技术支持工程师,往往都会先进行一些列的工作,“机器现在报什么错误”、“是否存在直观可见的性能问题,比如备份慢、内存CPU消耗大,或者硬件故障,比如闪灯等”、“详细询问问题故障发生前,机器是否有任何变动,包括服务器升级、机房网络故障、宕机等”、“详细检查相关系统日志,排查问题根源”,最终定位问题根源,提出可执行性解决方案。但是,在日常生活中,由于个人时间成本、医疗资源成本等原因,大家都渐渐培养出一项必备的生存技能,自己看病。这项技能一方面在某些情况下,比如青壮年发烧感冒拉肚子情况下,可以及时地便捷地达到好转及治愈的效果,另以方便,又可以帮助自身注重维护身体的健康,所谓“三分治,七分养”,关键在于平时。同理,对于我们的Avamar服务器,我们也可以通过平时的观察、初级故障排除,来维护Avamar服务器的健康状况。下面,我将介绍一些简单的检查方法,可以用来实时观察Avamar情况如何。

文中所举例子包括:

  1. Avamar  Gen4s-M1200,版本7.0.2,含有三个storage node, 后挂DD860;
  2. Avamar Gen4-3.9TB,版本6.0.2,含有三个storage node。


一、使用AVAMAR GUI监控系统

首先,我们可以通过GUI,也就是Avamar Administrator界面直观地得到Avamar当前状态信息,如下图1图2所示,图1是Avamar  Gen4s-M1200,版本7.0.2,图2是Avamar Gen4-3.9TB,版本6.0.2。

 

图1.png

图2.png

 

分别点击图1中标红部分,可以得到Avamar现在的问题,点击开就可以看到所有的问题。左侧红圈出点击开是关于backup相关报错,如下图3所示;右侧红圈出点击开是Avamar其他activity,比如CP、HFScheck、GC、硬件等相关报错如下图4所示:

图3.png

图4.png

 

有关backup错误,我们会在之后的文章中提到,本文主要介绍maintenance job(包括CP、HFScheck、GC)以及硬件相关错误识别、简单处理解决。

对于经常出现的错误,我们也来介绍一下,当遇见类似报错时,不用慌张,来看看下面的解决方法:

1)A checkpoint of server data is overdue.

这个是说CP超过24小时没有更新。这个在一般情况下,可以先观察一下,看之后几个小时内是否有CP完成,如果有,此报错可以忽略。因为,每天Avamar的工作流程是:

备份->GC(用来清除多余的数据)->  CP -> HFScheck -> CP -> 备份

由此可以看出,每一项工作顺序进行,同时,我们对于每一部分的工作时间也都有预设置,就是各种工作window,但是总会有某些时候各项工作不一定按时完成。比如去医院看病,我们拿拍片举例吧,相对来说,拍片的时间可控性可预见性更大,比如每个患者需要花费20分钟拍片,放射科一天工作8个小时(出去吃饭时间),总共可接待24人。也就是说,正常情况下,医生可以在中午12点左右进行个半天总结,但如果有个患者的情况特殊,花费更多的时间,那医生上半天总结就要延迟。同理地,如果Avamar其他工作由于某些特殊情况延长推迟,比如某天有太多数据要备份(备份时间增长),或者某天有太多数据要扫描删除(GC时间增长),都会导致在24小时内没有CP,也就是此处提到的错误。往往,CP在接下来的2-3个小时内都会完成,那么,这个报错是可容忍忽略的。所以,只要通过在接下来的几个小时内看CP是否完成,再做决定。

2)Data Integrity Alerts

这个报错是关于HFScheck。我们主要碰到的错误信息有:MSG_ERR_HFSCHECKERRORSMSG_ERR_DDR_ERRORMSG_ERR_CGSAN_FAILEDMSG_ERR_TIMEOUT

MSG_ERR_HFSCHECKERRORS主要是由于存储节点上stripes有问题导致的。具体错误可以参见我们的KB 127269 https://emc--c.na5.visual.force.com/apex/KB_Break Fix_Printable?id=kA17 00000000WpJCAU),根据GSAN的错误日志(/data01/cur/err.log)、HFScheck error日志(/data01/hfscheck/err.log)、对应CPlog/data01/ checklogs/cp.xxxxxxxxxxxxxx/err.log)里的具体报错再具体实行解决方案。

MSG_ERR_DDR_ERROR主要是由于和DD的链接、合作问题引起的,具体错误可以参见我们的KB 120996https://emc--c.na5.visual.force.com/apex/KB_BreakFix_1?id=kA1700000000VC8#,通过上面提到的HFScheck错误分析,以及DDR log/usr/local/avamar/var/ ddrmaintlogs/ddrmaint.log)中的错误分析,在具体实行解决方案。

MSG_ERR_CGSAN_FAILED主要是由于CGSAN进程中出现问题。具体错误可以参见我们的KB 165409https://emc--c.na5.visual.force.com/apex/KB_BreakFix_Printable?id= kA1700000000gmpCAA),其中,会牵扯到硬件、ASCD进程、各node间时间是否同步、是否配置正确的license、是否有RMCP进程在Gen3.3上等,这些问题都会导致HFScheck出错并报错MSG_ERR_CGSAN_FAILED

MSG_ERR_TIMEOUT,同MSG_ERR_CGSAN_FAILED类似,是由于硬件、是否有RMCP进程在Gen3.3上、单节点thread exhaustion具体错误可以参见我们的KB 172518https://emc--c.na5.visual.force.com/apex/KB_BreakFix_Printable?id=kA1700000000no5CAA)。

 

对于以上Data Integrity Alerts,不论是通过技术服务工程师或是server自动解决,都可以通过以下操作来清除这些alerts:

  1. 1.  通过命令行清除:

mccli event clear-data-integrity-alerts --reset-code=AVAMARDATAOK

  1. 2.  通过GUI界面清除
    1. a.  登录GUI,点击Administration
    2. b.  点击Event Management
    3. c.  点击Unacknowledged Events
    4. d.  点击Actions > Event Management > Clear Data Integrity Alert
    5. e.  输入code: AVAMARDATAOK

 

好了,我们已经介绍了GUI如何监控Avamar Serevr,尤其是maitenance jobs。通过本篇文章,大家应该对何如通过GUI监控Avamar maintenance job有一定的了解,并且熟悉一些报错信息。那么,接下来就需要大家在工作中慢慢发现体会Avamar GUI监控的便捷性和及时性,并一步步熟悉GUI



作者简介:

mandy xu.jpg

Mandy Xu 8年IT从业经验,2006至2009年在世界500强外企从事系统工程师一职。2009年加入EMC全球支持中心,服务于NetWorker技术支持团队。熟悉存储备份软件操作,熟悉存储备份相关原理。