12 回复 最新回复: Jan 31, 2018 11:29 PM andylee RSS

CX310电池故障,引起电源误告警,求解!

guan do

最近遇到一个郁闷的问题,事情是这样的:

 

1、一季度巡检的时候,发现这台CX320存储有一个电池黄灯故障,即SPS A。这个坏了大概有半年,因为是接手前坏的,因此只是跟用户说了下,并未更换。

 

2、二季度巡检的时候,发现另一个电池黄灯故障,即SPS B;同时,有一个主控柜的电源黄灯故障,即PS B。进入Navishpere,这三个部件图标均为F状态。遂判定三个部件均已坏。

 

此时,前面的四个小电源均为绿灯。

 

PS B与SPS B连接。

 

3、拔出电源时,注意到电池SPS B黄灯消除,变为绿灯。换好电源PS B后,SPS B电池进行充电测试,但无法通过测试,随后,PS B、SPS B均亮起黄灯,同时,前面的四个小电源中有两个处于黄、绿灯忽闪的状态。

 

登入Navishpere,日志提示为PS B与SPS B存在连线异常,可是根本没动线缆啊。

 

4、于是改为更换SPS B,结果就全正常了,连电源都正常了。SPS B、PS B以及前面的四个小电源,均正常。

 

5、将之前更换的电源备件,用之前被判定为故障的电源PS B,结果PS B仍然正常。

 

最终故障判定为:SPS B故障,引起PS B误告警。

 

小弟是新手,甚为不解,望论坛内的高手帮忙解释下。

  • 1. Re: CX310电池故障,引起电源误告警,求解!
    Nancy Qian

    SPSB故障有时确实会引起Power Supply误报,先贴个图上来看看

     

    SPS.png

    A0, A1, B0,B1就是上面提到的四个小电源。其中A0,A1通过PS A供电给SPA,B0,B1通过PS B供电给SP B。

     

    虽然物理连接上PS A连接到SPS A, PS B连接到SPS B, 请参考https://community.emc.com/docs/DOC-17684

    但是逻辑上的供电方式是SPS A供电给A0和B0,SPS B供电给A1和B1。这样增加了供电的可靠性,一个SPS损坏不会影响正常供电。

     

    因为SPS B通过PS B1, PS B供电给SP B,所以当SPS B故障时,告警可能会同时报在PS B上。

  • 2. Re: CX310电池故障,引起电源误告警,求解!
    guan do

    那么,请问一下,如何能够提高故障判断的准确呢?能不能避免这方面的误判?

  • 3. Re: CX310电池故障,引起电源误告警,求解!
    guan do

    有一个问题是:

     

    我在第二点提到了,二季度巡检的时候,我们发现SPS B黄灯故障,按照您发的图所示,A1和B1小电源则通过SPS B供电,应当会随之发生供电故障啊?可是当时这四个小电源状态均正常。

     

    另外,SPS A之前就已经发生黄灯故障了,那么,A0、B0也应当随之出现供电故障吧?

     

    可是就算这两个电池都以及PS B都故障了,却仍没有当机呢?(当时按照Navishpere上所示,仅有PS A电源状态正常)

     

    换句话说:电池故障后,电源是不是会绕过电池直接给小电源供电?

     

     

  • 4. Re: CX310电池故障,引起电源误告警,求解!
    Nancy Qian

    一般日志会报的很清楚的,要么SPS要么PS。 但是偶尔当两个模块一起报错的时候,一下子就确定哪个真的损坏是比较困难的,通常要换掉先报错的然后测试,最终才能确定故障。

  • 5. Re: CX310电池故障,引起电源误告警,求解!
    Nancy Qian

    Halamca,你的分析很有道理啊,如果两个电池彻彻底底的损坏,那几个小电源都会有告警而且系统会当机,好险。

     

    不能确定电源是否绕过电池,但是可以确定的是SPS A和SPS B有故障但是还能工作,起码没有影响外部PDU给四个小电源正常供电。断电时应该就有很大的分别了。

  • 6. Re: CX310电池故障,引起电源误告警,求解!
    guan do

    找到一张CX310的连线图,可是这张图可把我绕晕了。

     

    cx310.bmp

     

    最底下那个小板(1U)是两个存储处理器(左右型),他的正面是四个小电源;其上那个小板(1U)是两个电池(左右型);在上的柜子(3U)就是两个控制器的电源(上下型)。

     

     

     

    这个供电原理好难理解。

  • 7. Re: CX310电池故障,引起电源误告警,求解!
    Nancy Qian

    按照CX3-10的结构,从下往上依次是SP、SPS、 DAE0、DAE1,....DAE x。

    SPS2.png

     

    电源连线的思路是:

    • 分别将SPS ASPS B连接到电源插座PDU,如图中B边,从左到右SPS的第一个端口。
    • SP A的电源模块(SPE power supply A) 连接到SPS ASP B的电源模块(SPE power supply B) 连接SPS B,如图中B边,从左到右SPS的第二个端口。
    • 将第一个磁盘柜(DAE)的电源模块A连接到SPS A, 电源模块BSPS B,如图中B边,从左到右SPS的第三个端口。
    • 将SPA的信号线(sense cable)连接到SPA上,SPB的信号线连接到SP B上,主要用于检测SPS的状态,如图中B边,从左到右SPS的第四个端口。
    • 将其他的磁盘柜都直接连接到电源插座PDU。

     

    希望能解答你的疑问:)

  • 8. Re: CX310电池故障,引起电源误告警,求解!
    guan do

    谢谢您的解答。我在想,按照这个图的意思,SPS分别给SP和第一个盘柜的电源供电。那么,如果两个SPS同时坏掉的话,岂不是直接当机?这样一来,SPS岂不是没有standby的作用了吗(按照这种连线方法,SPS可是主供电设备啊)?风险岂不是很高?其实我没看懂的地方,就在这里,令人费解。

     

    不知道有没有官方手册,解释下如果两个SPS同时坏掉,会发生什么事?

  • 9. Re: CX310电池故障,引起电源误告警,求解!
    Nancy Qian

    首先SPS A和SPS B互相standby,同时坏掉的可能性是非常小。当有一个SPS有报错时,建议尽快联系EMC更换,及时监控和更换可以将风险降到最低。

     

    如果两个SPS同时报错,就像一开始的问题描述一样,系统是否直接当机就取决于SPS损坏的程度。只要SPS不影响电流通过并且外部供电稳定,系统仍然可以正常工作。如果SPS损坏到连电流都无法通过,确实会发生当机。

  • 10. Re: CX310电池故障,引起电源误告警,求解!
    guan do

    Thanks!这下算是弄明白了。换句话说:SPS有两个作用,一个是备用电源,一个是电流通道。

  • 11. Re: CX310电池故障,引起电源误告警,求解!
    Nancy Qian

    不知道SPS内部具体怎么设计的,从外部功能看起码有这两个方面。另外SPS每周都会充放电自检一次,也增加了它的可用性,如果自检失败,在日志里会显示出来。

  • 12. Re: CX310电池故障,引起电源误告警,求解!
    andylee

    请问您有更换SPS的文档吗,EMC官方的