数据中心机房UPS三种故障处理办法:
突然掉电 故障原因:UPS过载
双电源固然好,但如果UPS坏了,设备照样可能断电,因为由布线图可以看出,它们是串联的。有一次,UPS电源中断输出,指示灯全不亮了,信息中心机房的所有设备全部停止运行,网络随即全部瘫痪。总经理亲自打电话到机房,要求以最快的速度恢复正常。
突然掉电会造成机器硬件很大的损伤,还对企业运营产生影响。庆幸的是,当时管理员都在上班。为了尽快恢复设备运行,我们首先试着重新启动 UPS,居然启动成功并正常运行了。但是伴有不间断的鸣叫声,于是查看UPS维护说明,对应找到此类蜂鸣表示的故障原因——UPS过载。
大家很快想起在不久前刚增加一台功率500W左右的服务器,可能是它使得UPS负载超出警戒上限,最后导致自动停机保护。那为什么超载了,又没有蜂鸣报警呢?原来有人无意识地关闭了蜂鸣,没有考虑到它已经超负荷,反正能供电就把蜂鸣当作误报处理给关了。
根据分析出的原因,我们立刻停运了几台不重要的设备,让UPS的负载指示率低于90%,UPS又开始安静地工作了。看来使用UPS也要量力而行,我们下一步就只能增加UPS容量来解决问题。
UPS意外跳转 故障原因:地线干扰
一次市电正常,大家都能正常上网,可UPS总是跳转到电池组供电模式。在此模式下,蜂鸣总是不断地鸣叫提示。我们马上组织人员检查电路,分析故障原因。最后和机房的立式空调联系起来了,每次启动空调不一会,就自动转为电池组供电。显然这是市电输出受到大功率空调机影响所致。但是他们是分开两路单独供电的,是从不同的配电室里面的配电盘接来的,怎么会产生互相干扰呢?
带着这样的疑问,电工就顺着电线打开天花板、地板、接线盒等逐点进行排查。看是不是什么地方电路虚接到一起了,最后发现它们的零线和地线接到了一块。如此模糊的干扰,对UPS的影响都能被体现到,果然是个精密设备,不能有一点的含糊。
我们决定对空调的地线进行分开处理。分开零线和地线后,再启动空调,发现没有再出现UPS跳转电池组的情况。那么以前怎么没有表现出来呢?我们分析认为是2007年夏天太热了,空调满负荷运转,加大了功率消耗。
电源的质量对企业网络能否稳定、安全至关重要。但网络电源安全实际上还有很多属性,如高性能、可扩展性、可靠性、功能性、准确性和可用性等。为了使企业网络电源能持续稳定地运行下去,除了平常的规范使用外,周期性地利用各种测试工具,对网络电源环境实施维护测试也是必须的。整个机房供电安全系统,需要技术人员认真维护,并要做好日常排查工作,及时发现问题,分析处理非计划停机造成的影响等。
UPS温度控制维护
在UPS的构成中除了冷却用的风扇和断路器开关部件外,还有大量的固态电子器件。它们基本上不存在机械磨损,因此能够长期地工作在最佳运行状态之中。如果要及时发现可能出现的故障苗头,并防止故障隐患扩大,就要使UPS工作在适宜的环境中,并做好日常维护。UPS的工作环境应该与计算机的工作环境相同,温度应控制在5℃以上,22℃以下;相对湿度控制在50%以下,上下幅度不超过10%。当然,和这些因素同样重要的是应保持UPS工作间的清洁、无灰尘、无污染、无有害气体,因为这些因素同样影响UPS的使用寿命和引发故障。
在UPS的日常维护工作中,工程师需要每日进行例行检查,其主要目的是为了积累UPS电源的运行经验和及时发现故障苗头,因此每日的例行检查都要细心。
有效接地防雷击
为了保护建筑物内的电子电器设备不被静电雷击所损坏,电源布线时必须连接地线。要清醒地认识到,电源无地线是十分危险的。设备外壳接地要独立引线接到室外,并且保证系统符合对接地电阻的要求,防静电可以安装永久性防静电地板,要使用防静电手套等防静电产品,在操作设备时必须要戴上机柜上准备的防静电套腕,每天用湿拖把拖地板1至2次;操作设备前洗手等措施。
建筑物的防雷器只是保护建筑物不被直击雷损坏,而不能保护建筑物内部的电子电器设备免遭感应雷损坏。
雷击通过电源电缆或通信线路进入到建筑物内部的机会较大。在这种情况下,感应电压的峰值将对建筑物内部的“敏感电子设备”造成破坏。建筑物内部的计算机或者敏感电子设备还需要有自己的“二级保护”;如包括安装适合的浪涌保护设备。
在计算机、服务器等设备环境中,供电系统都装有高速欠压保护和热保护电路。其主要的作用是:当电网欠压时,依靠滤波电容中的能量来维持工作,一般能够维持10ms左右。由于市电电网的供电质量达不到服务器类设备对供电的要求,在大型的和比较重要的计算机机房,供电基本上都是双路电源加UPS供电,以保证计算机系统的正常运行。因此,我们对计算机等负载设备供电系统的管理主要是针对双电路和UPS系统的管理。