云计算大数据的快速发展,数据中心作为重要的基础设施也迎来了发展高峰期,特别是云计算数据中心的建设。作为典型的现代数据中心,现代数据中心可用性需要考虑的几个主要问题
一、在数据中心影响可用性因素
在当前的许多数据中心环境下,一般多把正常运行时间定为“5个9”,即99.999%的可用性,这相当于每年的宕机时间约为5min。一般宕机时间持续一个小时甚至更长,相当于约每10-20年发生一次宕机时间。在通常情况下,由于众多数据中心自系统的相互作用,要达到这个目标非常困难。99.999%的数据中心可用性意味着每个子系统的可用性级别要比这个值高得多。原因是所有子系统叠加的宕机时间必须等于或小于5min。因此对这些因素需要认真考虑,尤其是在确定减少宕机时间所需要的费用时。
在对数据中心初建、升级或审查时,应考虑每个子系统。原因是他们对于数据中心的正常运转、宕机时间会产生巨大影响。为数据中心提供的解决方案不要一味求“全”,而是应关注所提供产品的质量。某个子系统的可用性或许能够达到5个9,但另外有一些子系统的可用性不高,也会使整个系统的可用性级别降低。
为了实现总体系统的高可靠性,就要按子系统进行可用性“配备”。由于每个子系统实际的可用性级别不同,因此每个子系统的可用性目标也不同。例如,水冷变压器可用性可能非常高,但泵水系统多个活动部件的可用性通常较低。这样一来,变压器的设计可用性标准可能是7个9,而水泵可能限制在6个9等通过为不同子系统分配可用性级别来设计可用性目标,就能够把该解决方案应用于数据中心时使总体系统实现可用性目标。
下面表中给出了一些子系统可用性影响的例子。
部分子系统影响可用性的例子
子系统的比可靠因素 |
对可用性的影响 |
建筑结构有小的雨水漏洞 |
可造成数据中心部分瘫痪 |
消防洒水系统被错误地触发 |
可造成数据中心较大部分瘫痪 |
空调故障 |
可能造成数据中心部分瘫痪 |
病毒入侵数据中心 |
可能造成数据中心部分或全部瘫痪 |
电源短路器不正常断开 |
可能造成数据中心部分瘫痪 |
紧急断电开关EPO被触发 |
数据中心全部宕机 |
二、设计数据中心时需考虑的几个问题
(1)物理结构
数据中心的物理结构就是能够安装数据中心诸设备并保护其免受环境条件影响的门窗、墙壁、地板和天花板等。档考虑在何地建设、如何建设时,需要采取适当的预防措施,比如地板承重、建筑物的耐震等级、周围环境(电网情况、季节雷雨情况、干扰情况)等,要留有充分的余地,一旦数据中心建成后,要想修改极其困难难。因此,必须做到细心调查,准确预测,认真规划,以确定所需数据中心有关数据局。此外,该建筑结构一般要使用数十年,如果可能,机房结构的设计应能够允许将来进行简单的改造和扩建。
(2)配电
1、机房输入电源(俗称一次电源)。电源是数据中心所有设备运转的动力,从照明、加热、冷却、除湿,到所有的IT设备都需要它。为了保持数据中心的正常运转,需要认真考虑如何进行电源的分配。该子系统的重要组成部分包括:市电电源输入接口、电缆、端子排、配电盘、变压器、断路器、转接开关、插座板等。如果系统对可用性的要求非常高,则需要将某些部分或全部冗余。
2、电源备份。数据中心电源备份通常是指用于保护负载免受劣质电源影响的高质量电源,并在电网掉电时为负载提供不间断的电源。通常都采用电池做临时供电电源,可以提供5min到几个小时的后备时间。与其他关键子系统一眼个,如果需要高可用性,冗余同样必不可少。
3、发电。如果市电断电持续时间很长,仅使用UPS标准配置的电池是不够的。因此,大部分数据中心都采用了现场后备发电的方法。这些发电系统以柴油、天然气或其他碳氢化合物燃料为动力,可以为现场提供长时间的高质量电源。如遇超长时间市电断电,发电机燃料的及时供应或大型存储容器要有足够的容量维持关键系统运转。同样,当系统的可用性要求很高时,也必须使发电机冗余备份。随着技术的发展,燃料电池将很快投入使用,可省去发电机的噪声。
三、空调
加热和冷却子系统为数据中心提供基本的环境条件。由于在大部分情况下计算机设备产生的热量非常大,因此必须认真考虑散热问题。尤其是大量采用占地面积小的高密度服务器,使数据中心的电源功率密度快速增加,有可能形成很多热量难以散发的“热点”。散热方式、气流方向及路径,在规划未来电源功率密度水平和数据中心发展时必须要考虑周全。当然,冷却过程会伴随着湿度的升高,故还需增加除湿手段。
在寒冷的冬季,机房需要升温,升温时往往伴随着干燥,因此,需要增加加湿措施。不论是加湿还是除湿,必须掌握好尺度,否则就会导致机器故障。
很多数据中心的温度在冷却功能失效后,会立即超过设备的工作温度限制。因此,经常需要用系统冗余来避免君机。一般精密空调 (HvAc)系统通常连接到发电机备份电源上,以最大限度地减少由于电源故障导致的宕机时间。
四、机房安全
对于任何安装了关键系统的机房而言,必须解决安全问题。对现场的访问仅限于拥有通行证和经过适当培训、能够正确使用相关设备的人员。否则就可能导致意想不到的故障。现场安全性经常同时包括武装警卫、入侵预防、视频监控和先进的身份识别技术。
五、用干电缆走线和提供风道的高架地板
目前大部分机房都在使用高架地板。高架地板是一种特殊地板,有防静电和普通型之分,它将设备支撑在楼板以上12~48in的位置。这样就可以很方便地在设备下面布置数据和电源电缆。高架地板还经常用做风冷通道,为数据中心的特定点提供冷气。高架地板的类型、质量和开孔位置及大小也需细心考虑
六、现场监控
现场监控类似于汽车上的仪表板。对其中主要参数的及时了解有助于进行预测性维护,这种监视必须是持续进行的。监控既可以在本地进行,也可以远程进行。这样一来,从任何地点都能够对数据中心进行监视。
七、紧急断电
紧急断电系统也是数据中心的一个子系统,但是每个人都希望永远不要将其派上用场。但在紧急情况出现时,为了避免扩大事故范围,就便系统全面停止工作,并禁用数据中心的所有其他电源系统。如发生火灾或自然灾害时,该系统允许救援人员进入房间而不必担心电气安全。
八、消防系统
在进行基建时,必须了解有关消防的规定,并遵照执行。由于进出数据中心的数据和电源电缆非常多,因此防火是一个很重要的问题,但就是这一问题却经常被忽视。除防火系统外,数据中心还配备了灭火系统。灭火系统不仅需要与数据中心相集成,而且传感器也必须非常精确。这样才能够避免消防系统的意外启动。
九、物理界面的设计
机房和机器的物理界面包括通风口、换气口、电缆穿过口等,往往由于人们对这些接口考虑不周,而导致因老鼠钻入高架地板下而咬坏电缆,因爬虫或飞虫侵入机内而导致短路的事件屡见不鲜。
十.双路市电的解决方案
在要求高可靠的计算机机房双路市电供电,如何更有效地利用市电和二次交流电源 (UPS)一直存在着两种观点:一种观点认为两路市电同时接在UPS上(一路接整流器,一路接旁路);另一种观点认为两路市电应在输入配电柜中转换成一路市电提供给UPS。这两种观点设计方案都在使用,但其可用性就有很大的不同,在设计机房时也需认真比较其优缺点,做出正确的决定。
十一.机房和相关环境的照明
这个问题往往被忽视。尤其是大的数据中心,往往占有很大的面积,比如某北方银行数据中心,不但拥有 160OkVA的UPS容量,而且在空间上分布在五层楼上。整个数据中心的照明时间为7x24h。这就带来几方面的问题:
1、如此大量灯具的频繁维修和更换将给数据中心带来不安全因素。
2、灯的眩光会给长期工作在该环境中的人员带来损害。
3、365x24h的长期无节制地耗电会增加运行成本。
4、临近寿命结束时灯管灯光的频繁闪动对中心环境和机器是一种严重的污染。
有一种可以解决这些问题的电源,在保证灯管亮度基本不变的情况下节能30%——40%,灯具寿命延长3——5倍,这将给机房带来很大的收益。
王其英
1963年毕业于电子科技大学(原成都电讯工程学院),毕业后分到原国防科委第15研究所(现太极计算机公司),从事电源的研制。高级工程师,多年来主持并参加了多项国防工程计算机供电系统的研制与实施。主持设计了我国第一颗远程运载火箭和第一颗人造地球同步卫星等多个基地测控系统的供电设备和系统、导弹陀螺专用UPS等的设计、施工和保驾运行,并多年从事UPS工程的各项工作。在各有关杂志上发表论文数百万言,出版了多册电源和UPS专著,现为中国电源学会理事、高级会员、专委会副主任、计算机机房协会专家,交流电源委员会专家组组长、"电源技术应用”主编、兼 “UPS应用”和“机房技术”杂志副主编及多个杂志的编委与顾问。