欢迎进入中国计算机用户协会数据中心分会官方网站!

当前位置: 首页 >>技术前沿 >>应用案例
技术前沿
应用案例
机房在线改造工程的风险与控制
时间:2010-07-23       分享:

 

 

机房在线改造工程的风险与控制

中国人民银行清算总中心王红峰 王军

 

 

随着社会信息化建设步伐的不断加快,构建业务应用系统的IT设备日渐复杂,对场地条件的要求越来越高,很多机房面临在线改造。与新建机房不同,机房在线改造设计上受各种条件所限,施工要求在业务系统不间断运行下实施,因此存在很大技术和工程风险,改造效果有时也不甚理

想,被不少用户甚至施工单位视为畏途。本文分析了机房在线改造工程存在的技术和工程风险,从建设方角度探索控制风险的思路和策略,为相关工作提供了有价值的建议。

 

1 机房在线改造的主要特点

(1)什么是机房在线改造

机房在线改造,是指在业务系统设备正常运行条件下,对其运行支撑的机房场地环境进行改扩建的工程。改造目标常包括调整机房布局、扩大场地设施容量、提高场地安全防护能力。根据工程目标,工程内容常包括改造空调系统、UPS系统、供配电系统、消防系统、机房接地系统、网络布线系统、环境监控系统、照明系统,部分工程还涉及场地加固等工作。

(2)工程主要特点

机房在线改造工程的主要特点是:①不间断服务:改造期间,要求被改造机房维持局部区域温湿度、清洁度、供电、网络通信条件,提供IT设备工作环境,保持业务系统设备不间断运行。②实施复杂:待改造机房常处于办公大厦的中间位置,供电、UPS、空调、接地、消防、安全等系统是大厦在用系统的一部分,改造方案和施工条件多受大厦整体条件的限制,工程需要多家专业单位的协同工作,设计、实施、运作都比较复杂。

(3)工程技术风险突出

机房在线改造是工程技术问题多发领域,工程技术风险突出。机房建设工程涉及强电、弱电、暖通、消防、结构、装修等多个专业的设计和施工,设计和施工工作都要求具有不同专业资质的单位进行,专业间相互影响多,要求相互配合细节很多,涉及国家技术标准和规范多,涉及单位多,沟通协调难度大,易产生设计施工中的疏忽、遗漏和矛盾,工程技术风险较高。

(4)工程缺陷带来严重后果

与新建机房不同,如果设计或实施不当,不仅有可能造成被改造机房技术指标不正常或者损坏IT设备和场地设施,影响改造现场内业务系统的正常运行,甚至还有可能引起大厦或相邻其他机房的电力或空调系统故障,影响其他业务系统的运行,带来更大的损失,这令建设单位难以接受。另外,在线改造机房的工程技术问题造成的损失和后果在建成使用一定时间后才能发现,工程技术缺陷弥补困难。大量机房改造工程实践表明,机房在线改造属于事故多发工程,常常变成遗憾工程。

 

2 机房在线改造的工程技术风险

2.1 常见的技术风险

    机房在线改造的常见技术风险主要包括:

(1)场地设备配置不当,容量规划超标或不足,设备选型或技术指标设计失误,导致设备投资浪费,或投入使用后被迫追加设备。某金融运行中心机房改造后空调配备不足,机房局部过热,后被迫两次追加安装机房空调。某单位生产运行中心空调系统设计选型失误,空调系统无法开启,只得另行安装柜式空调弥补,无法达到精密的温度湿度场地条件。

(2)供配电系统、接地系统的设计和施工有缺陷,零地电压偏高、高频谐波分量偏高,电气可靠性差,机器缺乏正常运行环境。因某交易中心重要机房出现该问题,难以保证IT设备正常运行条件,IBM公司甚至拒绝

给设备上电。

(3)机房设计缺乏节能考虑,投入使用后运行维护费用居高不下,是很多机房建设的突出问题。某单位运营中心机房位于顶楼,两面为大面积玻璃窗和玻璃墙,天花板层薄且吊顶内未做节能处理,使用后电费消耗惊人,投资效益差。

(4)设计方案存在缺陷,开工后发现无法实施,被迫修改方案、追加投资、调整工期。某单位测试中心机

房施工中发现受现有环境的影响,必须调整设计方案,给备品备件室安装防静电地板,修改主电力电缆路由,增加了项目投资。

2.2 常见工程风险

与新建机房相同,在线改造工程在施工用电、施工用水、施工防火、成品保护等环节存在工程风险,工程界对此已有共识,有经验的施工方、建设方、物业管理部门对此都会有所考虑或制定相应工作制度。除此以外,在线改造工程因施工现场紧邻或就在设备工作区,受现场条件影响更多,尤其在现场清理与准备、在线施工保护、现场水电管路安装、系统迁移等环节施工风险很高。

(1)施工现场清理阶段的风险

①现场火灾风险。待改造机房一般已经使用多年,设备部件老化破旧,进入故障多发期,清理移动过程中可能发生设备故障甚至自爆自燃,有的机房堆积办公家具、安装材料等可燃物,火灾风险增加;

②电气系统故障。待改造机房常使用多年或经多次电气改造,电气线路安装资料缺失,难以对电气系统分阶段清理和保留整理提供帮助,需要施工人员逐条电缆查找分析。清理移动过程中,老化破损电缆很可能出现松动甚至短路等现象,造成电气系统意外故障。

③现场操作风险。现场设备与家具搬移、旧装修材料拆除等操作常有安全风险并出人意外。某单位机房施工清理现场中曾发生旧防静电活动地板坍塌事故,导致施工人员受伤,且险些酿成触电事故。

 

(2)在线施工的工程风险

水电管路安装风险。在线施工期间,因原有空调、UPS系统继续保持使用,而新安装的空调、UPS、临时供电供水等水电管路路由极易与已有管路矛盾,如强行安装则易造成管道泄漏,影响电力空调系统运行,导致业务系统不能正常运行甚至设备宕机或烧坏。某电信机房在线改造中电缆过水、电路短路、配电系统跳闸、设备宕机损坏、业务系统被迫停止运行。

在线保护风险。在线改造机房大部分情况下采取分阶段分区域施工,必须制作保护隔断,但施工中仍

发现不能保证设备工作的必要环境,不能阻挡施工粉尘和施工搬移物品的刮蹭,造成IT设备大量积尘、故障和物理损坏,影响业务系统稳定运行。

 

(3)系统迁移阶段的风险

机房在线改造不可避免涉及业务系统的运行设备迁移。IT设备下电后就有可能不能正常启动所有部件,更何况经历设备下电、拆除、物理搬运、重新就位、设备上电等一系列操作,系统迁移运作安排和操作稍有不慎,致使系统启动不成功的可能性很大。因此,也是影响业务系统稳定运行的重要因素,是工程风险之一。

 

3 机房在线改造的技术风险分析

工程实践中多次的经验教训表明,机房在线改造的技术风险产生于机房勘察、设计和施工的各个环节的工作中。

3.1 勘察工作重视不够,工作不足

由于在线改造是在已有机房基础上进行,工程规模可能不大,内容比较简单,设计方很容易忽视勘察工作,部分建设方经验不足,对勘察工作了解和要求不多。如果勘察工作缺失或不足,未发现某些限制条件或认识不够,很可能被迫修改设计方案或施工方案,导致施工内容的增减,给工程造价控制、运作管理带来麻烦。

3.2 设计工作出现失误

设计质量控制是技术风险控制的最重要内容。主要设计失误原因包括:

( 1 ) 未对场地需求进行细致分析,无法对容量进行准确规划,关键设备容量设计产生偏差;合理科学的设计以需求分析为基础。由于需求分析不够细致准确或设计人员经验能力的局限等原因,设计方案很可能存在技术疏漏或错误。

(2)对机房系统中影响IT系统可靠运行的关键性因素考虑不足,未进行相应设计,如对零地电压、谐波治理、防雷保护等涉及IT安全运行的问题考虑不够。

(3)部分专业工艺设计未按照国家有关技术规范和标准要求执行,或虽执行了国标要求,但并未进行详细的分析和计算。                                     

你知道你的Internet Explorer是过时了吗?

为了得到我们网站最好的体验效果,我们建议您升级到最新版本的Internet Explorer或选择另一个web浏览器.一个列表最流行的web浏览器在下面可以找到.