面对日新月异的业务发展和更加严格的行业监管,商业银行对信息系统稳定运行的要求越来越高。工商银行“两地三中心”一体化的运维管理创新与实践,为同业在灾难情况下更快地恢复对外服务提供了可借鉴的案例。今后,工商银行还会广泛应用大数据、云计算等新技术,在建设更为智能的数据中心方面进行进一步的探索。
中国工商银行股份有限公司数据中心(上海)总经理 钱斌
为满足更高标准的业务连续性和系统高可用性要求,2009年工商银行在国内同业率先启动“两地三中心”工程建设,历经5年艰难攻关,从无到有完成了同城双活中心建设,于2014年成功实施同城中心主机系统的迁移投产和切换运行。工商银行“两地三中心”工程的建成,较好地满足了不同故障和灾难场景下商业银行对业务连续性的要求,不仅为自身提供了更加安全、稳定、高效的信息化平台,也为全球同业提升业务连续性水平进行了有益探索和实践。同时,“两地三中心”对IT运维管理模式带来挑战和机遇。
一、“两地三中心”给运维管理带来的挑战
工商银行“两地三中心”工程建设完成后,同城中心B主要运行查询类业务,与同城中心A形成双活部署模式;同城双中心与北京异地灾备中心形成异地灾备模式。当发生局部灾难导致某一同城中心失效时,另一同城中心将立即接管所有核心生产业务;发生区域级灾难同城双中心失效时,可启动灾难应急切换,由灾难恢复中心负责全面接管核心业务处理。总体架构如图1所示。
“两地三中心”模式,其位置的多点分布,某种程度上要求生产运维人员的多地分布,这给原有集中式的生产运维组织架构、管理流程带来极大的挑战。
1.原有组织架构与“两地三中心”模式不匹配
“两地三中心”模式下多个数据中心的生产运维,要求达到“同时运行、互为备份、快速接管”的业务连续性目标,涉及相关职能部门跨地域职责划分与优化部署,原有属地集中式组织架构无法满足。
2.原有运维管理与“两地三中心”模式不匹配
“两地三中心”模式要求应用支持、运行管理、技术维护、远程支持跨地域分工,实现跨中心的远程监控、远程协同、操作与接管,原有属地绑定、条块分割的运维管理流程无法满足。
3.单一的信息安全管理流程与“两地三中心”模式不匹配
“两地三中心”模式下的信息安全管理更多体现云端思维,其数据的访问控制、加密存储和用户管理都发生了很大的变化,对信息安全管理提出了新的挑战。
4.职能运维现状无法满足“两地三中心”模式的要求
“两地三中心”模式下,生产运维操作流程的复杂度大幅增加,如果还依赖运维人员的手工操作、经验技能,一方面出错概率会大幅增加;另一方面运维效率也无法满足新的要求。而原有专业条线各自独立的运维工具建设还会导致整体工具建设的重复投入;工具之间如果不能实现联动,不能构成一个支撑平台,可能导致总体运维成本大幅上升。
二、运维管理创新与实践
1.组织架构一体化
为了实现“同时运行、互为备份、快速接管”的业务连续性目标,首先,组织架构需要解决好跨数据中心的专业协同管理问题,通过制度保障多个数据中心在专业人员配置、专业技术环境、技术维护规范、技术操作实施等内容上的一致性。其次,组织架构需要解决好一个中心发生故障而由其他中心独立接管并维持正常运作的问题。最后,组织架构要有效控制职能部门和人员数量,解决好人力资源集约化配置和使用的问题。“两地三中心”模式下的生产运维尤其要防止简单增加机构和人员数量,要坚持集约化原则,这样才能体现数据中心的成本和技术优势。
工商银行为建立与“两地三中心”技术架构相匹配的运维体系,在组织架构的设置上遵循“一体化管理、专业条线跨地域延伸”原则,将两个同城中心、一个异地灾备中心作为整体,建成三位一体的运维组织体系,打破运维人员对三中心的地域依赖关系;遵循灵活调配与属地化相结合的原则,将应用支持、技术维护、运维管理、风险控制等人员按专业条线划分,对分布在不同物理数据中心的人员,按专业归属一个牵头部门管理,行政和后勤保障上归属统一的职能部门实施跨地域管理。按“两地三中心”运维的实际需要,对应用支持、技术维护人员不做特别区分,视应用人员为专业技术维护人员对业务掌控的延伸,建立应用、技术维护人员的匹配关系表,统一纳入专业条线管理。工商银行“两地三中心”一体化管理的组织架构如图2所示。
工商银行“两地三中心”一体化管理主要体现在四个方面:一是运维操作的一体化管理,三个中心的运行操作和监控工作统一安排;二是ECC现场的一体化管理,三个中心的ECC现场对客户服务、运维操作、事件、变更、性能容量及可用性等服务工作统一组织调度,跟踪落实;三是专业一体化管理,从一线技术维护到二线专业支持,再到三线的技术支援都由专业线负责实施;四是服务支持流程一体化,对客户服务经由ServiceDesk一点对接,内部服务资源统一调度。该组织架构自2013年运作以来,取得了较为明显的效果。
①“两地三中心”投产后,运维操作和监控作为例行化24小时值班的主要内容,实现了统一操作监控流程和手册,将三中心的运行班组按照统一大轮班的方式进行安排,有效节约了运维操作和监控人力资源的投入。
②运维机构的部署上打破地域限制。为确保切换的有效性,剥离运维人员对数据中心属地的依赖性,生产主控中心可在同城中心A、B之间任意选择,消除了环境差异的影响,运维流程进一步巩固。
③有应用支撑的技术维护更有效。将应用支持人员视同技术维护人员统一纳入一体化管理,提升了技术维护人员对业务运行规律的掌控水平,由应用支持人员参与的应急切换接管,账务差错控制可以降到最低,有助于实现“两地三中心”建设目标。
2.运维管理集约化
工商银行“两地三中心”一体化运维目标的实现,充分考虑了运维成本,最大限度实现了三中心协同工作,总结提炼的集约化运维框架见图3。
“两地三中心”运维集约化工作的开展,有效推动了工商银行对信息系统运维体系的全面梳理和完善,提升了数据中心全员对信息系统安全运维工作的认知。效果体现在以下五个方面。
一是组织机构数量没有增加。为保障“两地三中心”模式下生产运维有效运作,在机构设置上打破物理地域界限,按照专业化垂直管理要求进行机构调整,机构数量在三中心的布局上略作变动,但机构总数严格控制,为运维集约化管理奠定了较好的基础。
二是进一步完善了信息系统运维管理制度体系。为做好同城数据中心投产后三中心的协同运行,修订完善了变更管理、应急管理、ECC值班管理、安全管理、机房管理、网络安全管理、园区安全管理等管理程序。特别针对同城应急切换管理,全面修订了《业务连续性管理办法》、《应急管理办法》及其细则和ITCP手册,重点明确了《应急管理办法》事件应急和灾难应急情况下同城切换及异地灾备恢复流程。
三是健全了安全访问控制规范。针对“两地三中心”模式下跨园区互访的合规性、网络访问控制策略,在技术上实现了不同园区生产用户的分离,高级网络用户按时区分类管理的功能,对不同数据中心的系统界面通过登录提示和界面显示,有效区分不同数据中心系统,避免混用、串用风险。
四是ECC现场联动机制有效运行。通过视频系统建立了三中心ECC现场值班联动机制,总值班与其他两个中心ECC值班经理实现实时互动,有效提高了应急处置情况下三地协同进行资源调度和信息沟通效率。
五是应急预案实效性增强。“两地三中心”建成投产,工商银行对包括主机、开放平台等超过50个应用系统的应急预案进行了全面梳理,突出了发挥同城高可用系统架构的基本应急策略要求。在实际演练和生产应急中,通过切换、隔离重启等高可用措施进行应急成效显著。
3.运维平台智能化
在落实“两地三中心”的集约化、一体化方面,工商银行开展了配套的智能运维平台建设。智能运维平台以配置管理(CMDB)为核心,从运维操作、运行监测、安装部署、分析评估四个领域出发,构建了跨地域、跨专业、全流程的一体化智能运维工具体系,其参考框架如图4所示。
一体化智能化运维工具平台达到了如下效果。
一是大幅提升自动化运维水平。推动变更步骤指令化并逐步纳入自动化流程,提升了操作的准确度,极大地减少了生产值班人员的工作负荷,也在一定程度上避免了人为操作出错的风险;实现同城双活应急切换、补账流程的工具化自动处理,大幅提升处理效率,有效杜绝了人为失误与账务差错;力推版本投产操作的一键式触发,实现系统和应用投产操作的一体化联动,大幅压缩手工操作步骤。
二是运行监测及时准确。个性化的监控策略与动态监控指标体系,有助于发现业务的异常突变和渐变趋势;面向专业的技术运行视图,有助于深层次发掘系统层面潜在的隐患;面向业务的全景视图,有助于快速定位故障影响。
三是安装部署便捷灵活。以应用为单位的联动部署,保持了三中心应用部署的一致性和连续性;以节点为单位实现开箱即用式部署,实现了基础设施运维管理的自动化;以软件为单位在三中心的单独部署,防范了因新系统上线不稳定带来的业务影响;建立资源弹性调整机制,便于资源在三中心横向扩容与动态调整,实现资源利用最大化。
四是分析评估智能高效。对三中心的性能数据集中存放,挖掘分析,实现总体容量需求的科学预测;建立事件触发自动故障分析机制,有助于协助运维人员确定问题根源;三中心定期健康检查,有助于运维人员掌控系统运行状况,及时采取预防措施;对三中心发生的业务量情况集中存储,统计分析,为决策者提供支持。
面对日新月异的业务发展和更加严格的行业监管,商业银行对信息系统稳定运行的要求越来越高。工商银行“两地三中心”一体化的运维管理创新与实践,为同业在灾难情况下更快地恢复对外服务提供了可借鉴的案例。今后,工商银行还会广泛应用大数据、云计算等新技术,在建设更为智能的数据中心方面进行进一步的探索。
|