设为首页 | 收藏本站 | 关于我们 | 广告服务
 
 
当前位置:首页 > 中国金融电脑 > 2015年9月
创新助推工商银行“两地三中心”工程建设/李六旬

  工商银行两地三中心工程建设共历时5年,完成自主创新18项,共计提交13项国家专利申请。项目建设过程中,科技人员自主、创新,有机整合应用业界多种技术,实现了信息系统从传统灾备恢复模式向双中心并行运行的业务连续模式的转型。在主机、网络、开放平台等技术应用方面,探索实践了金融业业务连续运转的新模式,成为行业内可借鉴的示范标杆。


原中国工商银行股份有限公司数据中心(北京)副总经理 李六旬

  201541822:0041922:00,工商银行成功实施了2015年度首次临时通知同城站点切换演练,在切换和回切过程中,业务影响时间均控制在2分钟之内,进一步验证了同城数据中心的业务运营接管能力。这是继工商银行2013年在国内同业率先成功实施数据中心同城双园区全业务切换运行,以及2014年上海嘉定同城中心成功投产并实现全国首家金融企业跨数据中心全球核心业务分钟级切换运营之后,在持续提升信息系统连续运营能力道路上的又一个重要里程碑,标志着工商银行已具备常态化下行业内领先的业务连续性和灾难恢复能力。

 

  一、工商银行“两地三中心”工程双活目标


  2009年,为在两地两中心灾备体系基础上进一步提高信息系统的高可用性和业务连续运作能力,探索从传统灾备恢复模式向双中心双活、多活的业务连续模式转型,工商银行启动了两地三中心新架构建设,明确最终实现的业务目标为双活一备、业务连续、数据零丢失,即数据上海(上海)建设同城双中心应对站点级故障或灾难,双中心均能运行核心银行业务并可相互接管,实现分钟级恢复对外客户服务,并保持数据零丢失;数据中心(北京)作为异地备份中心,应对区域级灾难。

  根据总行工程布局要求,工商银行数据中心(北京)牵头展开技术攻关和研究工作。项目团队在技术论证和调研过程中发现,两地三中心双活建设目标是站在面向业务的角度真正满足业务连续性运作的需要,是业界双活建设的最高追求目标。在业界没有成熟解决方案的情况下,经过反复的技术论证,工商银行数据中心(北京)大胆提出了以自主创新为主,结合多家厂商产品技术,从业务连续性模型设计、基础设施规划、系统架构设计、应用架构改造等多个维度,同时展开构建适应工商银行业务需求以及未来发展并可满足业务连续性运作最高等级的两地三中心新架构体系。

  为实现工程建设目标,工商银行数据中心(北京)牵头深入研究、理清思路,最终确立了双活目标的重点技术攻关方向。

  首先,要确保数据的实时同步,这是实现同城双活的基础。工商银行核心应用系统中数据类型种类多样,如何高效安全地将各类数据复制到同城中心并做到数据内部的一致性及使用的有效性,是同城中心部署应用和实施接管的前提。

  其次,要确保负载的敏捷调度,这是实现同城双活的关键。同城双中心、双活实现业务的连续运作,意味着双中心内部的应用负载在故障发生后可快速接管业务,从而规避业务影响,而联机及批量负载在负载调度过程中,如何做到智能、敏捷、安全和对业务透明是要攻克的第二个技术难关。

  再次,要确保全自动、智能化,这是保障同城双活达成最终效果的核心。工商银行庞大的业务规模和巨大的交易量,以及同城中心和主中心之间55千米的物理距离,意味着如果在技术上没有实现全自动、智能化的感应和处置机制,当主中心出现故障时,如果同城中心不能及时感知并自动化响应实施快速接管,那同城中心只是一堆物理设备的堆砌。因此,如何建立全自动、智能化的感应和处置机制是要攻克的第三个技术难关。

 

  二、工商银行“两地三中心”工程技术创新成果


  在明确了技术攻关方向之后,工商银行数据中心(北京)项目团队全面展开详细技术实现方法的探索,并分步进行大胆的技术尝试。通过与厂商的联合创新、共同研发,最终形成了独有特色且行业领先的技术方案,并实现了三大技术创新。

   技术创新成果之一:运用高效多路并行数据复制技术,实现数据复制的准实时性和高一致性

  工商银行信息系统数据库数据的更新量和更新频率位居全球业界前列,而传统数据库异步更新软件根本无法满足要求。为了突破复制产品的性能瓶颈,项目团队对数据库异步复制的端到端全过程展开了抽丝剥茧的分析,定位了9大技术瓶颈并逐一攻关。通过优化复制日志扫描源端日志分析扫描算法、拓展复制多通道技术、调优复制传输消息组包机制、SQL回放端多进程并发、热表复制依赖关系分析算法效率优化、系统表锁颗粒度最优配置等多个技术优化,以及精细划分多组并发处理和应用配套改造等多项措施,最终实现了在超高联机交易率及批量负载期间7×24小时不间断的异步数据复制,且复制延迟持续控制在5秒以内,确保了每日主中心数据库上百个TB账务数据更新在同城中心复制的正确性和实时性。

  虽然多路并发的复制设计解决了性能问题,但又带来了各路复制并发导致进度不一致,无法保障同城中心侧数据一致性的棘手问题。不同于社交信息、互联网及电商交易等处理可以容忍最终结果完整性而不追求实时过程完整性,银行金融交易对账务数据有着严格的实时性、准确性以及完整性要求,没有统一的基准数据视图,将直接导致同城中心接管后面临乱账和错账的高业务风险。为此,项目团队创新性地提出在各个复制组间设置协同点机制,在不降低复制性能和吞吐量的前提下,多组复制保持数据一致性的完美解决方案,为同城中心业务用户提供了一个完整、统一的交易数据视图。该解决方案已申请技术专利,可为其他同类数据库级产品提供解决性能和一致性矛盾的借鉴思路。

  在开放平台数据库的数据同步方面,项目团队在对各类技术充分理解的基础上大胆创新,结合数据库级异步模式的数据恢复技术和磁盘级同步数据恢复技术的优点实现了同城数据库数据的零丢失,并做到对主库的性能影响最小化,在开放平台双活部署方面奠定了良好基础。

   技术创新成果之二:研发安全敏捷的工作负载调度机制,实现负载的灵活按需切换

  业务层双活的标志是联机和批量业务均可以在两个数据中心之间同时运行,并可以快速、灵活、安全地切换调度,这需要建立在网络、存储、系统、应用等多个层面进行特殊设计部署和调度协同的机制。项目团队在深入调查和评估后,结合应用系统架构实际情况,自主设计了一套可以安全、高效调度全部联机和批量负载的解决方案,创造性地解决了这一业界技术难题。

  面对银行系统庞大繁杂的体系结构和众多种类的联机、批量负载,项目团队先将目标调度负载进行分类,对系统架构进行分层,再根据不同负载的调度时效性、安全性等要求在系统架构的各个层面实施相应的改造,从而完成总体的负载调度目标。

  在主机层面,一是为实现联机交易负载在双活中心之间的路由和自动化调度,在主机和网关之间增加负载调度设备,同时在网关中根据交易类型进行分组,不同分组通过不同的路由上送负载调度设备,从而可以通过集中化的负载调度设备统一控制各类联机交易负载。二是为了确保联机交易在切换和调度过程中的安全性和数据的一致性,在业界首次引入SASP(服务器应用状态协议),在网络层面进行严格的网络连接路由控制,有效解决了主机接入使用长连接带来的交易异常双活风险。三是为了降低在联机交易调度过程中可能带来的部分交易执行异常和最大程度保护数据一致性,项目团队首创了一套完备的联机安全切换调度流程,并通过程序实现了自动化,从而可以将全行的联机负载在没有数据丢失的情况下在2分钟内从一个中心全部切换到另一个中心。四是由于双活中心的联机交易双活与数据复制系统密切相关,为了避免因数据复制系统异常引起的联机交易错误,项目团队设计并实现了基于数据复制状态的全自动联机交易调度,当数据复制系统出现异常时,可以自动化实施联机交易调度,从而确保联机交易可以正常执行。五是针对主机批量负载,项目团队设计了基于磁盘挂接和一体化批量系统的调度切换方案,可以在30分钟内完成全部批量负载的切换调度,并可实现数据挖掘批量的秒级切换。

  在开放平台层面,针对开放平台系统众多的特点,根据不同应用特点和应用灾备等级要求,项目团队自主设计了基于服务器DNS域名解析系统及局域网延伸技术的多点接入方案,并通过智能DNS实现交易访问请求在站点之间的负载灵活调度。

    技术创新成果之三:设计全自动、智能化感应的运维管理支撑系统,有力保障双活架构发挥实效

  业务层双活作为双活系统建设金字塔尖的明珠,相对于传统的存储层双活、系统层双活和应用层双活等,其实现形式具有极高的难度,因为要发挥双活架构的实际效用,需要将分散在距离数十公里的两个站点内的存储层、系统层、应用层等众多内容统筹考虑、统一调度,实现全局化的集中管理。

  为解决同城中心之间两套庞大的主机系统、上千台服务器和几百套应用系统在双活运行时的调度协调问题,项目团队自主设计并研发了全链路、一键式自动化调度切换系统。通过全面的业务流程梳理,并结合双活系统架构的特性,将双活中心在切换调度过程中各类设备和系统上的数百步操作归类、打包、封装,实现了一键式的自动化调度和执行,保障了复杂双活架构在生产实际运维场景的有效落地。

  双活系统需要依托于对应的双活产品组件才能正常运行,但研究发现双活关键组件在产品自身的高可用性上设计不足,这可能导致系统故障发生时双活组件无法使用,这个阿喀琉斯之踵对于双活架构可以说是致命的。针对这一问题,项目团队对所有可行的技术手段进行了梳理,首创了一套双活组件高可用保障方案。该方案采用了异常主动探查+自动恢复的设计思路,全面提升了双活系统的风险防范能力和自我恢复能力,并改善了双活关键组件的可用性,带来了整个双活系统在稳定性和业务保障能力上的全面提升。

  为切实发挥双活系统在生产运维中的功能,项目团队在完善双活技术系统的同时重点开展了运维管理系统的建设。针对双活架构对运维管理带来的新变化和新要求,基于数据中心一体化、标准化管理模式,重新设计并实现了运维自动化平台,将三中心运行状态统一视图展示,实现三中心对设备、网络、系统、应用、交易的实时统一监控、集中报警,以及监控事件的集中处理。同时,在支持生产中心对现有的运维管理方式进行全面的优化调整,并配套提供相应的技术工具,为达成业务连续性运作、发挥两地三中心架构实效提供有力技术支撑。

  以上技术创新成果有力保障了工商银行两地三中心同城双活新架构的实现,数据丢失、系统快速恢复等关键指标均达到方案设计的最优目标,为工商银行业务的快速发展提供了稳健高效的信息化平台。

  工商银行两地三中心工程建设历时5年,完成自主创新18项,共计提交13项国家专利申请。在工程建设的征途中,数据中心(北京)牵头的项目团队敢于突破、勇于创新,通过审慎论证和大胆尝试,有机整合应用业界多种技术,实现了信息系统从传统灾备恢复模式向双中心并行运行的业务连续模式的转型。在主机、网络、开放平台等技术应用方面,探索实践了金融业业务连续运转的新模式,成为行业内可借鉴的示范标杆。

 
过刊查询
2022年03月 2022年02月 2022年01月
2021年12月 2021年11月 2021年10月
2021年09月 2021年08月 2021年07月
2021年06月 2021年06月 2021年05月
查看所有过刊
本期精选
《中国金融电脑》2015年9月目录
“两地三中心”实现业务连续性新飞跃
“两地三中心”模式下的一体化运维管理/..
创新助推工商银行“两地三中心”工程建设..
打造与“两地三中心”相适应的应用架构体..
 
企业简介 | 版权声明 | 免责声明 | 频道介绍 | 安全提示 | 法律顾问 | 网上投稿 | 客服电话 | RSS订阅
Copyright © 2005 Fcc.Com.Cn, All Rights Reserved. ,《中国金融电脑》杂志社版权所有
电话:010-51915111-805 传真:010-51915236,网络出版服务许可证(署)网出证(京)字第337号
京ICP备14024077号-1 京公安网备:11010802025321 技术支持:站多多