设为首页 | 收藏本站 | 关于我们 | 广告服务
 
 
当前位置:首页 > 金融信息化 > 风险管理
风险管理
工商银行统一IT监控系统探索与实践
来源:中国金融电脑  作者:张志鹏、吴敏、谢英捷、洪芙蓉  日期:2024/7/15

中国工商银行数据中心运维支持部 张志鹏 吴敏 谢英捷 洪芙蓉

  数字经济背景下,企业IT规模和架构发生了颠覆性的变革,运维监控面临的挑战与日俱增。为实现各类监控数据统一接入、统一计算、统一存储、统一展示等目标,工商银行重点强化监控职责分层化、监控指标体系化、告警计算通用化、告警关联立体化等技术能力,建设了统一IT监控系统。本文在详细阐述统一IT监控系统建设实践的基础上,从监控覆盖面、监控处理效率和可观测能力等方面介绍其取得的建设成效,并分享了部分典型场景的应用经验。

  随着云计算、大数据、分布式、人工智能等新一代信息技术的持续迭代,金融业务快速转型发展。在此背景下,商业银行的监控管理成本显著增加,监控技术面临诸多挑战。工商银行坚决守牢保障安全生产的生命线,积极进行了统一IT监控系统的建设探索与实践。

一、IT监控现状及需要解决的问题

  随着互联网金融的发展,工商银行运营策略实现从线下向线上的转变,运营模式也逐步从传统向数据驱动转变。随着全行金融业务的不断发展,以及“数字工行(D-ICBC)”品牌战略和金融科技数字化转型的持续推进,工商银行IT规模和架构也发生颠覆性的变革,运维监控面临的挑战与日俱增。

  监控系统作为商业银行的“眼睛”,是运维体系中至关重要的一环,在发现问题隐患、应急响应、控制影响等方面发挥着重要作用。工商银行作为国有大型商业银行,需要监控的运维设备从地域上分为境内和境外,从领域上涉及机房基础设施、网络、平台、应用、安全等。同时,不同设备需关注的监控对象也各不相同,如操作系统分为SUSE、Windows、麒麟、AIX、欧拉等,对于每一类操作系统还需监控其CPU、内存、文件数等。大规模的设备和众多的监控对象意味着监控数据量的庞大和监控计算的复杂。为此,需要重点解决以下三个问题。

  一是如何打破分散的、割裂的监控数据孤岛,实现接入统一。运维领域的各类数据分散在不同专业条线的不同设备,所以设计行之有效的架构实现对各类设备的统一监控是首要问题。二是如何对成千上万的监控关注事件进行有效梳理和规范,实现监控各环节在规范上、流程上的一致性。尤其当监控对象涉及多个专业、多个领域,更需打破沟通壁垒,建立完善的监控指标体系以确保各个专业条线的信息共享和协同工作。三是如何兼容海量、复杂、多变的数据计算,实现监控计算统一。换言之,即需要立足指标(Metrics)、日志(Logs)、调用链(Traces)三大数据类型的接入、处理和输出,建立通用化的告警规则配置和数据处理能力。

  为实现“生产安全稳定”和“服务质量高效”两个目标,工商银行亟待采用完备的体系和先进的技术实施全集团监控,实现前瞻预测、全面监控和有效管理,保障业务7×24小时的连续性和稳定性。

二、统一IT监控系统建设实践

  工商银行基于数字化思维的监控体系框架,建设了统一IT监控系统,通过不断完善监控工具、提升监控平台能力和提高智能化水平,确保实现各类监控数据统一接入、统一计算、统一存储、统一展示等目标,并重点强化了统一IT监控系统监控职责分层化、监控指标体系化、告警计算通用化、告警关联立体化等技术能力,其总体框架如图1所示。

图1 工商银行统一IT监控系统总体框架

  1.监控职责分层化

  工商银行统一IT监控系统采用“集中监控+专业监控”的方式,构建面向一线、二线岗位角色的监控系统。

  (1)专业监控

  由于各专业条线对应的监控对象存在差异,为拓展监控覆盖面和深度,监控指标采集和监控告警计算由各专业条线分别开展。专业监控系统又分为机房基础设施、网络、平台、应用、安全等监控子系统,例如,网络监控子系统对交换机、路由器及网络线路端口等进行监控,平台监控子系统对操作系统指标等进行监控。

  (2)集中监控

  为提高投入效率、减少重复建设,各专业监控子系统告警数据基于统一标准进行上送,由集中监控系统结合实际需求对告警数据进行统一处理,包括告警丰富、屏蔽,以及针对不同层面、不同专业角度的事件进行合并、收敛、告警重定级、关联分析等。其中,通过合并、收敛以及告警重定级等操作,可帮助企业避免非重要告警信息的干扰,确保关键业务告警得到及时处理和响应,提高告警处置的效率和准确性。此外,集中监控系统可将所有告警数据进行全景展示,并提供定制化过滤和配置监控视图的能力,以提升不同岗位角色对生产运行情况的感知能力,提高异常感知效率。

  2.监控指标体系化

  工商银行遵循系统性、科学性和可操作性原则,将衡量和评估系统关键性能和状态的度量标准约定为监控指标,并对监控指标进行系统化、标准化、流程化梳理,建立统一的监控指标体系,以方便各专业条线打通信息通道、形成规范共识,实现对业务运行状况的全面监控,提高运营效率。

  (1)构建监控指标采集体系

  一是建立监控指标命名规范,明确专业监控分类、监控数据源类型(指标型、日志型、链路型)、监控指标含义、监控级别等要素的表示形式,如ICBC_OP_LX_Disk_Used_Ptc_C为Linux操作系统磁盘使用率Critical级别告警,其中“ICBC_OP_”表示工商银行平台专业线指标型监控,“C”表示Critical;ICBC_OP_LOG_MDW_WAS_SystemOut_OutOfMemory为中间件WAS的SystemOut日志中记录内存溢出信息的监控告警,其中“ICBC_OP_LOG_”表示工商银行平台专业线日志型监控,“MDW”表示中间件。二是建立监控采集字段标准,包括数据采集IP、数据探测点ID、数据采集时间、采集频率以及数据详情等标准化字段。

  (2)构建告警指标处理体系

  一是建立告警上送指标体系,各专业监控子系统据此上送告警信息,告警信息包括节点IP、所属应用、对象名称、告警级别、告警信息描述、告警发生时间等30多个字段,字段之间用“||”分隔,如有字段为空系统将使用缺省值赋值。二是建立告警丰富指标体系,在各专业告警的基础上进行告警压缩合并、重定级、字段丰富,以方便监控处置人员处理。告警丰富字段主要包括告警处理部门、告警次数、首次发生时间、最近发生时间、是否关闭、是否屏蔽等。

  3.告警计算通用化

  工商银行统一IT监控系统兼容指标、日志、调用链三大类型数据的接入、处理和输出,建立了通用处理能力,力求实现多源数据统一计算。

  一是构建监控告警计算策略标准,包括策略ID、策略对象(监控指标类型ID、数据探测点ID的组合)、告警计算算法ID、告警计算算法策略配置等标准。

  二是构建监控告警计算引擎,实现“不漏报、少误报、高响应”的监控目标。首先,构建通用规则告警计算引擎,包括指标型、日志型、基于图计算的调用链等告警计算引擎。基于通用规则告警计算引擎,监控管理员仅需配置相应的告警公式规则或领域语言规则并启用相应的策略,即可实现告警的触发。其次,构建通用的智能告警计算引擎,包括动态基线、日志异常自发现等智能告警计算引擎。在指标告警计算的智能化方面,传统的监控通常只依据当前手工配置的静态阈值进行规则判断,存在灵敏度不高的问题,对此,工商银行通过利用存储于时序库的历史指标数据进行机器学习,形成动态阈值,智能检测指标异常并发出告警。这种动静结合的方法综合了工作日、节假日、业务高峰等时间因素以及不同业务指标特性,有效弥补了静态阈值场景能力的不足。在日志告警计算的智能化方面,传统日志解析需基于人工分析日志文件配置解析规则,工作量大且易出错,工商银行采用Loglizer等工具包,基于机器学习的日志分析技术,实现自动异常检测,有效解决了难题。

  4.告警关联立体化

  区别于传统单个探点、单个专业条线的监控,统一IT监控系统通过图计算实现跨专业、跨应用、可下钻分析的立体化全景监控(如图2所示),通过对数据进行多维分析,有效促进数据融合共享,辅助事件的快速处置。

图2 告警关联立体化全景监控示意

  统一IT监控系统纵向关注应用自底向上各层级链路的监控,包括基础设施层、网络层、IaaS、PaaS、应用层、业务层等;横向基于应用节点的服务访问关系进行融合关联,形成应用间服务群组维度的关联关系,在提升告警关联有效性的同时,快速评判应用健康度,探测故障根源。

三、统一IT监控系统建设成效

  统一IT监控系统作为工商银行统一的监控管理系统,为全行科技用户提供了统一的监控策略管理、处理以及视图服务等。经过多年的建设与沉淀,统一IT监控系统在监控覆盖面、监控处理效率以及可观测能力方面取得了显著成效。

  1.监控采集全面覆盖

  工商银行以标准化的监控管理流程和角色为保障,以打通配置管理数据库(CMDB)与监控系统为手段,实现监控覆盖度检查。目前,统一IT监控系统在覆盖机构上打破了地域藩篱,涵盖直属机构数据中心和几十家境内外分行及机构;在监控对象上对接机房基础设施、网络、平台、应用、安全五类专业条线监控系统,支持多协议、多格式的监控数据源,并提供统一的监控数据上送服务,涵盖近3000项监控指标、60万个监控对象,实现了运维对象的全覆盖。

  2.监控处理快速高效

  在监控采集方面,工商银行主要使用分钟级采集模式,并对重要指标使用了10秒级甚至秒级的高频采集模式。目前,使用10秒级采集模式的指标超过2200项,使用10秒~1分钟采集模式的指标近100项。

  在监控处理方面,工商银行通过采用业界主流的Kappa大数据处理模型,结合“Kafka+Flink”流式处理实现了高吞吐、低延迟、高性能的数据处理能力,所有上送至集中监控系统的告警数据通过该架构模型进行统一丰富和优化。该模型日处理告警量约500万条、落地存储约10万条,确保了告警发现的时效性。

  在监控存储方面,工商银行采用了分层存储策略:一是将监控原始指标数据存入时序库和日志库,提供高频、高密度的数据吞吐能力,支持快速回看历史曲线和原始日志记录。二是将监控告警数据采用冷热分离的模式存入关系库,活跃实时告警数据存储量达40万条,并配有告警风暴压缩策略,确保告警风暴发生时监控系统仍能正常运行;历史告警数据可高效满足数据的归档存储要求,为回溯、审计等场景提供支撑。

  3.监控视图可观测

  一是统一IT监控系统具备园区级高可用性,可实现异常自动接管。该系统采用分布式部署,可根据需求实现数据处理能力的水平扩展,其中前端应用负载均衡,汇聚处理层和数据库集群化,底层采集探针采用双园区主备模式。

  二是在监控可观测能力上,统一IT监控系统为不同的运维角色用户提供多角度的监控视图功能。各专业条线可通过设置监控视图页面过滤器或编写SQL筛选自身负责的告警类型,并且可以选择展示的字段;一线运维人员根据监控视图可进行告警的及时通知与处置,且可以新建工单并将其提交至工单系统进行流转和跟踪;二线支持人员可了解系统或软硬件的运行情况、性能信息、工单信息等,为各专业条线排除障碍提供重要支点。

四、典型场景的应用探索

  基于统一IT监控系统,工商银行结合日常生产运维中的需求和痛点,进行了一系列典型场景的应用探索,包括告警自愈场景、面向业务的运行态势监控场景等,有效发挥了监控的作用,为生产运维保驾护航。

  1.告警自愈场景

  实现服务正常化是实施监控的主要目标。为减少运维操作人工干预的时间和工作量,提升告警问题的解决速度,工商银行基于运维服务平台,关联应急管理系统,采集平台、应用、网络、设备、安全等专业条线运维操作数据,通过跨专业条线运维操作的标准化接入、运维操作流程的便携式拖拽编排,构建了监控自愈系统,实现了人工干预向自动化调度的模式转变,可为不同告警场景提供自助服务。

  告警自愈场景分为不健康状态场景和亚健康状态场景。针对不健康状态,运维人员无需手动操作,仅需通过关联相应的自愈场景,即可自动恢复已触发告警的事件;针对还未触发告警的亚健康状态,运维人员可对其进行实时自动监测并预先恢复,以降低告警的发生频率。监控自愈系统降低了人工操作风险,提升了运维人员跨专业条线联合定位故障恢复点的时效性,有效控制了告警的影响范围,推动运维管理模式转型升级。

  2.面向业务的运行态势监控场景

  对于商业银行来说,业务系统是重中之重。以往的业务系统异常检测工具延迟性较高、精细度较差,系统也比较繁复,往往无法满足一线运维的需要。工商银行抽象出业务线的概念,如快捷支付网联、个人手机银行、个人网上银行等业务线,实现重点业务场景精细化管理;同时,按照交易率、响应时间、系统成功率、业务成功率四大黄金指标对各业务线的交易进行展示,辅以设置预测值上下限,可直观地发现交易异常情况。另外,工商银行着眼于上下游链路,通过对业务全链路环节进行监控,以更好把握各环节的运行情况;同时采用Phi累积故障检测模型评估业务系统运行的健康度,聚焦业务性能、业务连续性和用户体验,及时发现业务运行的潜在风险,不断优化业务流程,提高业务效率和客户满意度。

  未来,工商银行将持续推进“数字工行(D-ICBC)”品牌战略和金融科技数字化转型发展,坚持“技术+数据”双引擎驱动,依托“分布式+云+自主可控”架构,推动监控系统信创转型,促进监控数字化及可观测能力提升,并尝试与大模型等实现互联互通,探索应用于运维预警、异常检测、故障定位、决策处置和智能分析等各类运维场景。

 
 
企业简介 | 版权声明 | 免责声明 | 频道介绍 | 安全提示 | 法律顾问 | 网上投稿 | 客服电话 | RSS订阅
Copyright © 2005 Fcc.Com.Cn, All Rights Reserved. ,《中国金融电脑》杂志社版权所有
电话:010-51915111-805 传真:010-51915236,网络出版服务许可证(署)网出证(京)字第337号
京ICP备14024077号-1 京公安网备:11010802025321 技术支持:站多多