设为首页 | 收藏本站 | 关于我们 | 广告服务
 
 
当前位置:首页 > 中国金融电脑 > 2022年10月
国泰君安证券首席信息官俞枫专访:构建一体化智能运维服务平台,助力企业全面数字化转型

《中国金融电脑》特约撰稿人 李卫忠

  近年来,国泰君安证券股份有限公司(以下简称“国泰君安”)全力推进全面数字化转型,紧抓数字化转型机遇,积极打造智能运维“新大脑”,以“数据化、智能化、自动化”为主线构建一体化智能运维服务平台,提升以数据驱动为导向的自动化、智能化运维服务能力。近日,本刊特约撰稿人对国泰君安首席信息官俞枫进行了专访,请他详细介绍了国泰君安在智能运维领域的探索与实践。

国泰君安证券首席信息官俞枫

紧抓机遇,打造智能运维“新大脑”

  李卫忠:国泰君安数字化转型的总体战略是什么?目前已经进展到哪个阶段?

  俞枫:国泰君安正处在全面数字化转型的重要阶段,在愿景上,进行全集团、全领域、全方位系统性变革;在业务模式上,做好存量和创新业务的数字化,推动财富管理、机构服务、投资银行、海外业务的创新转型。

  国泰君安的数字化建设经历了三个阶段,分别为数字化转换阶段、数字化升级阶段、数字化转型阶段——这是适应不同发展阶段需要而自然产生的。

  在数字化转换阶段,国泰君安把业务数据从线下转到线上,使其成为在线数据,为后续使用打好基础,这属于补短板的过程。例如,2015年我们率先在行业内基于客户的全景画像构建了个性化的零售、机构客户的服务体系。

  在数字化升级阶段,国泰君安进一步基于数据实现O2O的流程贯通,将业务运营过程数字化,基于数据优化流程以及数据驱动的理念提升运营能力,实现个性化服务与精细化管理。例如,2018年国泰君安在行业内率先推出了智能在线客服“君弘灵犀”和基于VTM的智慧网点,通过构建全连接平台整合员工端赋能数据应用等。

  自2021年开始,国泰君安进入数字化转型阶段,提出了打造“SMART投行”的发展愿景,以用户为中心进行能力整合和提升,对内整合原来按牌照划分的能力和资源,为客户提供综合金融服务;对外首创“开放证券”理念,通过数字化手段,以科技为桥梁探索对外合作,实现能力互补。例如,国泰君安打造了高效协同的数字职场,实现了数据驱动的智能决策,推出了STS、场外金融云等生态化合作服务。

  李卫忠:请您简要介绍一下国泰君安运维数字化转型的总体思路和策略。

  俞枫:为积极落实公司数字化转型总体战略,国泰君安数据中心紧抓数字化转型机遇,积极打造智能运维“新大脑”,争当公司数字化转型排头兵。

  在工作思路上,国泰君安数据中心积极探索从IT运维向IT运营的转变,以公司的业务发展为中心,提供稳定、安全、高效的IT运营服务,构建业界领先的IT运营能力;在技术抓手上,以数据和算法为驱动,以场景需求为牵引,构建对运维系统和对象的数字洞察和智能决策能力,推动运维流程的不断优化,加速运维模式的数字化转型;在人才培养上,我们坚信科技人才是数字化转型的基石,希望每一名团队成员都以谦卑的姿态保持对新技术的渴望和钻研精神,结合转型规划和目标不断提升每个人的专业价值和团队战斗力。

创新赋能,构建运维服务平台

  李卫忠:国泰君安智能运维建设经历了怎样的过程?主要开展了哪些工作?取得了怎样的成效?

  俞枫:国泰君安在2011年之前主要是通过脚本和第三方监控工具来构建基本的运维能力;从2011年开始自主研发集中监控系统和全流程自动化运维平台,逐渐整合零散的监控和自动化运维工具,使运维体系不断完善;2014年逐步引入基于Hadoop开源框架的大数据分析技术,对核心业务系统的应用日志进行系统性分析,为核心业务系统的优化提供了重要的数据支持和判断依据,确保公司核心系统在2015年经受住了“天量行情”的考验。

  近几年,随着技术的不断进步,运维环境也发生了巨大改变。一是快速迭代的业务创新要求数据中心在确保系统稳定运行的同时,能够动态响应业务需求,提供按需而变的运维保障服务;二是随着分布式、微服务、云计算等技术的发展,运维对象快速向几万、几十万的数量级演进,运维对象之间的关联性日益复杂,运维数据也随之出现爆发式增长;三是新老技术架构并存,既给运维人员的知识深度和广度带来巨大挑战,也带来了交易链路复杂、故障定位难等问题。

  面对上述挑战,国泰君安数据中心在不断对运维模式进行总结、优化、创新的基础上,于2016年启动了新一代一体化智能运维服务平台建设,按照自主可控、创新赋能的要求,以“数据化、智能化、自动化”为主线构建运维服务平台,实现对公司核心业务系统监、管、控的全面覆盖,提升以数据驱动为导向的自动化、智能化运维服务能力。具体而言,主要包括以下几方面工作。

  一是积极布局运维数据治理,夯实智能运维开展基础。随着监、管、控、析等平台的建设,各类监控指标数据、告警数据、日志数据、链路关系数据、CMDB数据、流程数据散落在各个系统中,出现了大数据领域常见的数据孤岛、数据不可用、数据质量不高、数据之间缺乏关联等问题。伴随着数据运维、智能运维的兴起,我们充分认识到数据是智能运维的基石,做好运维数据治理,既能让组织更好地实时感知生产环境运行状况、辅助运维管理员做出决策,又能推动运维由被动型运维保障向主动型运营转型。因此,国泰君安从2018年开始就大力推进运维数据治理工作,一方面开展以CMDB为核心的IT数据治理,实现从基础环境、物理设施到逻辑资源和应用系统的全方位多层次管控,从数据标准、数据质量和数据生命周期等多个维度确保CMDB数据准确率接近100%,同时不断挖掘数据消费场景,赋能各个运维工具平台,降低数据获取成本,提高平台建设效率,从而更好更快地赋能业务,提升用户体验;另一方面开展运维指标体系建设,汇总分散在各监控系统的指标数据,形成集管理体系、评价体系、标准体系、工具体系于一体的,具有组织特色的运维指标体系,更准确地量化展现IT业务价值,为数据管理、数据分析、数据服务等提供基础支撑。

  二是建设运维大数据平台,实现对应用日志、系统日志、监控指标等运维数据的采集、解析、存储、管理、应用的一站式全生命周期管理。运维大数据平台建设强调整合、治理、共享,通过运维数据的汇集、规范、连接、消费,形成完整的运维数据资产管理体系。首先,平台采用分布式、高可用架构,实现对运维数据的高效实时采集和统一管理,打破各个孤立运维工具中的数据孤岛;其次,平台基于大吞吐量的流式数据处理能力,封装各类计算逻辑,使得下游消费方可以按照场景需求自助分析各类数据,快速敏捷地创建面向特定场景的数据应用,实现对数据的全面综合分析;再次,平台监控运维数据全生命周期各环节的数据质量,将数据治理通过技术手段融合到大数据平台的各环节中,尽可能降低治理成本。

  三是依托人工智能和机器学习算法,深入挖掘数据价值,大幅提升异常发现能力和复杂时空关系中的故障分析和定位能力。现阶段,国泰君安的智能运维算法主要围绕故障发现和故障定位两类场景。在故障发现方面,通过挖掘指标和日志历史数据中的隐含模式,识别业务指标趋势或日志模式的异常变化,及早发现风险,解决现有业务监控中难以通过规则事先设置监控的问题,使实际运行中的异常检测准确率达80%以上;在故障定位方面,运用多维异常定位算法,在业务系统发生故障的异常时间段从大量交易明细的不同属性维度组合中快速完成统计分析,确定疑似故障根因维度组合,使实际定位准确率可达90%以上。与此同时,国泰君安还在加快推动各种新算法的研发,包括基于知识图谱的根因定位、基于模糊测度的非线性回归模型度量系统运行状态等。

  四是基于“自动化+RPA”技术实现运维操作的自动化、标准化,降低人工操作风险,大幅提升工作效能。自动化平台基于原子化、部件化的设计理念,可对各类任务进行灵活管理,目前已实现的自动化场景包括日常操作、应急处理、升级部署、例行维护、灾备切换等,覆盖250余个业务系统的6000余个脚本,月均执行作业数超过16万笔,覆盖服务器达1万余台。此外,自2022年起,国泰君安开始建设数字员工RPA平台。机器人流程自动化(RPA)具有对现有系统影响小、编码少、实施周期短、对非技术的业务人员友好等特性,能够很好地解决跨系统改造难度大、人工操作风险高等痛点问题。RPA替代员工处理重复性事务,帮助公司降低运营成本,加快数字化转型。目前,RPA已广泛应用于国泰君安的20多个部门,覆盖了报表统计、对账单报送、系统日常巡检、事务提醒等场景,每日可减少300小时以上的工作量。

  李卫忠:“十四五”期间,国泰君安计划开展哪些智能运维建设工作?

  俞枫:我们计划在现有工作基础上,稳扎稳打,持续深入推进智能运维各项应用。

  一是围绕治理方法、治理过程、技术支撑三大要素,在现有基础上持续开展运维数据治理。在治理方法上,围绕运维核心价值和组织发展方向形成一套完整的数据治理规划,完善运维数据治理相关的制度、标准、流程;在治理过程中,以运维对象为观测视角,以运维场景为指引,将CMDB与日志、指标和告警数据有机融合,实现运维数据和运维对象的动态有机连接;在技术支撑上,不断推进大数据平台的创新和演进,完善数据集成、数据开发、数据地图、数据质量管理、数据安全等数据服务,畅通数据高速流动、实时共享的渠道,提供丰富的算子,快速拓展各类数据应用场景,并通过数据质量实时监控并及时发现数据问题。

  二是建立横纵结合、全面深入的监控指标体系,实现对数据中心运维对象全生命周期的实时感知。横向上,依托服务治理与全链路交易日志,刻画服务链路调用关系,支持从系统级到接口级的逐级交易量、成功率、平均耗时等业务性能监控能力,以及交易链路基线监控、错误码监控等;纵向上,建立从网络设备、服务器到基础软件、应用服务的全栈数据采集与监控指标体系,构建树状应用全栈监控视图,同时基于非线性影响权重量化模型等智能算法,综合刻画系统健康度等指标,建立形成可观测、可度量的运维分析体系。

  三是持续探索智能运维场景,赋能运维一线人员,提早发现风险隐患,缩短故障影响时间。第一,提升故障预测能力,通过收集和处理运维对象历史运行数据和故障数据,建立系统画像和运维基线,抽象不同技术领域的故障模型,利用故障模型训练、特征识别和演化规律,得出故障数据之间的相关性,包括数据库性能趋势预测、容量预测等场景,帮助运维管理员提前做好风险防范;第二,加强分析决策能力,在故障事件发生时,通过整合运维对象画像、规则引擎和机器学习模型运算结果,实时还原复杂系统内运行状态,形成故障全景视图,为运维人员提供实时的异常分析、关联分析和基于知识图谱的辅助故障根因定位等智能决策;第三,探索实现故障自愈场景,通过海量数据实时处理、自然语言处理、因果关系挖掘等方式,对故障场景特征进行精准识别,调用相应的预设应急动作,实现业务的快速恢复;第四,针对当前网络安全保障工作需要,计划利用大数据分析、特征提取和态势预测等技术,对网络环境中引起网络态势变化的安全要素信息进行获取、理解,包括入侵检测、恶意代码分析、钓鱼邮件等场景,形成积极主动的动态安全防御能力。

  四是有效结合RPA和AI技术,提升智能决策能力。通过RPA和AI技术的有效结合,实现复杂场景的智能决策,接受和处理多种结构的数据,逐步减少人工干预,实现自主识别、分析、判断和执行,使得决策功能更加完善、应用场景更加广泛,引导RPA向IPA(Intelligent Process Automation)转型升级。

积极参与,为行业发展建言献策

  李卫忠:您对刚启动智能运维建设的同行有哪些建议?

  俞枫:一是加大运维数据治理投入力度,提升运维数据处理能力。不积跬步,无以至千里;不积小流,无以成江海。不论是专家还是智能算法,在进行分析、推理、决策时都需要数据作为支撑,因此,数据的准确性、及时性和完整性在智能运维中非常重要。在实现智能运维的道路上没有捷径可走,建议在智能运维探索前期,制定运维数据治理顶层规划,逐步消除数据壁垒,实现数据的统一汇总管理和标准化、规范化,同时结合消费场景,建立以CMDB为中心的运维数据治理体系。

  二是结合自身实际需求,循序渐进开展智能运维场景建设。针对监控误报漏报率高的场景,可以实施指标异常检测替代固定阈值;针对海量日志数据的处理,可以基于日志聚类的算法进行实时异常检测,从中发现异常事件或隐患;针对系统故障期间产生的告警风暴,可以在告警收敛、压缩、抑制等智能化管理方面进行建设。总之,建议结合自身的数据条件和运维资源优先选择最迫切的需求场景和运维痛点进行智能运维能力建设。

  三是客观分析当前智能运维的能力边界和算法效果。智能运维实践为我们利用人工智能技术、高效处理复杂的运维事务和分析海量日志指标数据开辟了新思路。但现阶段由于算法原理对数据质量、数据分布等要求,算法服务的适应性、准确性等还有待持续提升,需要尝试不同的算法组合来提升数据综合分析能力,并且制定智能运维手段失效时的补偿策略和应对措施。

  李卫忠:作为智能运维国家标准起草单位,国泰君安主要参与了哪些工作?您对工作组后续更好研制和应用推广智能运维国家标准有哪些建议?

  俞枫:智能运维标准的编制正是对国家战略的积极践行,一方面,其明确了运维智能化建设和运营的要求,为提升企业在智能运维方面的规范性起到支撑和引领作用;另一方面,其促进了运维领域的专业性交流,拓展创新思路,对打造智能运维产业生态、带动上下游企业协同发展起到积极作用。

  国泰君安积极参与智能运维国家标准的制定及落地,主要做了三个方面的工作。一是参与编制《信息技术服务智能运维第1部分:通用要求》国家标准,构建分析决策能力域的全局体系。自2020年以来,国泰君安参加了20余次标准编制研讨会议,结合智能运维落地实践为标准的编写提供了有效的实践经验,并提出能力域中数据探索、特征提炼、归纳演绎、可视化和安全可控等五个能力项,为运维场景中智能分析决策能力的建设提出标准规范和指导。二是牵头编制《信息技术服务智能运维第3部分:运维算法治理》(WG3),预计今年将完成该标准的立项申请和准备工作。三是参与智能运维系列标准推广与落地,连续两年参与智能运维年度报告的方案设计与编写;参与研制智能运维团体标准,并入围首批应用试点单位。

  对于智能运维国家标准的编制,我们向工作组提出四点建议。一是依托国家标准,发布智能运维实践白皮书,指导入门级用户依托标准进行合理的智能运维建设规划;二是围绕具体场景建设,加强对应用场景落地难度的评估;三是在WG3编制过程中,不仅要紧扣通用要求,还要考虑数据、技术对算法联动作用,实现系列标准的互联互通;四是结合不同行业特性,发布具有行业特色的标准解读规范,使得各行各业在落地时能够结合业务特点更好地进行规划和执行。

  对于智能运维国家标准的应用与推广,我们也向同业提出两点建议。一是结合自身的场景需求,因地制宜进行合理规划和实施,首先要做好运维业务的流程化、标准化、数据化,再通过数字化、智能化进一步提升运维服务能力。二是要全面梳理场景与能力域、能力项、能力要素之间的关系,统筹考虑,制定合理可行的智能运维场景建设方案。在这个过程中,场景是抓手,能力是底座,在构建能力项的同时要特别关注其通用性、组合性和可复用性。通过兼顾“自上而下的场景驱动”和“自下而上的能力支撑”,真正将智能运维国家标准应用好。

  未来,国泰君安将一如既往地积极参与和推动智能运维系列标准研制,持续探索智能运维能力和体系建设,重塑IT运维服务价值,为公司数字化转型保驾护航。

 
过刊查询
2022年03月 2022年02月 2022年01月
2021年12月 2021年11月 2021年10月
2021年09月 2021年08月 2021年07月
2021年06月 2021年06月 2021年05月
查看所有过刊
本期精选
《中国金融电脑》2022年第10期目录
中国工商银行首席技术官吕仲涛:践行高水..
中国邮政储蓄银行首席信息官牛新庄:邮储..
华夏银行首席信息官吴永飞:服务国家发展..
恒丰银行首席运营官徐彤:高质量推进数字..
九江银行行长肖璟:产业金融数字化转型探..
上海农商银行副行长沈栋:农业产业链融资..
苏州银行副行长张小玉:打造特色金融服务..
 
企业简介 | 版权声明 | 免责声明 | 频道介绍 | 安全提示 | 法律顾问 | 网上投稿 | 客服电话 | RSS订阅
Copyright © 2005 Fcc.Com.Cn, All Rights Reserved. ,《中国金融电脑》杂志社版权所有
电话:010-51915111-805 传真:010-51915236,网络出版服务许可证(署)网出证(京)字第337号
京ICP备14024077号-1 京公安网备:11010802025321 技术支持:站多多