华夏银行首席信息官 吴永飞
华夏银行科技开发与运行中心 刘传世
龙盈智达(北京)科技有限公司 陈生 张月 杨璇 王彦博
人工智能大模型技术的出现,引发了社会各界的巨大反响,越来越多的企业快速布局,投入大模型研发行列,这激发了各行各业对通用人工智能(ArtificialGeneralIntelligence,AGI)积极探索的热情。大模型技术的快速发展,为越来越多的行业带来了变革机遇,银行业一方面有着大模型智能场景建设需求,另一方面也要考虑投入产出经济因素,满足私有化部署安全可控要求,积极稳妥推进数字化转型、智能化发展。
部分商业银行先后经历了IT运维体系的自动化、平台化、智能化发展模式,逐步摸索出一条系统开发与运维并重的可持续发展之路,提出了数据驱动、引擎赋能、场景导向的智能运维建设理念,建立了以运维数据为基础,集监控、流程管理、自动化等工具于一体的“监、管、控”智能运维平台,并配合机器学习、数据分析技术,辅助银行运维管理活动。随着大模型技术的日新月异,智能运维进入新的发展阶段,笔者团队积极顺应变革趋势,研究探索大模型能力与智能运维场景融合的新模式。
一、大模型辅助运维场景设计
大模型可以为信息系统建设的多个环节赋能,包括需求分析、系统设计、系统开发、调试与测试、系统部署上线与运维等,从而提升研发运维一体化、智能化水平,助力数字金融降本提质增效。笔者团队在大模型辅助软件工程建设方面提出了“5D”方法论(如图1所示),即需求分析(Demand&Requirement Analysis)、系统设计(Design of System)、系统开发(Development of System)、调试与测试(Debugging&Testing)以及部署与运维(Deployment&Operations)。
图1 大模型辅助运维的“5D”方法论
在此基础上,笔者团队聚焦IT运维领域,面向运维场景特定管理活动,提出“6R2”应用框架(如图2所示),该框架包括基于知识库检索增强生成技术实现的运维知识问答、基于关系型数据库检索增强生成技术实现的运维数据查询、基于关系图谱检索增强生成技术实现的运维关系数据查询、基于“重排序+检索增强生成+思维链”技术实现的运维故障定位与处置方案推荐、基于“检索增强生成+提示词工程”技术实现的运维报告生成、基于规则挖掘和机器学习技术实现的运维问题预警识别。
图2 大模型辅助运维的“6R2”应用框架
二、大模型辅助运维技术方案
笔者团队依托集中式大模型计算资源,采用“集约分配、弹性扩展、灵活调度、稳定运行”的自主可控方式,基于自身大模型推理及微调、提示词工程、检索增强生成、重排序、思维链、大小模型融合等智能能力,构建了服务于IT运维领域的AI应用,其技术方案系统架构如图3所示。
图3 大模型辅助运维技术方案系统架构
1.大模型辅助运维技术方案系统架构
大模型辅助运维技术方案的整体系统架构可分为以下五层。
算力层:包括各类算力资源(如GPGPU、NPU、CPU等)和算力调度模块,提供必要的计算能力支持。其中,算力调度模块负责有效地分配和管理计算任务,确保资源的高效利用。
数据层:负责管理和存储运维系统所需的各种信息资源,包括但不限于用户手册、常见问题解答(FAQ)、运维配置信息管理(CMDB)系统的配置及其关系信息、系统运行指标、系统告警、事件处理流程意见、故障报告单等关键信息。上述资料信息构成了大模型辅助运维应用的数据基石。此外,数据层也负责存储和管理各个应用的中间数据与结果数据,依据其特性分类存入不同的数据库中。对于结构化的表格数据,使用关系型数据库进行保存;对于非结构化或半结构化数据,会使用NoSQL数据库进行保存;对于需要展示与分析时序的数据,采用时序数据库进行保存;对于需要展示和分析实体之间关联关系的数据,采用图数据库进行保存;而对于涉及相似度检索的数据,则采用向量数据库进行保存,如清洗分割后的原始数据,会调用向量化模型将其转换成向量形式,并存储在向量数据库中,以便后续大模型进行高级分析和文本匹配。
模型层:包含各种模型实例,如用于文本向量化的Embedding模型、用于文本重排序的Cross-Encoder模型以及经典的自然语言处理模型、机器学习模型和用来分析总结的基础大模型等。上述模型为后续的应用提供了强大的语言理解和生成能力。
功能层:整合具体的基础功能模块,并开放接口供应用层调用。其中,模型管理负责模型的生命周期管理,包括但不限于启动、关闭、扩展及更新等操作;知识库管理包含了对向量化模型的调用以及与数据库的交互;提示词管理与角色管理借助数据库对大模型不同类别的提示词进行管理;检索召回负责执行向量检索和传统数据库检索,以召回语义相近的内容;而召回重排可调用Cross-Encoder模型对召回内容进行重排序。
应用层:该层是针对具体业务场景而开发的面向用户的多样化应用。相关应用利用功能层所提供的丰富接口和服务,实现了从数据收集、处理到信息检索乃至最终智能推理的一系列流程化操作。
2.大模型辅助运维技术特点
大模型辅助运维场景应用基于银行形成的大模型推理及微调、提示词工程、检索增强生成、重排序、思维链、大小模型融合等智能能力,并在这些能力基础上进行了针对具体场景的深度优化,有效提升了系统的性能和用户体验。
(1)建立运维问题预警与关联规则挖掘模型
为了增强运维问题预警能力,笔者团队在提示词工程环节引入经典数据挖掘与机器学习中的关联规则挖掘相关算法模型,利用该模型输出的关联问题来扩充提示词。这些生成的初步推理或决策结果,又作为大模型思维链的一部分,结合大模型后续的推理步骤,形成完整的推理过程。这种方法不仅能帮助运维人员提前发现潜在问题,还能提供预防性的建议和支持,从而实现运维工作的降本提质增效。
(2)Document2Question2Question技术
原有RAG功能是对文档切分,再对切分后的文本块(Chunk)进行向量化,之后用来匹配对应的问句,可以将其看作一种Document2Question技术。笔者团队在此基础上进行了优化,将其升级为Document2Question2Question。这一改进使得IT运维系统能够借助AI大模型相关能力,对切分后的文档片段,根据内容预先生成一系列候选问句集;对于给定查询,计算其与预生成的候选问句之间的欧氏距离或余弦相似度(Cosine Similarity),可以获得比直接与原始文本块匹配更为准确的结果。这种方法极大地提高了检索效果,使IT运维应用能够获得更准确、更相关的结果反馈。
(3)高效混合检索机制
在数据检索方面,笔者团队除了采用基于向量的欧氏距离及余弦相似度进行语义匹配外,还辅助一套基于BM25算法的检索库。这种混合检索机制结合了两者的优势,既能快速定位相关文档,又能通过语义理解提高检索精度,确保用户获得最相关的结果反馈。
(4)Reranker重排序技术优化
在Reranker重排序方面,笔者团队根据具体应用场景使用部分树模型作为Cross-Encoder重排序模型的补充。这些树模型能够有效捕捉复杂的数据模式,进一步提升Reranker重排序的准确性。相比Cross-Encoder模型,这些树模型更加轻量化,可以在不增加过多计算负担的情况下,提高大模型推理的准确性和可靠性。
上述一系列有针对性的技术优化措施,有效提升了IT运维的自动化、智能化水平,为运维人员提供更加智能、便捷、可靠的技术支持与保障。
三、大模型辅助运维场景应用
在“5D”和“6R2”方法论及其应用框架体系下,笔者团队遵循“小步快跑、先易后难”的场景规划原则,推进大模型辅助运维场景应用,辅助运维人员日常工作。
1.运维知识问答
大模型具有较强的语义理解能力和良好的交互效果,能够与运维人员进行自然语言交互。日常运维活动中,商业银行积累了大量运维系统的用户手册、常见问题文档、事件流程处理意见文档,并将其作为私域运维知识。笔者团队首先通过向量数据库和嵌入模型将运维知识数据进行切片和总结处理,形成供大模型调用的知识库,并利用大模型预设相应提示词工程,结合RAG技术优先根据行内运维知识库内容生成回答,改善大模型幻觉问题;随后将基于大模型的运维知识问答能力封装成应用,集成在IT运维系统中,在用户提出问题后,利用大模型检索能力,生成具有特定角色特色的内容回复,回答员工运维领域知识问题,达到在线运维客服助理的效果。在试用期间,笔者团队抽取了1000次运维问答的请求日志,大模型生成的知识回答与标准答案的双语替换评测(BLEU)值为0.643。基于召回率的摘要评估方法(ROUGE)一般分为三个子指标,ROUGE-1主要关注的是单个单词级别的重叠情况,ROUGE-2侧重于相邻两个单词的重叠情况,ROUGE-L则基于最长公共子序列(Longest Common Subsequence,LCS),生成答案的ROUGE-1(F1)值为0.832、ROUGE-2(F1)值为0.736、ROUGE-L(F1)值为0.817;同时,回答准确率约为87%,其中高频问题首轮回答采纳率约为92%。
2.运维数据查询
CMDB系统记录了银行信息系统所使用的IT配置项及其关系信息,是运维管理重要的支撑系统。CMDB系统底层采用关系型数据库(Relational Database)与图数据库(Graph Database)结合的融合架构,其元数据信息存储在关系型数据库中,其配置项及关系信息存储在图数据库中。传统配置信息查询方式是用户先了解配置项的表结构和属性信息,再通过配置报表或编写SQL查询实现。笔者团队将CMDB元数据信息以RAG的形式与大模型相结合,使大模型自然语言转SQL(NL2SQL)能力增强,能够理解用户的自然语言查询意图,识别出查询中的关键实体、属性和条件等信息;将基于大模型的NL2SQL能力封装成应用,集成在CMDB系统中,结合配置项的表结构和属性信息打造RAG知识库,利用大模型将用户的自然语言问题转化为相应的SQL查询语句,简化了用户理解元数据与编写查询语句的过程,基于对用户意图的理解返回查询结果,为用户提供更智能的交互方式,使得查询运维数据变得更简单和高效。经测试验证,NL2SQL执行准确率(Execution Accuracy)约为85%,相比传统基于配置报表的数据查询,既保持了较高的准确率,也扩大了查询范围,提升了运维数据查询效率。
3.运维关系数据查询
CMDB系统基于图数据库管理IT配置项之间的关系数据,提供配置关系的查询展示功能。传统方式下用户需要了解运维数据资产地图,对配置数据关系熟悉后,才能进行配置关系报表的查询使用。笔者团队将CMDB系统图数据库的数据结构与大模型相结合,使大模型自然语言转图数据库查询语言(NL2Graph)的能力增强,能够理解用户以自然语言形式提出的关联关系查询请求,将其转换为图数据库查询语言,实现在图数据库中进行高效的查询操作。这种能力使得用户无需深入了解图数据库的具体语法和数据结构,就能快速获取所需的信息。与此同时,笔者团队将基于大模型的NL2Graph能力封装成应用集成在CMDB系统中,从而实现基于图数据库的关系数据查询场景应用,进一步提升CMDB系统用户使用体验。在测试验证过程中,基于应用系统、逻辑服务器、应用组件测试数据集,通过A/B测试,相比传统配置关系查询,基于大模型的NL2Graph查询效率提升了15%。
4.运维故障定位与处置方案推荐
随着银行信息系统规模越来越大、系统之间访问关系越发复杂,如何在复杂多变的IT环境中,快速实现故障发现、故障定位、故障止损,一直是运维领域的难点。因此,笔者团队推出“专家经验+规则引擎+判别式AI模型”的故障智能分析模式,基于配置数据关系模型,在故障发生时将交易链路中的上下游调用关系、应用组件、硬件设备、部署架构信息以拓扑形式进行展现;基于运维数据平台实时监控数据,建立覆盖全技术栈的观测分析模型,采用指标计算、影响标签与专家经验相结合的方式,综合应用性能分析、基础软硬件故障分析、网络故障分析等领域实时分析结果,实现生产故障定位。
笔者团队通过引入大模型分析能力,减少人工方式总结专家经验,由大模型构建故障思维链实现逻辑推理,对综合信息进行多维度分析,生成故障定位结论;通过对大模型总结的故障定位结论数据进行标注训练,逐步提升大模型故障定位逻辑的准确性;针对系统自动化应急工具执行记录进行加工处理并与大模型相结合,为运维人员推荐自动化应急工具的处置建议,在大模型辅助下,进一步实现“人、信息、处置”的高效协同。
5.运维报告生成
银行定期组织生产事件分析会,通过对信息系统故障进行复盘、总结经验、举一反三,可起到防患于未然的作用。因此日常运维管理活动中,存在多种需要根据信息系统故障过程、人工总结形成生产事件报告的诉求。笔者团队利用大模型的总结能力,通过定义角色的方式预置提示词,结合故障分析阶段大模型接收到的信息系统运行信息、监控告警数据,辅以IT服务台的记录信息,最终由大模型生成故障总结报告。测试验证过程中,基于大模型的运维报告生成采纳率约为95%,可大幅提升运维工作效率。
6.运维问题预警识别
笔者团队采用时序分析、神经网络等一系列判别式AI小模型,对监控告警数据进行处理,通过动态阈值预警、单/多指标异常检测、日志异常模式分析等智能技术,不断提升监控告警的有效性、及时性。与此同时,笔者团队将已有小模型与大模型能力相结合,进行深入的关联分析和推理,在生成特定运维告警后,对下一时段是否发生关联异常告警进行分析推理,预测识别未来可能发生的关联异常告警。这种能力让运行监控更具有预警前瞻性,实现运维问题预警识别,便于运维人员提前介入,加快故障分析处置的响应速度。
笔者团队基于“5D”和“6R2”方法论及应用框架体系,开展大模型辅助运维场景应用研究,并逐步打造了可赋能IT运维领域的“7×24”在线助手应用,为银行运维知识问答、运维配置及关系数据查询、运维故障分析定位、运维处置方案推荐、运维报告生成、运维问题预警识别等场景赋能,提升运维工作效率。
随着大模型技术的成熟及其在金融领域的深入应用,笔者团队将采取以下优化思路:一是夯实数据质量基础,将详细且标准的元数据管理作为驱动数据智能发展的基础保障,不断提高自然语言生成SQL的准确性;二是结合算力资源选择适配的大模型,扩展上下文窗口长度以提升智能体的记忆效果,实现更好的规划推理;三是研究基于智能体的改进方案,使大模型具备理解、感知、规划、记忆和使用工具的能力,提升智能化水平,助力全行数字化转型、智能化发展不断扎实向前。
〔华夏银行科技开发与运行中心戚威、马威、李大伟、许建皓,龙盈智达(北京)科技有限公司闫括、孙喆、张娜、殷晶晶、丁明对本文亦有贡献〕
|