中国农业银行数据中心总经理 佟梅
本轮人工智能高速发展的浪潮持续推动各类金融AI场景落地,逐步改变着银行业的运营模式。农业银行党委适时提出智慧银行建设总体战略,发布了“人工智能+”创新实施纲要。农业银行数据中心持续推动通用算力向多元算力供给的演进升级,并通过算力基础设施的集约化、智能化运营,持续打造安全、高效、绿色的智算中心,为业务发展提供更加精准敏捷的算力支持。
一、融合:多元算力布局
面向“通用+智能”的新型算力服务需求,农业银行深入推进“算力多元、算网一体、算存协同”的融合算力体系建设,自底向上构建基础设施层、资源服务层、智算平台层、应用服务层四个层次,促进数据、算法和算力的深度融合,并通过智算平台提供开箱即用的一站式AI模型服务,以平台化能力支撑客户服务、风险管控等各类模型应用快速试点落地,提升规模化应用水平。
一是基础设施层。该层向上提供集信息计算力、网络运载力、数据存储力于一体的基础设施服务。在算力多元方面,积极打造云智融合新生态,构建了以xPU为核心的异构算力资源池,为AI应用提供集群级的并行处理能力。在算网一体方面,扩展打造高性能远程直接内存访问(RDMA)智算网络,实现基于百G级无损以太网的机间互联,满足大规模分布式计算的高吞吐与低延迟需求。在算存协同方面,通过统一存储服务实现集中式存储、分布式存储一体化管理,创新应用NoF+技术构建高效能存储体系,实现存储设备的弹性扩展和链路故障侦测,有效支持海量数据的分类存储调用。
二是资源服务层。该层聚焦对算力服务、数据资源、算法模型相关资源的管理,为AI应用的开发提供算力、数据、算法三大要素服务。在算力资源管理方面,全面匹配业务弹性需求,形成AI算力资源测算、保障和调度机制,打造灵活集约的算力供给体系。在数据平台底座方面,依托大数据基础平台建设,持续夯实数据中台与数据湖仓能力,围绕“采、建、用、管”数据闭环,推动DataforUser向DataforAI转变,保障数据收得全、供得出、流得动、用得好。在算法模型服务方面,对决策式AI和生成式AI的经典算法进行积累沉淀,同时加强算法模型的收敛管控以降低应用风险,支撑大小模型安全可控落地。
三是智算平台层。该层聚焦于提供开箱即用的MaaS化服务,以AI模型服务引擎为核心定位,深度整合主流大模型技术生态,在集成整合各类AI算法、框架、工具、组件的基础上,构建模型训练、模型管理、模型部署、模型应用全生命周期的闭环体系,通过平台提供方与租户应用方协作的模式,支持模型矩阵与上层应用解耦,有效提升AI研发运营效能。
四是应用服务层。该层以场景化战略为牵引,围绕提质增效、降本控险等应用方向,统一对外提供场景输出,体系化打造信贷、风控、渠道、运营、投顾、营销、运维、办公八大智慧场景,持续推进“AI+”全面建设与深度应用。
上述四层智算体系架构为智慧金融算力需求提供扎实的资源支撑。作为国有大型商业银行智算中心,面对安全稳定的底线原则和精益管理的政策要求,农业银行数据中心进一步提升安全防控能力,优化资源调度效能,降低智能算力成本,构建新型算力底座,在降本增效中达成安全可控与可持续发展的目标。
二、安全:强化多维防护
作为以风险管理为核心的金融机构,农业银行始终将安全合规作为人工智能规模化、深度化应用的前提。在智算转型进程中,通过构建覆盖模型、数据、生产安全的全链条安全防护体系,有效化解各类潜在风险,确保人工智能技术在金融场景中的稳健应用。
1.全周期防护,确保模型安全使用
以安全可控为原则,农业银行构建了模型部署、迭代、应用的全流程防护机制。一是采用“模型不联网”的私有化安全部署模式,确保模型训练、运行环境与互联网物理隔离,从源头防范模型参数窃取、后门植入、恶意投毒等风险;二是建立严格的模型安全评估机制,通过鲁棒性测试、准确性验证及模型版本跟踪管理,确保模型更新迭代过程中的安全性;三是运用决策路径可视化、特征重要性分析等技术提升模型的可解释性,实现建模与运行过程全链路可审计,并结合输出结果审查和评估等方式,保障输出内容符合金融伦理与价值观规范。
2.内外兼顾,筑牢数据安全防线
针对金融数据的高敏感特征,农业银行实施内外双控策略,保障数据资产的安全合规使用。一是注重内部数据治理,对AI模型使用或采集的内部数据,采用数据去重、脱敏或替换等技术实施净化处理,确保内部数据资产的合理合规应用;二是强化外部数据管控,建立外部数据准入评估机制,从资质审查、来源追溯、合规论证等维度严控数据质量,确保数据真实可靠,避免数据投毒等风险;三是严格执行“数据不出域”原则,构建可信安全环境,确保数据资产始终处于安全受控物理域内,实现数据使用与存储的全流程安全管控。
3.面向转型,强化生产安全保障
面对新型AI算力集群规模化发展带来的运维挑战,农业银行以智算转型为契机,持续完善面向融合算力的生产安全保障体系。依托一体化生产运维平台,实现对xPU等异构计算硬件的全链路智能监控,通过实时采集关键运行指标,及时识别并定位异常情况,借助故障硬件安全隔离、资源灵活调度支持等核心能力,确保模型训练与推理任务的连续性与稳定性。在此基础上,将人工智能技术深度融入网络安全运营,助力提升安全团队在态势感知、漏洞挖掘、渗透分析等方面的保障能力;同时,针对各类模型算法,采取多模型部署等安全可控的替代手段,保障网络安全可靠的接续运行,确保业务的连续性。
三、高效:集约智能管理
农业银行数据中心采用AI算力池化、AI算力虚拟化、算力智能调度等举措,为AI应用提供高弹性、高可靠的算力底座,推动智能算力资源集约化管理。
1.AI算力池化
面对异构资源管理困难、分布碎片化、资源利用率低等挑战,农业银行数据中心坚持云网协同发展,依托基础架构云平台,将xPU等多元异构算力硬件池化成统一的AI算力资源池,使分散在各服务器的算力资源互联互通,透明共享,有效打破资源孤岛,实现对算力资源的高质量集中管理,打造大规模高性能算力集群。
2.AI算力虚拟化
在AI算力池化的基础上,农业银行数据中心进一步结合云原生技术能力,实现AI物理硬件的内核级虚拟化,革新以整卡为单位的粗放式分配方式。基于虚拟化技术对AI硬件从算力、显存两个维度进行细粒度划分,针对模型推理等场景,按照不同应用的特定算力需求进行精细化供给,实现一卡多用,有效提升智能算力的整体利用率。
3.算力智能调度
农业银行数据中心基于云平台增强算力智能调度能力,通过负载感知调度实现资源间的平衡分配,解决资源热点问题;支持“资源超卖”和应用混部,实现多AI任务的峰谷互补,提高算力闲时效能;实施AI算力弹性伸缩策略,根据业务流量情况实现动态供给、弹性回收,提升系统性能和响应速度;面对大模型优化等场景,聚合多卡算力,实现资源跨节点远程调用,整合零散资源,有效提高算力的利用率和灵活性。
四、绿色:算力低碳发展
农业银行数据中心积极响应国家“双碳”战略,通过“东数西算”布局优化、低碳运行创新实践等举措,积极提升算力设施的绿电使用率、降低智算中心运行的能源消耗,持续推动金融算力资源绿色低碳发展。
1.“东数西算”布局优化
农业银行数据中心紧跟人工智能产业发展趋势,结合金融业务实际需求,在国家“东数西算”工程枢纽节点率先实施智算新基建战略布局。通过将实时性要求较低的大数据业务、AI训练任务等迁移至西部枢纽节点,有效实现算力资源的区域优化配置;面对AI算力扩增带来的巨大电能消耗,积极优化用能结构,充分利用西部地区丰富的风电、光伏等可再生能源,持续提升算力基础设施的绿电使用率。
2.低碳运行创新实践
秉持“全生命周期绿色运营”理念,农业银行数据中心通过技术创新与管理优化,系统性推进智算转型的低碳发展。一是在机房规划与建设阶段深植绿色基因,聚焦IT设备、供配电系统及制冷三大核心能耗模块,通过前瞻设计模块化布局、高效供配电架构、气候适配的制冷方案以及对绿色节能技术的应用,充分实现效能优化。二是在机房运营阶段构建多点发力的节能增效体系,结合对多源环境数据的采集分析,运用深度强化学习算法构建“感知—决策—执行”的智能闭环,动态调整制冷策略,根据季节性气候条件最大化利用自然冷源,降低机械制冷能耗;同步运用计算流体动力学(CFD)模拟技术,优化冷热通道气流组织,有效实现绿色数据中心的低碳化运营目标。
后续,农业银行数据中心将坚持以推动基础设施创新发展为己任,持续优化“安全可控、集约高效、绿色低碳”的新型智算底座,夯实全集团智能化转型基石,支撑算力、数据、算法三要素协同的智算架构,为智慧银行建设提供有力支撑。
|