中国邮政储蓄银行运营数据中心总经理 巫建刚
人工智能技术正以前所未有的速度重塑全球经济格局与社会运行模式,我国高度重视人工智能与数字经济的深度融合,2025年政府工作报告强调,持续推进“人工智能+”行动,将数字技术与制造优势、市场优势更好结合起来,支持大模型广泛应用。这为金融业的数智化转型指明了方向。从技术趋势看,人工智能正加速向多模态、深度推理、智能体架构等深层次领域发展。2025年春节前后,DeepSeek发布高性能开源模型V3/R1,其采用混合专家模型(MoE)架构,计算成本仅为OpenAI的1/55,具备全球领先的NLP大模型能力。近日,华为推出CloudMatrix超节点技术,采用创新的UB互联技术将384张昇腾卡组成一个逻辑上统一的高性能计算单元,为大规模训练和高性能推理提供了国产算力保障。这些创新技术极大鼓舞了人工智能技术自主可控的信心,推动了金融垂类场景应用的爆发。
在此背景下,邮储银行以“科技兴行”为核心理念,提前布局全行AI战略。一方面,积极响应国家“人工智能+”行动号召,跨部门聚合全行AI攻坚团队;另一方面,运营数据中心提前规划,用确定性架构应对大模型技术发展过程的不确定性。目前,邮储银行首个千卡集群已投产,第二个千卡集群正在建设中。2025年春节后,邮储银行第一时间部署了数十套DeepSeek,通过邮连应用为全行20万名员工提供助手服务,随后完成一批创新应用场景的构建,通过盘古、千问等优秀大模型实现了外呼语言拟人化、多模态图片信息提取及风险预警,跑出邮储银行AI加速度。
一、智算时代数据中心变革
AI技术在金融业迅速由试点走向规模化应用,重塑着行业服务方式。数据中心作为AI基础设施的核心载体,是智能化转型的基石。智算数据中心不是传统数据中心的简单升级改造,而是一次全方位重构,从过去的“资源管理中心”到今天的“价值创造中心”,从存储数据、支撑应用到提供“通算+智算”算力、承载AI训练和推理、构筑数据飞轮,再到构筑智能体架构满足复杂任务需求,其重要性和价值不断凸显。
1.云化数据中心向智算数据中心演进
经过多年建设,邮储银行运营数据中心已经实现新增业务100%云化,通过标准化设计将海量服务器、存储、网络和云管平台组合起来,注重可扩展性、灵活性和可靠性,满足全行400多个应用的部署及稳定运行。而智算数据中心需要满足人工智能及相应的数据工程要求,其基础架构需要实现对等架构并满足大模型并行计算要求,以保障大小模型的训练、微调及大规模推理部署为目标,更强调分布式并行及参数面的无障碍高速互联,同时需要强大的数据处理能力,以实现数据飞轮及快速的数据检索和分析。
智算数据中心设计需兼顾大规模AI集群、制冷设备与电力供应的复杂需求,打破传统设计模式,采用更为前瞻的布局思路,通过科学合理的规划与设计,确保电力供应、冷却系统与算力需求之间的高效协同,提升整体能效。
智算数据中心未来演进可分为三个阶段:第一个阶段是满足大模型技术落地的规模投产阶段。随着高质量大模型的涌现,大型金融企业纷纷开展大规模建设以落实一批AI场景,这一阶段往往会对现有通算机房进行快速改造,采用优化的风冷技术以及“UPS+HVDC”供电模式,保障算网协同的AI集群建设。第二个阶段是智算大爆发阶段。随着开发团队对AI技术掌握的日益熟练,以及越来越多业务团队的加入,AI算力需求将进入大爆发阶段,此时AI应用占比将逐步超过传统应用,数据中心建设越来越侧重高性能集群推理和高效的模型增强训练,超节点将被大规模使用,制冷模式也将演变为风液混合模式,并采用集成化程度更高的电力模块满足日益增长的电力需求。第三个阶段是AI广泛应用阶段。预计在2030年前后,AI服务将无处不在,成为金融业的标准服务,此时数据中心将全面完成智算数据中心转型,通过整柜方式大规模部署高效的超节点,制冷技术也将全面转型为冷板式液冷,并采用交直流混合模式满足海量电力需求。
2.智算数据中心需要考虑三个层面的融合
金融智算数据中心承载了企业数智化转型的核心业务和资产,需要充分考虑三个方面的融合:一是智算和通算的融合。智算需要和通算统一考虑,数据工程、RAG等都离不开通算资源,实际设计需要充分考虑两者的配合,避免割裂设计而互相等待。二是训推融合。在同一平台上同时支持训练和推理服务,实现资源共享并提高整体效率。三是多模融合。在实际应用中往往需要多个模型共同支撑一个完整的AI场景,因此金融智算数据中心需要具备跨集群、跨中心的高效模型访问和模型服务高可靠保障能力。
3.大规模AI创新推动智算数据中心建设
人工智能的发展正经历从感知到认知再到行动的三重跃迁。在金融业,AI技术的三重跃迁正重构金融服务范式,改变过去单模型单任务的碎片化局面,从场景维度为金融业注入新的活力。例如,智能外呼场景基于大模型的语言合成技术,实现外呼的拟人化,支持方言和特定音色的模拟,可全面提升客户体验。各类AI技术叠加效应不仅重塑了金融服务流程,更催生出风险定价引擎、算法做市等创新业态,推动金融业从“经验驱动”向“认知驱动”的范式跃迁,标志着AI正从后台支持系统演变为金融创新的核心引擎,旺盛的需求加速了智算数据中心的演进和建设。
二、邮储银行智算数据中心建设实践
在快速迭代的AI建设过程中,智算数据中心面临三大难题:
一是机房与算力的矛盾,面向通算的传统机房如何保障智算集群的大规模落地?
二是算力与场景的矛盾,金融智能场景需求旺盛,算力依然是稀缺资源,如何有效提升算力效能?
三是模型应用与面客场景的矛盾,随着大模型面客服务的逐渐展开,如何实现金融级的模型服务高可靠?面对这些问题,邮储银行运营数据中心采用可演进架构设计,通过三层架构构筑可持续演进的高效智算数据中心(如图1所示)。其底层是全栈自主可控的算力基础设施层,对传统机房的供电、制冷系统进行优化设计,采用算网协同的一体化架构,满足大模型分布式并行计算要求;中间层是灵活的资源调度层,能够快速实现资源分配和调剂,通过分时复用提高资源利用率,为使用者屏蔽了底层基础设施的复杂性;最上层是资源服务层,提供训推过程中必要的云服务工具,同时统一封装模型访问网关,能够实现模型的负载均衡、灰度发布,保障模型服务的高可靠,并在模型迭代和替换时实现应用无感。
图1 邮储银行智算数据中心架构
1.算力基础设施层
(1)标准化集群设计及机房布局
大模型时代的应用和小模型时代有显著不同,小模型时代模型和算力分散在各应用系统里,而大模型时代模型成为相对独立的服务层,智算算力需要集中部署满足大模型的训推需求。为此,邮储银行运营数据中心采用标准化的算力集群设计,按服务目标分为两类:一类是满足大模型训推的主资源池,单集群可扩展到千卡以上;一类是保障千亿级模型低延时响应、大吞吐量、高并发的推理集群,单集群可扩展到384卡。设计上,采用“2+1”架构,即两个千卡规模的主资源池均采用训推共池方式,其中,一个定位为大推小训,一个定位为小推大训,并与关键推理服务互为冗余,同时建设一个大型推理集群,用于类似DeepSeek满血版的大规模推理,满足高精度的推理及思维链数据合成需求。
(2)智算数据中心网络优化
算力集群和推理集群两种集群在参数面均采用高性能ROCE/UB网络确保算力的对称性,实现大模型的跨机多卡部署。大模型通过对等架构实现跨机跨卡的高性能并行计算,因此高性能参数面网络对提升实际算力尤为重要。邮储银行运营数据中心采用200GROCE网络实现千卡集群的高速互联,通过算网协同实现对HCCL集合通信的感知,通过动态负载均衡避免运算过程的局部拥塞。随着技术的发展,超节点集群依托新型网络技术——UB实现跨节点HBM的语义级访问,实现了计算、HBM、内存的池化,将384张高性能AI处理卡聚合为一台超级服务器,更高效地满足大模型训练、集群推理、数据合成的需求。建设过程中,邮储银行运营数据中心结合实际供给情况,打通了两个标准机房,采用智算和配套的通算分区分别集中部署模式,在通算区域沿用传统供电模型,在智算区域进行局部改造。这种模式降低了改造成本,缩短了参数面网络的布线距离,提升了集群稳定性。
(3)智算数据中心供电优化
AI集群计算与集群通信模式导致智算中心功率不再是稳定负载,集群级波动率是云计算的10倍,负载突增突减,波动高达50%,而在通算或云计算场景下波动率仅有4.3%。对此,供电系统需要适应功率的极速波动,电源设备必须主动防护负载超频运行,防止供电系统崩溃或者持续低压以及电池频繁放电。
邮储银行智算数据中心供电架构采用2N供电架构,单边支持超频过载150%;同时为避免NPU集中接入同一路电源,将NPU、存储、网络设备混合部署,用以平缓功率、避免电力超载。同时,UPS必须具备超强的带载能力以及主动切换消谐模式的防谐振能力。
(4)智算数据中心制冷优化
以风冷机房为主的通用计算数据中心向智算数据中心演进过程中,优化制冷系统在满足当前需求的同时还需要在设计时预先考虑液冷机房规划,保证风冷机房和液冷机房可根据实际需求互换调整,后期液冷机房的需求确定后即可将部分风冷机房改造为液冷机房。液冷的典型方案包括冷板、浸没、喷淋三种,冷板模式为金融业的主流模式。目前,智算数据中心基本采用“液冷+行级/房间级精密空调”或“液冷+AHU”的制冷架构。AHU方案兼具节能和分布式架构的优势,目前已经成为多数数据中心的选择。
在方案设计时,邮储银行运营数据中心将液冷系统按照IT负载容量的100%进行配置,而风冷系统按照50%进行配置。该配置可兼容风液配比,满足未来不同业务的需求。随着智算产品的迭代升级,智算IT设备由原先单台风冷节点升级为液冷整机柜交付。
在实际建设过程中,邮储银行运营数据中心将液冷冷却IT系统与基础设施配合,实现从硬件到服务的系统性全栈优化;同时引入AI算法实现智能运维与能效管理,通过AI联动调优降低能耗。AI联动调优采集到环境、制冷设备、供电设备、IT设备、训推任务等参数,通过能耗优化模型、器件故障预警模型等实时预测最佳工作参数,并下发制冷调优策略,实现综合能耗的降低。
2.资源调度层
资源调度是数据中心提升算力效能的关键手段。为最大限度地实现资源灵活调配,满足多团队协同完成场景化AI服务的需求,邮储银行运营数据中心设计了“专属资源池—逻辑子池—工作空间”三层资源管理模式,实现了模型应用到物理资源的弹性映射和灵活管理。目前,邮储银行运营数据中心将1024卡按照物理节点维度划分为训练资源池和推理资源池,系统管理员可以在两个专属池间进行物理节点粒度的调配。每个专属池按卡的粒度划分为多个逻辑子池,每个逻辑子池可以设置配额,包括预留资源和资源上限。工作空间为用户提供了一个组织和管理AI项目的环境,每个工作空间可以关联多个逻辑子池以支持相应的任务,其数据存储和权限管理独立,保障各项目的资源隔离和项目团队内的共享和协同。这一方案最大化实现了资源共享和逻辑隔离,通过逻辑子池实现资源快速腾挪与转换,同时工作空间满足了多团队协同和多组训推任务并行的需求。
3.资源服务层
资源服务层提供模型训推服务所必要的基础资源服务,包括统一的监控管理平台以及模型访问网关。监控管理及运维系统具备全链路监控能力,包括模型运行过程中NPU利用率、HBM利用率等关键运行指标。模型访问网关建立了模型访问的统一入口和标准API及鉴权模式,从而屏蔽模型更迭对应用的影响。在模型服务高可靠方面,邮储银行运营数据中心采用两层保障机制:一方面在资源调度层提供多模型实例的负载均衡能力,作为内置的高可靠服务;另一方面通过模型访问网关实现多模型服务的聚合、灰度上线和流量切换,从而提升对外模型服务的高可靠和治理能力。
三、从资源管理到价值创造,实现两个加速
随着各类大模型技术的加速引入,邮储银行AI场景应用呈现“垂直深化+生成扩展”两维加速发展趋势,邮储银行运营数据中心从加速智算服务普及和创新技术引入两个维度实现从资源管理向价值创造的转变。
1.加速智算服务普及
邮储银行运营数据中心通过降低AI基础设施的获取门槛,让开发部门轻松获取、使用和集成AI服务,加速赋能业务创新和价值创造。从智算数据中心角度统一模型镜像制作及服务发放标准,每个模型镜像均经过严格的验证和性能优化,让开发人员无需关注底层复杂性。开发人员通过授权进入工作空间后,就能获取模型开发、推理所需的必要服务,包括模型镜像、任务监控工具、开发IDE、日志服务等。
2.加速创新技术引入
AI技术高速发展,需要前瞻性探索关键新型技术,结合业务实质加速创新技术引入,确保有足够的技术储备满足未来需求。例如,对于DeepSeek等主流大尺寸模型,往往被多个业务场景需要,如果每个场景都部署一套独立的全尺寸DeepSeek集群,会导致每个集群的并发和吞吐量都不高,且资源不能复用。为此,邮储银行运营数据中心正积极探索大型推理集群技术的引入,聚合共性需求,由一个大型的推理集群承担多个部门的业务,采用PD分离、KV Cache多级缓存等技术提升整体的并发和吞吐能力,提供更佳的业务体验。
四、构筑领先智算底座,加速数智生产力跃迁
相比传统数据中心,智算数据中心规模更大、业务更为复杂且技术更新更快。邮储银行运营数据中心将围绕全行AI战略目标和场景化需求,从三个方面构筑领先智算底座:一是构建强大的技术底座,顺应AI技术的发展趋势持续引入新技术,提供功能更全、算力更强、效率更高的AI算力平台;二是依托算力平台推动开放的国产AI芯片生态体系引入,助力技术创新场景落地;三是围绕智算关键特征,以建好、用好、管好算力基础设施为目标,组建专属团队,进行人才培养和引入。邮储银行运营数据中心将通过技术、生态、人才三个底座建设,筑牢邮储银行数智化转型根基,实现数智生产力跃迁,加速AI走深向实,为银行真正创造价值、解决关键问题。
|