平安证券股份有限公司首席信息官 张朝晖
AI技术的快速发展正推动金融行业进入算力需求爆发期。AI技术已深度渗透至智能客服、量化交易、风险控制等业务场景,对算力基础设施提出更高要求。例如,智能投顾需实时处理海量用户服务信息,AI风控系统基于深度学习模型提升风险识别准确率,这些任务均需强大的GPU算力作为支撑。同时,金融数据规模以年均35%的速度增长,非结构化数据占比持续攀升,传统数据中心面临算力需求激增、资源利用率低、部署周期长、弹性不足等多重挑战。在此背景下,金融行业急需向智算中心(AIDC)转型,通过异构计算架构、智能化调度和绿色节能技术实现算力的高效利用。
金融行业AI训练与推理的高并发、低延迟需求对传统物理GPU部署模式形成颠覆性压力,导致资源闲置与瓶颈并存。同时,物理GPU的低利用率与运维复杂度矛盾凸显,难以支撑业务敏捷创新。金融场景对算力可靠性、数据安全性及合规性的严苛要求进一步制约了传统架构的适应性。
虚拟GPU技术通过资源虚拟化与弹性调度,成为破解算力供需矛盾、建设智算中心的关键路径。虚拟GPU通过将物理GPU拆分为多个GPU实例,支持多租户资源隔离与动态调度,显著提升资源利用率并降低部署成本。例如,某机构采用虚拟GPU后推理任务资源满足率从65%提升至98%。这一技术革新为金融行业满足AI算力波动性需求提供了灵活、高效的解决方案,成为智算中心建设的重要支撑。
一、虚拟GPU解决方案
虚拟GPU技术通过将物理GPU的计算资源进行虚拟化,实现资源虚拟化与动态分配,是应对AI算力需求弹性化的核心手段。其核心技术架构主要依赖于GPU厂商的虚拟化解决方案,其中,NVIDIA推出了vGPU、MIG、MPS等解决方案,其具体情况见表1。
表1 NVIDIA虚拟GPU解决方案具体情况
此外,其他显卡厂商以及互联网厂商也推出了各自的虚拟化解决方案,如AMD MxGPU方案、腾讯vCUDA方案、阿里云cGPU方案等,其具体情况见表2。
表2 其他厂商推出的虚拟GPU解决方案具体情况
二、平安证券的虚拟GPU规划实践
随着AI技术在金融行业的深度应用,平安证券的AI业务场景对算力的需求呈现爆发式增长态势。在智能客服、量化交易、风险控制、智慧投行等核心业务中,AI模型的训练与推理对GPU资源的依赖性显著增强。为此,平安证券针对算力底座进行了虚拟GPU相关的规划和建设,旨在通过虚拟化手段提升资源的利用效率,降低IT投入成本。
在技术选型上,平安证券综合评估了NVIDIA MIG、MPS等方案对GPU Manager的适用性,并结合自身业务特点制定了分阶段实施策略,通过三个阶段逐步推进算力资源的虚拟化升级。
1.调研阶段(2022年第4季度—2023年第1季度)
该阶段梳理各业务线对GPU资源的需求特征,明确训练与推理场景的算力规格、并发量及安全要求,并在测试环境的GPU单机上验证NVIDIA MPS及MIG的性能表现,评估虚拟化带来的性能损耗。
2.试点阶段(2023年第2季度—2023年第4季度)
在生产环境选取业务场景进行虚拟GPU方案的试点,评估GPU虚拟化改造后整体资源利用率提升的效果。如针对存量NVIDIA Volta架构服务器进行MPS改造,以及对NVIDIA Ampere架构服务器进行MIG改造等。
3.全面升级与深化应用阶段(2024年第1季度至今)
该阶段引入开源GPU Manager方案,结合Kubernetes容器平台构建虚拟GPU资源池,实现显卡资源的碎片和整卡调度,支持单卡容器间算力和显存使用隔离等,提升GPU资源利用率。
平安证券的虚拟GPU建设已在多个业务场景中取得显著成效。以法律合规领域的智能语音质检服务为例,该服务是对公司日常业务开展过程中存留的非用户语音数据进行话术合规性检查。由于每天需要处理的数据量很大,需要部署多个服务实例以保证数据按时处理。该服务在进行虚拟GPU改造后,实现了不同服务实例的算力资源隔离,稳定性得到了保证,使V100s单卡4实例的处理性能提升80%,GPU利用率提升400%。
三、虚拟GPU技术挑战
在平安证券推进虚拟GPU规划建设的过程中,尽管虚拟GPU技术为算力资源的高效利用和灵活调度提供了创新路径,但其在实际部署和应用中仍面临多重技术挑战。
1.算力资源碎片化与动态调度问题
在金融行业AI业务场景中,算力需求呈现出显著的波动性与碎片化特征。例如,实时推理任务可能在特定时段集中爆发,如行情快速爆发期;深度学习模型的训练需要持续高并发的GPU资源,但训练运行呈现不定期的特性。传统物理GPU部署模式下,资源分配通常采用静态分配机制,难以灵活满足动态业务需求。而虚拟GPU技术虽实现了资源池化,但多实例共享物理GPU时仍面临资源碎片化问题——不同业务对显存、算力、带宽的差异化需求可能导致资源利用率下降。
2.性能损耗与计算效率优化问题
各种虚拟GPU技术通过虚拟化技术实现资源隔离与共享,但这一过程可能引入额外的性能损耗。例如,在NVIDIA vGPU方案中,每个实例的显存和算力固定分配,无法根据实际负载进行动态调整,导致部分场景资源利用率不足;而MPS方案虽支持多进程并发调度,但其依赖MPSServer的集中式管理,可能成为性能瓶颈;GPU Manager方案也存在每月5%左右的性能损耗。
3.多租户安全隔离与合规性保障问题
金融行业对数据安全和合规性要求极高,虚拟GPU技术的多租户特性可能导致一定的潜在风险。例如,如果不同业务部门或第三方服务商共享同一物理GPU资源,需要有严格的隔离机制,以避免可能的数据泄露问题。因此,需要在资源使用上首先实现硬件级的安全隔离,然后在此基础上实现同一业务线服务内部的算力资源虚拟化和共享,并配合合规性监控,实现虚拟GPU资源使用日志的全链路追踪,记录每个实例的访问记录、资源分配及数据流向等情况。
4.异构资源兼容性适配与运维复杂度问题
未来的算力资源一定是异构组网的。但不同厂商的GPU硬件在虚拟化方案上存在差异,导致跨平台迁移困难;此外,虚拟GPU的运维管理涉及虚拟化平台、资源调度器、监控工具等多组件协同,可能增加运维复杂度。
四、未来展望
随着人工智能技术的持续演进和金融行业数字化转型的不断深入,GPU算力作为核心基础设施的定位将愈发关键。平安证券的虚拟GPU规划建设已初步验证了虚拟化技术在提升算力资源利用率、降低部署成本和支撑业务敏捷创新方面的价值。但面向未来更复杂、更动态的AI应用场景,仍需在技术深化、多方协同和合理规划等方面持续推进。未来,平安证券将从以下三个方面进一步推动算力资源的高效建设。
1.升级虚拟GPU技术以满足AIGC、大模型的要求
随着生成式人工智能(AIGC)和大模型技术的快速演进,金融行业对算力的需求正从“可用”向“极致高效”升级。大模型在金融场景中的落地对GPU资源提出了更严苛的要求。大模型部署通常需要超大规模GPU集群,而推理应用更是对低延迟和高并发能力提出了挑战。未来的虚拟GPU技术需支持更细粒度的资源划分和更灵活的动态调度能力,如卡间、机间资源共享等,以避免资源浪费。
2.异构算力生态的深度融合
当前,虚拟GPU技术主要基于NVIDIA等厂商的解决方案,但未来金融行业对算力的需求将呈现出更显著的异构化特征。一方面,国产GPU在金融场景中的可适配性持续提升,平安证券将探索兼容NVIDIA与国产GPU的统一虚拟化方案,通过统一接口实现跨架构的资源调度与任务迁移,降低对单一厂商的依赖度。
3.金融行业虚拟GPU技术标准化路径
GPU算力底座的建设不仅是技术问题,更是生态协同的系统工程。平安证券将积极参与行业标准制定,推动虚拟GPU技术在金融领域的规范化应用;同时,与GPU厂商、云服务商及开源社区深化合作,探索更开放的虚拟化方案,推动虚拟GPU资源管理接口的标准化,降低跨平台迁移成本,构建更灵活的算力生态。
|