交通银行数据管理与应用部副总经理 周学张
近年来,数字技术和数据要素快速发展,为社会转型和产业变革提供了重要机遇,逐步成为数字中国建设、数字经济发展的重要驱动力。在党中央的高度重视和坚强领导下,我国数据基础制度体系持续完善,数据要素市场高速发展,数据价值正在各行业、各领域的发展变革中不断释放,并持续发挥着重要作用。
2022年,随着数据要素领域首份基础性文件《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》(“数据二十条”)的正式出台,数据产权、流通交易、收益分配、安全治理等方面的政策规范进一步明确,数据要素正式进入规范发展通道。2023年8月,财政部印发《企业数据资源相关会计处理暂行规定》,进一步明确数据资产入表具体路径。2023年12月,国家数据局联合多部门印发《“数据要素×”三年行动计划(2024—2026年)》(以下简称《行动计划》),正式提出在金融服务等12个行业和领域试点数据要素的融合应用等。这一系列数据基础制度的陆续出台,为构建数据要素良性发展的生态提供了科学保障,有效支撑了生成式大模型等新型数字技术应用的快速落地,同时也对商业银行进一步规划数据治理未来方向提出了新的范式要求。商业银行需要守正创新、与时俱进,在夯实传统数据治理1.0体系的基础上,持续优化迭代,构建满足人工智能应用、数据要素流通、数据资产化管理等各领域需要的数据治理2.0体系,充分发挥数据要素价值,助力做好数字金融大文章,更好落实金融为民的时代使命。
一、巩固数据治理1.0体系基础
自2018年《银行业金融机构数据治理指引》发布以来,各家商业银行全面推进数据治理体系建设。交通银行高度重视数据治理工作,建立了董监高层级的数据治理决策领导体系,制定了《交通银行股份有限公司“十四五”时期(2021—2025年)数据治理规划》,并将其作为全行数据工作的战略性指导文件,提出“规范化治理、智慧化服务、平台化支撑、协同化组织”的体系建设目标,明确业务、数据、技术三方职责分工,深化全行数字化发展理念共识,总分协同、全面推进企业级数据治理体系建设。
在数据标准管理方面,交通银行编制了覆盖各业务领域的5.5万项企业级字典规范,将标准化流程嵌入开发过程,推进业务系统全面贯标;同时,以企业级架构建设为契机,推进企业级数据建模工作,保障数据标准在企业级架构中的规范统一。
在数据质量管理方面,交通银行聚焦监管报送、经营管理、业务发展等重点场景,建立健全企业级数据质量规则库,搭建数据质量管理系统,建立“定、测、析、改、控”的管理闭环,实现数据质量常态化监控,为全行数据质量问题的及时解决和量化管理提供有力支撑。
在数据安全管理方面,交通银行健全数据安全管理制度,压实各层级数据安全工作责任;建强数据安全系统平台支撑,实现数据安全影响性评估的线上化和敏感数据识别的智能化;建立数据安全应急机制,组织制定重点业务场景专项应急预案,扎实推进数据安全评估和检查工作。
在数据中台建设方面,交通银行基本建成以治理、计算、服务、分析平台为主体的企业级数据中台,加快实施大数据基础设施的信息技术创新改造;构建覆盖公司、零售、风险等七大领域的数据应用集市,实现全行数据充分集成和统一共享,支撑营销、风控、运营等业务中台灵活调用。
在数据治理成果及行业贡献方面,交通银行参与了《商业银行数据要素共享与流通研究报告》《金融数据资产管理指南》《数据中台实践指南》《银行业数据安全分析和实践》等行业标准和白皮书的编制等工作,为商业银行数据治理贡献交行智慧。
二、应对数字经济时代的三大新变量
在数据要素成为生产要素的背景下以及生成式人工智能带来的颠覆性变革下,商业银行的数据治理工作需要顺应要素化、智能化的趋势,持续把握数据治理的服务目标要求和工作主线,以应对数字经济时代的新变量。
变量一:人工智能浪潮下的高质量数据诉求
相关管理咨询公司在《银行业生成式AI应用报告(2023)》中指出,生成式AI将贯穿银行业前中后台各个环节。各家商业银行积极布局人工智能应用,推进通用大模型向金融领域垂类大模型的转变,与之相伴而来的,是其对大规模、多维度、高知识含量训练数据的强烈需求。
一是强调高效率的非结构化数据治理。大模型的训练数据需求相较传统AI模型,需要综合运用海量非结构化文本、图像和音视频数据。商业银行在数据治理1.0体系的建设过程中往往聚焦于对结构化数据的管理,需要尽快探索如何有效组织协同各业务条线,梳理盘点潜藏在系统中的海量非结构化数据,持续高效地提升非结构化数据的采集、存储、转换效率,使其符合大模型输入和训练要求。
二是强调高质量的知识性领域数据治理。大模型时代对数据的需求,尤其对模型训练校准中的数据以及高质量知识数据的需求异常迫切。在从通用型模型向金融专业领域模型训练的过程中,首先遇到的就是企业内部知识积累不足、挖掘不够、归纳不精的问题,大量专业领域知识文档未进行统筹管理,无法形成有效的问题对支持模型进行训练。此外,高质量知识性领域数据还要求体现价值观因素,避免算法决策中的潜在偏见和误导;确保语义符合核心价值观要求是必须遵守的底线。
变量二:《行动计划》中数据流通的安全合规诉求
《行动计划》提出,在依法安全合规前提下,推动金融信用数据和公共信用数据、商业信用数据共享共用和高效流通,支持金融机构间共享风控类数据。商业银行基于自身金融服务创新需要,对数据安全合规流通的诉求持续增强。
一是需要注重以数据为主体的安全防护。《中华人民共和国网络安全法》《中华人民共和国个人信息保护法》《中华人民共和国数据安全法》等法律法规的出台,对商业银行完善客户信息保护体系、加强数据使用规范提出了多层次、立体式要求。数据流通涉及的主体多样、链路复杂,如何将安全防护从“网络技术安全”扩展到细颗粒度、全链路、全生命周期的“数据主体安全”,急需进一步深入研究。
二是需要探索多领域数据融合的合规流通。商业银行丰富的金融服务场景需要多领域数据的融合,《行动计划》提供了契机,但如何在现有数据要素市场规范和交易机制下,规避供需双方沟通成本高、信任度不够、交易成本高等问题,拓展数据融合的安全边界,仍需要各方持续探索与共建。
变量三:数据资产入表背景下的数据价值化诉求
根据《企业数据资源相关会计处理暂行规定》,各家商业银行积极探索数据资产入表路径,但在资产化实践中,数据预期收益的分析与成本的归集分摊等仍面临挑战。
一是数据资源预期收益分析存在难点。评估数据资源未来可能产生的经济利益是资产确认的前提,但业务场景价值链路普遍较长,数据的产出效益难以精准评估,数据资源的资产化确认存在诸多困难。
二是数据加工成本难以被准确计量。商业银行数据估值多采用历史成本计量模式,但数据加工链路复杂,准确完整的数据血缘图谱往往梳理困难,链路各环节的资源投入难以被精确分摊。
三、推动构建商业银行数据治理2.0体系
面对上述三大新变量,传统数据治理1.0体系需要迭代升级,商业银行一方面需持续发挥好数据量大、治理基础好、场景丰富等优势;另一方面需切实构建全场景、智能化、价值化的数据治理2.0体系,构建覆盖“供给、运营、安全、应用”的四项新能力,夯实“算力、人才”两项“新基建”。
1.建设四项新能力
(1)构建纵跨“数据、模型、知识”三个层次的数据供给能力
在数据层面,构建全覆盖的底层数据资产目录,在结构化数据之外,拓展非结构化数据版图,加快推进对文本、图片、音视频等非结构化数据资产的梳理,支撑人工智能应用的精准定位与前置转化。
在模型层面,做好指标、标签、模型等信息的萃取提炼与统筹管理。大模型与小模型共存的格局将长期存在,项目组级的“烟囱式”模型及模型特征的重复开发愈发普遍,需搭建企业级模型特征库,实现模型及模型特征数据的“一次治理、多场景复用”,提升模型搭建效率。
在知识层面,建立企业级知识沉淀与运营机制,构建高效合规的数据标注体系,明确知识沉淀规范,推动企业内部的“隐性知识”向“显性知识”转变,打造全行知识库,降低沟通成本;组建专业团队,研究标注规则和工作流程,加强数据审查和脱敏,充分满足人工智能数据标注合规化、专业化要求,提供安全合规、准确高效的训练数据集,形成标注质量与模型效果的正向循环。
(2)构建支撑智能敏捷应用的数据资产运营能力
一是探索DataOps敏捷数据开发模式。积极探索数据、技术、业务的协同组织,加强跨业务领域数据协作,做好数据研发全流程的运营监控,提升数据开发交付效率与质量。
二是推进数据智能化管理。在被动式元数据管理的基础上,基于数据图谱和嵌入式机器学习等进行元数据主动管理,探索应用口径自动提取、内容智能解析、业务语义智能发现和推荐等功能,提升智能化数据应用能力与数据资产管理水平。
三是做好数据资产入表的价值计量。基于“合规确权、有效治理、预期经济利益可行性分析、成本分摊与归集、核算与披露”五步入表路径,加快推进数据资产价值可计量;进一步厘清数据加工流转链路,细化数据血缘解析粒度,优化数据血缘的识别精度,为落实数据资产入表提供基础。
(3)构建覆盖数据全链路的数据安全管控能力
一是加强对数据内容的敏感性审核,满足数据伦理要求。以“数据内容公平非歧视、透明可解释”为目标,落实针对结构化和非结构化等各类数据内容的敏感性和价值观审核,严防数据犯罪,保障数据的合法合规,践行科技向善。
二是强化个人信息保护,保障个人权益。提升数据安全风险的日常监测和应急处置能力,强化数字生态下的科技外包风险管理,聚焦数据范围、业务用途、应用方式等关键要素,开展数据活动的合规合法性及安全管理有效性评估,避免出现数据滥用、数据侵权、数据垄断等不当行为,依法保护金融消费者合法权益。
三是建立针对人工智能应用场景的安全评估体系。聚焦训练数据安全、算法模型安全、基础设施安全、管理措施安全等方面,研究制定安全评估指标,落实精细化、全流程的数据安全管控措施,构建安全可信的人工智能应用。
(4)构建面向泛金融生态的数据应用能力
一是推进内外部数据高效融合。加强外部数据的精细化、集约化管理,发挥金融行业丰富场景优势,引入各领域公共数据,辅助科技金融、绿色金融、小微企业等领域的信贷决策,服务实体经济发展。
二是打造高质量数据产品。面向金融服务效率与质量提升,打造一批品质优异、权属清晰、价值明确的数据产品,在企业内部高效复用的基础上,探索开展数据流通交易,充分释放数据价值。
三是构建数据流通交易生态。综合商业银行内外部数据融合实践,推进多方协同治理,建设繁荣的数据市场生态,协同行业内及产业链龙头企业建立可信数据空间,联合制定空间内数据流通规则和标准,助推数据要素在安全可信的流通环境中高效挖掘应用。
2.打造两项“新基建”
(1)打造智能算力“新基建”
算力基础设施是支撑新一轮企业数字化变革的关键底座,商业银行需要构建更加敏捷高效、自主可控的前瞻性算力体系,基于业务经营对系统高并发、低时延、可靠性的要求,对海量数据资源进行分布式高效存储。大模型的广泛应用推动更大规模算力需求,商业银行应进行前瞻性布局,加强算力集群构建、算力调度部署等规划,打造面向超大规模参数的大模型算力底座。
(2)打造数字化人才发展“新基建”
数字化人才队伍的专业性、复合性是商业银行“业、数、技”深度融合的关键。商业银行需加大数字化领军人才培养和引进力度,形成一批既能洞悉业务模式,又具备数据分析能力,同时对技术有深刻理解的复合型人才;需注重企业内部数字化素养培育,使员工在立足各自领域的同时,持续提升在数字化思维、理念、认知等方面的梯度。
四、交通银行建设数据治理2.0体系的实践与展望
近年来,交通银行贯彻党中央、国务院决策部署,主动把握数字经济发展机遇,塑造数字经济时代下的大数据底座,在数据治理1.0体系基础上,推动数据治理2.0体系的构建,加快建设“数字化新交行”的人工智能新名片。
一是积极布局人工智能,做强算力基础设施。在算力布局方面,交通银行已完成新同城数据中心的交付,规划配备10万台服务器;已启动内蒙古和林格尔新区、贵州贵安新区两大数据中心建设,推进算力体系从“两地三中心”向“多地多中心”演进;在数字化人才团队建设方面,与复旦大学以及华为、科大讯飞等建立联合创新实验室,聚焦前沿技术和场景,推进大模型在金融领域的落地应用研究。
二是提升数据供给水平,强化数据资产管理。交通银行在数据层面,汇聚整合全行重要业务系统约18万张结构化元数据库表,梳理盘点文本、图像、视频等80余种非结构化数据;在信息层面,沉淀零售、公司、财管等领域2.7万项业务指标,梳理零售、对公领域3600余个标签;在知识沉淀层面,建设企业级数据标注体系,搭建智能化数据标注平台,推进业务领域专业文档的机器可读、可理解;同时,加强工商、税务、司法等领域企业外部数据与银行内部数据的融合应用,积极推动与各地大数据局合作专项工作,目前已有近40家省直分行及辖行与当地大数据局建立了合作关系。
三是加强数据分类分级管控,推进数据安全流通共享。交通银行已推进全行重要业务系统全面分类分级,部署差异化安全管控措施,针对数据内部跨域流转、对外出行出境等场景进行重点管控,建立规范的数据安全审批流程,对技术和业务逻辑变化带来的数据安全风险进行评估,确保其审慎性和合规性;同时,积极推进安全前沿技术应用,开展生物识别、精准营销、风险管控等领域的隐私计算多方合作,保障“数据可用不可见”,推进金融服务便利性与安全性的双提升。
四是融合内外部数据,促进智能化应用。交通银行“由内而外”推进人工智能技术的应用,实现降本增效目标。在“对内”场景,进行一系列“助手”开发,包括赋能营销人员差异化话术的营销助手、赋能开发人员快速编码的开发助手、赋能业务人员知识库快速检索的问答助手等。在“对外”场景,聚焦运营、风控等领域,包括满足零售客户精准洞察需求,提升全旅程运营能力;面向企业客户,围绕先进制造业、战略性新兴产业等重点领域,提升拓客运营能力;针对风险防控,通过客户征信特征、行为特征等,提高信用风险识别能力等。
未来,交通银行将牢牢把握金融工作的政治性、人民性,充分发挥国有商业银行在数据要素化进程中的引领作用,持续巩固数据治理1.0体系的成果、推进数据治理2.0体系的建设,为数字经济高质量发展、为服务实体经济及百姓民生提供更高质量的金融服务,充分激发数据要素与金融服务各领域、业务经营各环节的乘数效应。
|