【摘要】本课题聚焦券商数字化工作,从数据共享、数据服务角度切入,实现大数据平台基础能力升级,搭建数据资产管理平台,完善数据治理体系,完成“采集-计算-服务-应用”于一体的大数据平台建设,同步建设数据资产管理平台覆盖数据治理多个领域,增强数据管理能力,并将大数据技术与数据应用和数据治理工作相结合,提升整体效能,“盘活”数据资产。
数据作为数字经济的关键生产要素,其经济属性和价值属性备受关注。顺应时代潮流,响应国家号召,2020年中金公司601995)提出了“数字化、区域化、国际化”和“中金一家”的重要战略举措,数字化也成为了公司未来发展的重要一环。同步,公司也正式启动了数据中台的建设,加强数据资产管理,让数据为业务赋能。
在目前的数据生命周期中,即从产生到整合、加工、使用的端到端价值实现过程中,中金公司通过在数据湖架构、数据交换同步技术、元数据管理、数据标准、数据质量、数据安全、资产目录等方面的深入研究,逐步提升数据交换和数据服务能力;在传播数据标准共享理念的指导下,不断提升数据可得性、易用性,最终搭建公司级数据资产统一视图;结合飞速发展的大数据处理等技术,最终探索出一条证券公司大数据应用的可行道路,建立成熟的数据治理体系,落地数据管理运行机制,最终实现大数据标准化、自动化、智能化管理的目标。
目前企业数据资产的管理处于初级阶段,数据质量、资产评估、数据共享等精细管理、价值挖掘和持续运营能力需进一步提高。借助此课题的研究,我们将大数据技术逐步嵌入到数据流转的整个过程中,打破数据共享壁垒,建设数据统一视图,缩短数据准备和项目交付的时间,让数据随时快速有效就绪,加快数据价值释放。
我们还研究并探索了数据交换、数据共享和数据资产管理方案,将数据生命周期的各个阶段的环节和业务场景与大数据技术相结合,贯穿元数据管理、数据质量管理和数据目录等功能,意在打破烟囱式数据管理模式,减少重复建设,降低数据间互联互通成本,提高办公效率,再进一步提供数据开放、数据共享等服务,深入挖掘数据价值。
在元数据管理、数据标准、数据质量和数据资产目录的梳理应用过程中,我们逐步应用大数据语义分析等“自动智能”专业工具与技术来提升处理效率。在前期梳理形成的基础资产管理框架下,应用大数据处理技术,优化现有技术流程和方法,对数据资产进行梳理更新,沉淀数据能力,提升数据服务效率。
建设初期,平台以立柱架梁为短期目标,从平台实现上支持打通数据全流程,基本实现了“采集-计算-服务-应用”平台构建和全流程投产,完成了平台基础层的重大升级和全湖相关任务、服务迁移。
实现基座平台Hadoop生态软硬件全面升级,完成多租户、高性能、高吞吐、高可用等架构设计目标的落地;集群实现平台资源“全租户(部门)隔离”,保证各组件数据权限独立设置,防止恶意租户对信息的窃取和篡改。不同租户根据数据使用场景被分配至一组独立的队列下,保证了集群资源的最大程度利用。
完成实时数据平台基座的建立,服务于跨部门项目,解决业务部门对于高时效性数据的需求。在数据沙箱等应用中投产跨源计算引擎Trino,实现公司业务侧存量数据和中央湖内数据的互联互通,加速了“数据驱动业务”转型的脚步。
构建面向数据的“全生命周期”、“一站式”开发者和API服务平台,降低数据使用的门槛和成本,提升“数据向生产力”转化的效能。随着“数据开发-管理平台”落地,逐步推进“架构-源码-程序-运维”的一体化。
数据共享与服务的价值,一是满足业务对于历史的、联合的、智能的数据需求;二是形成丰富的数据市场,培养用户习惯,形成数据文化氛围。
为满足多样化数据需求,公司通过数据入湖构建了一个丰富、准确、稳定的数据市场,覆盖公司核心业务数据源与外部参考数据;基于业务的定制化需求,建设了数据集市,实现业务对于历史的、联合的、跨域的、个性化的数据需求。我们还打造了“场景分区+技术分级”的场景化服务方案,在安全合规前提下,提供多元服务方式。
在数据市场建设和文化宣导方面,公司建设了丰富的数据生态,可以让业务灵活地探索数据、挖掘价值,博亚app 博亚体育满足多样化数据需求。经过一段时间沉淀,用户数据使用习惯培养初见成效,多个业务部门开始转向更加高效的数据使用方式,并带动了数据生产链路的优化。
数据资产管理从元数据智能管理、落标智能管理和数据资产目录三个主要方面展开研究与工作。
目前公司的数据平台已纳入了100余个系统的数据,实现对10万余张表、260万余个字段的元数据统一采集管理,形成公司统一数据资产视图。
数据治理智能化的核心在于对元数据的管理,通过搭建智能化引擎,逐步降低数据资产梳理、数据模型设计、数据安全分级等元数据相关工作的手工比例。
智能落标功能基于预训练sentence-bert模型和向量计算,对元数据字段中文名和数据标准项进行匹配映射,保留相似度最高且大于50%的前5个,作为推荐落标的候选结果,再结合人工判断完成元数据与标准的匹配,再进行下一步的落标核查。
通过构建多元化数据资产目录,能够有效提升数据资产共享程度。公司优先基于数据中台开展数据资产盘点,构建统一的资产视图,为用户提供统一入口、多视角的数据目录视图,以支持数据的快速查找与定位。资产视图还串联了数据分类分级、数据敏感信息识别结果、数据标准、系统与标准代码、数据血缘等信息,形成一套完整、有深度的数据资产。
在用户使用过程中,我们也在不断完善资产目录,通过数据埋点,获取目录使用情况数据,对低访问量目录进行分析,提升资产目录对用户适配性。
数据安全治理以数据分类分级为核心,围绕数据生命周期中各个环节的安全保护进行落地,确保数据安全管控要求在数据治理各项管理流程中的严格实施,包括数据分类分级、数据脱敏、数据权限管理等多个领域。
数据安全等级及敏感标识是开展数据权限管理的重要基础,是数据授权流程的必要信息。我们采用“智能化+人工校验”实现半自动的安全资产盘点,完善元数据安全与敏感标签,形成统一黄金标签源,达成即时可用,并结合数据安全等级和数据敏感度,逐步明确各场景下的数据安全管控措施。
在数据脱敏方面,引入数据安全工具,应用RPA技术实现自动化脱敏规则部署,满足测试环境数据脱敏、样例数据展示等多种场景的数据安全需求,在确保数据安全性的同时,大幅提高数据可用性,提升技术用户和业务用户的数据使用及价值挖掘的便利性。
数据权限和数据利用一体两面,为提升数据流转效率,依托数据权限管理,在部门内部进行二级权限管理实践,基于数据权限绑定角色,角色绑定用户的思路,完善了数据权限的管理体系。利用技术手段对二级权限进行统一管理,实现权限快速授予、回收、审计等全周期管理。
数据质量在数据治理领域中备受关注,过往的质量管理方法手工依赖度较高,故需结合技术手段优化工作流程,提高质量闭环管理的效率。
我们推动质量管理机制与线上化先行,建立数据质量管理机制,结合公司实际现状,明确数据质量管理体系及每个环节的管理动作。
通过在数据资产管理平台内置数据质量规则库和参数化的质量配置功能,实现包括质量规则管理、检核任务管理、质量问题管理和质量报告的自动化生成等功能,并以公司用例项目为试点,建立可落地的数据质量管理闭环管理流程。
后续我们也将持续推进精细化、智能化的质量管理,包括:精确数据质量管理范围和智能化数据质量检核与问题分析。
本课题研究已应用于公司数据平台和数据资产管理平台建设中,通过结合大数据NLP、RPA等技术提升了数据处理和数据管理的效率,取得了如下成果。
夯实数据底座,升级数据处理工具,形成数据平台能力矩阵:实现底座平台Hadoop生态软硬件全面扩容升级,落地多租户、高性能、高吞吐、高可用等架构设计目标。构建面向数据全生命周期的开发者和API服务平台,全面降低数据使用的门槛和成本;构建“数据快查”、“数据沙箱”等数据分析工具,调度量增长迅速。
建设系统化数据治理体系,完善管理框架,推进数据质量提升:在企业数字化转型、科技敏捷的模式下,将数据治理工作嵌入开发流程中,基于公司现状实现数据建模工具与敏捷开发流程的有机结合,实现数据库设计、DDL生成、规则检核、生产发布的一站式管理。以元数据管理为基础,公司信息系统的多类数据库元数据均已接入数据资产管理平台进行统一管理,包括Oracle、MySQL、Click House、PostgreSQL等,其中核心系统已100%接入。构建智能化的标签体系,结合业务需求对数据资产的标签进行设计,涵盖数据分类分级、数据共享、数据认责、数据脱敏、数据质量、业务流程、业务实体等,打造具有企业特色的数据标签体系。
实现数据资产平台化运营,建立企业级统一数据视图:建设了企业级数据资产管理平台,并打通数据建模工具,实现数据资产的线上化、可视化和数据资产的常态化、智能化运营,提升管理效率。积累了覆盖参与方、品种、交易、账户、协议、财务等主题的数据标准与代码;完成主要业务系统数据资产盘点,脱敏服务覆盖各类系统使用;质量核查稳定支持各部门系统;推进数据资产管理平台建设,完成核心业务系统元数据统一采集管理,博亚app 博亚体育形成公司统一数据资产视图。
基于上述基础,我们不断探索适用于公司的数据治理实施路线图,不断推动数据治理成果落地,结合数据治理框架和体系搭建数据资产管理平台,推动数据资产共享,实现了元数据、数据标准、数据字典、数据模型的打通,便捷业务部门使用;实现数据智能化分类分级、线上化数据安全管控;落地数据质量线上化管控,提升质量工作效率;规范管理模型设计,实现设计态数据治理,从源端沉淀资产;建立企业级资产目录,便捷数据查看,促进企业内部增质提效。
投资者关系关于同花顺软件下载法律声明运营许可联系我们友情链接招聘英才用户体验计划
不良信息举报电话举报邮箱:增值电信业务经营许可证:B2-20090237