当下,5G、人工智能、工业互联网、物联网为代表的新型基础设施,成为社会各界关注的焦点。随着国内抗疫成效继续巩固,复工复产全面铺开,“新基建”与社会各领域融合发展的步伐加速。在加大对新一代信息技术产业“硬”实力建设投入的同时,“软”实力同样不容忽视。
近日,艾瑞咨询发布《2020中国AI基础数据服务行业发展报告》,指出作为与“新基建”有着强关联性的 AI基础数据服务行业,将迎来潜力较大的市场空间。
中国人工智能商业化在算力、算法和技术方面基本达到阶段性成熟,想要更加落地,解决行业具体痛点,需要大量经过标注处理的相关数据做算法训练支撑,可以说数据决定了AI的落地程度,而AI基础数据服务行业又鲜有关注。
目前,AI基础数据服务行业的产品形式主要为数据集产品和数据资源定制服务。但由于国内缺乏专业的数据资产运营机构,特别是针对不同行业、不同应用场景的可信数据服务,如特殊场景数据采集能力(车辆环境、微气候等),如语音合成、3D点云等高门槛数据标注能力,市场仍存在较大空缺。
此外,还要求数据服务商对计算机视觉、智能语音、NLP等算法训练需求具备深刻的理解能力、拥有更专业的数据库设计能力、拥有更具前瞻性的数据集产品设计能力,能够参与到数据采集、数据处理、数据安全管理、数据可视化、数据融合应用等各环节。
作为国内领先的数据资产运营商,东湖大数据在人工智能行业发展之初,就已关注到AI数据服务的需求缺口和潜在的应用市场。在已形成涵盖工商、气象、房产、汽车、旅游、金融、水环境等200多个行业50大品类的数据资源上,还拥有全国独一无二的林权、专利、债权等非标资产数据资源。
同时,基于母公司国内智能语义头部公司——中润普达的研发实力,东湖大数据参与到多个人工智能算法模型的数据输送环节,提供了针对机器学习的多个脱敏数据集。公司先后推出了“裂云”大数据采集及标签平台、“数趣”大数据可视化分析平台、“冲宵”非结构化语义分析平台、“气象AI”人工智能数据产品平博亚体育 博亚体育官方网站台,帮助政府、企业构建可定制的数据API服务、人工智能数据产品服务。
品牌数据服务商、中小数据供应商和需求方自建团队是市场中的主要供应方,该行业核心业务与当下以监督学习为主的人工智能市场具有强相关联系,市场发展前景向好。AI数据服务对应AI产业链基础层、技术层和应用层发挥相应作用。
基础层按照算力、数据和算法再次划分,对整体上层建筑起到支撑作用;技术层根据算法用途分为计算机视觉、智能语音、自然语言处理等,是AI最引人注目的环节,需要大量经过标注处理的相关数据做算法训练支撑,数据决定了AI的落地程度;应用层则按照不同场景的需求定制开发专属服务,需要稳定、可信的数据源,并进行多维数据融合,是AI真正赋能行业的方式。
人工智能主要算法应用领域集中在计算机视觉、语音识别/语音合成,以及自然语言处理。
图像方面,一个新研发的计算机视觉算法需要上万张到数十万张不等的标注图片训练,新功能的开发需要近万张图片训练,而定期优化算法也有上千张图片的需求,一个用于智慧城市的算法应用,每年都有数十万张图片的稳定需求。
语音方面,头部公司累计应用的标注数据集已达百万小时以上,每年需求仍以20%-30%的增速上升,要求数据服务商不仅要掌握专业的声学知识、数据标注经验,还要拥有语音合成的算法能力。
自然语言处理方面,随着工业、医疗、教育的AI应用产品进一步爆发,将会有更多交互方式出现,自然语义数据处理的需求将会持续增长,有望成为继图像、语音之后的第三大增量市场。
目前人工智能行业仍以有监督学习的模型训练方式为主,对于标注数据有着强依赖性需求,但随着AI商业化进程的演进,更具有前瞻性的数据集产品和高定制化服务成为了AI基础数据服务行业的主要服务形式。
当下新基建的进度加速,各行业对定制化数据集、数据接口的需求将迎来小高峰。从需求方看,这允许企业更好地根据自己的需要和市场状况灵活选择合适的数据接口,降低了成本。从供给方面看,定制化、模块化将可以实现服务的标准化,使应用产品更加精准。随着IoT设备的普及,交互场景越来越丰富,每年都有更多的新增场景和新需求方出现,对于数据的定制化需求也是逐步增长。
随着AI基础数据需求多样化,以及复杂程度的提升,以往项目经理“人管人”的管理方式和使用单一工具应对单一需求的执行方式在能力和效率上都显得捉襟见肘。因此,拥有一套自主研发贯通数据库设计、数据采集、数据处理、质量检测、质量控制和数据安全管理等各环节于一体,并且能对图像、文本、语音、视频以及点云数据做到一站式加工处理的管理和执行一体化平台,是实现人力驱动向技术驱动的关键一步。
AI 在数据标注领域主要应用于数据采集和数据处理环节。在数据采集环节,通过使用计算机视觉和语音识博亚体育 博亚体育官方网站别技术对样本进行初步识别,可以在短时间内达到90%以上的校验正确率,实现几倍于人力的工作效率。在数据处理环节中,应用人工智能可以对图像数据进行场景分割、人脸和物体识别,对于语音数据进行语音识别、文字转写和自然语言理解的预处理操作,自动完成标注后,再由人工进行校对,不仅降低了标注难度还变相增加了生产力。在数据采集和处理环节中应用感知智能,进行人机协作,将成为AI基础数据服务行业精细化管理中鲜明的竞争壁垒。