模型的拓展性需求和新生AI算法模型的前瞻性需求。在成熟的拓展性需求方面,麦肯锡的研究报告表明:
为充分发挥人工智能技术的潜能,深度学习模型需要海量且涵盖图像、视频及语音在内等多种类型的训练数据进行模型训练。此外,人工智能技术要求算法模型根据潜在的应用场景变化而持续更新,因此,人工智能算法模型所使用的训练数据亦需要定期更新。具体而言,约 1/3 的算法模型每月至少更新一次,约 1/4 的算法模型每日至少更新一次,人工智能算法模型持续更新的特点将进一步拓展各领域训练数据的需求空间。
而在新生的前瞻性需求方面,随着人工智能商业化进程的演进,新兴 AI 应用场景如智联网 AIoT、AI PaaS、产业互联网等将展现出巨大的发展潜力,并逐步促进 AI 技术和算法模型的优化和创新。
因此,在创新应用场景和新型算法的带动下,具有前瞻性的训练数据产品和高定制化的训练数据服务需求将逐步成为主流。
全球 AI 基础数据服务行业处于快速成长期,市场规模具有较大的增长空间。AI 应用场景的创新和机器学习算法的流行直接带动了训练数据需求的大幅增长,这种趋势导致 AI 训练数据难以获取和数据科学家、数据工程师等人力资源稀缺成为制约 AI 产业发展的两大挑战。
根据 Dimensional Research 的全球调研报告,72%的受访者认为至少使用超过10 万条训练数据进行模型训练,才能保证模型有效性和可靠性,96%的受访者在训练模型的过程中遇到训练数据质量不佳、数量不足、数据标注人员不足等难题。
为应对 AI 训练数据所带来的多方面挑战,AI 企业开始从第三方购买原料数据收集、训练数据生产和数据专家咨询等服务,调研结果指出,外包服务能够有效加快算法模型落地应用的速度。
因此,得益于训练数据需求增长和 AI 企业训练数据对外采购意识的形成,全球 AI 基础数据服务行业进入快速成长期,市场规模具有较大的增长潜力。
从 AI 产业链的发展情况和未来发展趋势来看,中国 AI 基础数据服务行业的市场规模将不断扩大。
一方面,随着算法模型、技术理论和应用场景的优化和创新,AI 产业对训练数据的拓展性需求和前瞻性需求均快速增长;
另一方面,随着行业内对训练数据需求类型的增加以及对服务标准要求的提高,AI 产业链的专业化分工将愈加清晰,专业化的训练数据服务提供商将在 AI 产业链上的扮演更加重要的角色。
根据艾瑞咨询《2020 年中国 AI 基础数据服务行业发展报告》,2019 年中国 AI基础数据服务行业的市场规模达到 30.9 亿元,预计 2025 年市场规模将突破100 亿元,年均复合增长率达到 21.8%。
随着 AI 基础数据服务行业的市场规模增速平稳向上,增量市场将替代存量市场成为主要拉力。
存量市场是指训练数据服务行业已有并且稳定的业务范畴,如人脸识别、车辆识别、图片识别、语音识别等相关业务,增量市场是指海外业务、新增需求方、新增业务场景等。在存量市场中,巨头互联网科技公司和 AI 公司为主要需求方,项目落地所需的训练数据逐渐成为需求核心,目前存量市场仍是 AI基础数据服务市场的需求主体。
增量市场是相对于存量市场而存在的,以海外市场、国内新需求方市场、国内新兴业务拓展和国内新成立的 AI 创业公司的需求为主,目前增量市场对于整体市场规模的贡献率较低,但随着中国 AI 技术的不断深入与国际化,增量市场将在未来成为主要的拉动力量。 AI 基础数据服务行业市场规模增长的驱动因素可以分为外部因素和内部因素。
在外部因素方面,AI 产业支撑体系方面的政策支持、投资机构的资金投入、科技巨头企业的 AI 生态链布局将推动 AI 基础数据服务行业加速发展。
在内部因素方面,现阶段有监督的深度学习算法的广泛应用为 AI 基础数据服务行业带来稳定的市场需求,未来 AI 新场景、新模式、新业态的不断涌现将对训练数据的数量和类型提出更高的要求,为 AI 基础数据服务行业带来源源不断的新生市场需求。
按数据类型划分,中国 AI 基础数据服务行业的市场需求可以分为图像类数据需求、语音类数据需求和自然语言处理类数据需求。
2019 年,图像类、语音类和自然语言处理类数据需求规模占比分别为 49.7%、39.1%和 11.2%。
中游包括 AI 基础数据服务商,主要通过数据处理能力和项目管理能力完成训练数据集结构设计、数据加工和质量检测等工作,为下游客户提供训练数据产品和相关服务;
下游包括科技公司、行业企业、AI 公司和科研单位,主要负责 AI 算法研发。
一是学术机构,为开展相关研究工作,自行采集、标注,并建设学术训练资源库。这类训练数据主要用于算法的创新性验证、学术竞赛等,但通常其迭代速度较慢,难用于实际应用场景。
二是政府等中立机构,他们以公益形式开放的公共数据,主要包括政府、银行机构等行业数据及经济运行数据等,数据标注一般由使用数据的机构完成。
三是需求方自建基础数据团队,需求方科技公司或 AI 公司等为开展业务而自行建设训练资源库,一般自行采集、标注形成自用训练数据,或采购专业数据公司提供的数据外包服务。
四是 AI 基础数据服务商,依据业务规模可以进一步分为品牌数据服务商和中小数据供应商。这类公司业务包括出售现成训练数据集的使用授权,或根据用户的具体需求提供数据处理服务(企业自行采集或用户提供原始数据、企业对数据进行转写、标注),具体业务服务形式包括且不限于提供训练数据产品、提供数据采集服务、提供数据转写标注服务等。
在上述的参与主体中,品牌数据服务商、中小数据供应商和需求方自建基础数据团队构成市场竞争关系,为 AI 基础数据服务市场的主要供应方,在 2019 年AI基础数据服务市场规模中的份额占比分别为 30.4%、47.0%和 22.6%,目前中小数据供应商是市场中的主要供应力量。
从供应方的发展来看,行业内部处于“洗牌”阶段,未来品牌数据服务商阵营将替代中小型供应商阵营,占据市场的主要份额。
目前,中小型数据供应商的整体体量仍然可观,但随着业务门槛提升、客户需求多样化、价格战中利润被压缩等情况成为常态,越来越多的中小型数据供应商面临经营困境,所占市场份额将呈现持续缩小的趋势。
艾瑞咨询的数据显示,2019 年中小型数据供应商份额比预期值缩小了 20.8%,而这部分份额按 7:3 的比例向品牌数据服务商和需求方自建基础数据团队释放,因此,品牌数据服务商将在行业内部调整阶段获益最多。
在行业发展初期,AI 基础数据服务行业的门槛较低,玩家鱼龙混杂,行业标准模糊,服务质量参差不齐。随着 AI 产业落地成为主旋律、行业整体竞争愈发激烈,需求方对训练数据质量的要求不断提高,垂直场景的定制化训练数据需求成为主流,需求方市场对 AI 训练数据的要求逐渐向精细化转型。
一方面,人工智能 算法应用要经历研发、训练和落地三个阶段,需求方根据算法应用的不同阶段对 AI 训练数据提出差异化需求:研发需求是对新拓展领域或新建算法的训练,对数据数量的要求较高,但数据标注内容倾向于标准化;训练需求一般是对算法的准确性和健壮性进行优化,对数据标注的内容需求较为丰富,对数据准确性要求较高;落地需求一般为算法较成熟的核心场景,对训练数据的内容有特定指向,采标难度较大,同时对 AI 基础数据服务商的技术能力、服务意识、稳定性和效率有较高要求。随着人工智能技术的发展及与应用场景的深入结合,训练需求和落地需求逐渐成为主流。
另一方面,需求方对 AI 基础数据服务商的数据安全、采标能力、数据质量、管理能力、服务能力等核心能力提出了更高的要求:在数据安全方面,需求方对数据授权、数据传输、存储及结项后的数据销毁等环节更加重视;在采标能力方面,需求方更关注服务商在某些特定领域或垂直场景的采集能力、定制研发标注工具的能力以及对项目需求的理解程度;在数据质量方面,需求方对首次交付的准确率提出更高要求;在管理能力方面,需求方注重服务商 的项目管理能力、服务效率以及执行团队的素养与信誉;在服务能力方面,需求方希望 AI 基础数据服务商具备快速响应能力和主动服务意识。
由于目前 AI 基础数据服务行业对劳动力存在密集型需求,人力输送和项目转包等服务形式仍然存在,因此中小型数据供应商仍占有一定的市场份额。但随着业务门槛提升、客户需求向精细化转型,众多中小型数据供应商在数据质量和采标能力方面达不到相关要求,将逐渐远离“利润中心”,面临被淘汰或被整合的局面。
根据《行业研究报告》,2019 年人工智能中小型数据服务商市场份额比预期值缩小 20.8%,相应市场份额按 7:3 的比例向品牌数据服务商和需求方自建基础数据团队转移,因此品牌数据服务商将获得大部分“红利份额”,商业价值逐步凸显。
时代的核心驱动力量》从AlphaGo的人机对战,到无人驾驶汽车的上路,再到
市场规模达到25.86亿元,预计到2025年市场规模或将突破113亿元。
华为或将推出麒麟9000S旗舰平板电脑/苹果全包台积电3nm产能/ASML继续向中国供应DUV光刻机 热点科技新闻点评
MovieCompose基于Jetpack Compose的电影APP博亚app 博亚体育博亚app 博亚体育