2024年中国AI基础数据服务研究报告
艾瑞股份·2024-07-12 20:00

报告行业投资评级 无相关内容。 报告的核心观点 多模态、长文本、大模型小型化成为热点研究方向 [5][6][7][11][12][13] - 多模态大模型能够同时处理和理解包括文本、音频、图像和视频在内的多种数据类型,提供更自然的人机交互方式,具备更全面和准确的认知能力,在不同情境下表现出更高的鲁棒性 - 长文本处理能力的提升,使大模型在理解和生成复杂文档方面表现更佳,能够更好地支持多主题和多步骤的推理任务 - 通过知识蒸馏、模型剪枝和混合精度训练等技术,大模型得以小型化,减少了计算资源需求,提高了推理效率,使大模型在资源受限设备上高效运行 价格战反映出供应商间能力同质化的问题 [14][15][16] - 为争夺大模型客户流量及背后云资源市场,云厂商、大模型厂商等相继调整API产品定价,低价甚至免费供应 - 价格战的积极意义是扩大客户量及使用频次,促进大模型技术在国内更快普及,加速创新型应用的诞生 - 但价格战也反映出大模型产品技术壁垒的薄弱,供应商需加速技术及产品差异化建设 央国企引领大模型项目建设 [17][18] - 央国企凭借较好的数字化基础、丰富的数据资源及业务场景、相对充足的科技投入预算,成为现阶段国内大模型项目建设的主力军 数据、算法、算力是构建AI的三大要素 [19][20][21][22][23][24][25][26] - 数据是AI的基础,大量高质量的数据不仅能够提高现有模型的准确率,还能促进模型的优化和创新 - 算法是处理信息、提取特征、进行预测的逻辑框架,深度学习的兴起极大推动了AI任务的进步 - 算力支持算法处理庞大和复杂的数据集,GPU、TPU等AI芯片的发展直接影响到AI模型的训练效率及规模化应用的可行性 根据目录分别进行总结 AI基础数据服务是AI产业发展的关键支撑 [27][28][29][30] - AI基础数据服务厂商提供的标准数据集和定制数据集,能够缩短AI研发周期,提升AI应用的性能和效果 - 数据质量对AI算法的性能有直接影响,AI基础数据服务厂商确保了数据的高标准质量,为算法的精度和可靠性奠定了基础 AI基础数据服务厂商的主要产品服务 [35][36][37][38][39][40][41][42][43][44][45] - 主要包括标准数据集、定制数据集和配套产品工具服务三大类 - 标准数据集是由数据服务厂商研发并可多次销售的数据集 - 定制数据集是依据客户需求制作的特定数据集 - 配套产品工具服务包括标注工具、实训平台及AI模型评测等软硬件工具服务 通用大模型对数据需求更大、维度更加多元 [46][47][48][49][50] - 大模型的数据量更大,数据维度更加多元,标注方式及质量评判标准也更为复杂多样 - 大模型的标注需要考虑更加多维的信息,如新闻的标注除了主题,还需包括时间、地点、人物等 - 为提升通用能力,大模型训练数据的投入将逐步向图像、视频等多模态数据倾斜 公开评测基准与商业化评测服务共建大模型评测生态 [56][57][58][59][60][61][62] - 公开评测基准为学术研究和产业应用提供评估大模型能力的重要参考 - 商业化评测服务为客户提供符合实际场景需求的评测数据集和指标,构建高效、规范且可演进的评测体系 智能驾驶领域的数据标注工作对比分析 [64][65][66][67][68][69] - 摄像头和激光雷达等传感器数据标注的复杂性、标注量和成本存在差异 - 需要考虑来自不同传感器的数据标签对齐和交叉验证工作 中国AI基础数据服务市场概况 [79][80][81][82][83] - 产业链上游提供原料数据、人力资源支持及IT基础设施 - 中游为数据标注等数据服务的供应商,包括专业厂商及云厂商 - 下游为各行业各领域投入AI算法研发的厂商 中国AI基础数据服务市场规模及增长 [85][86][87] - 2023年市场规模45亿元,未来5年复合增长率30.4% - 预计到2028年市场规模将达170亿元 市场结构分析:自建团队和品牌数据服务商主导 [89][90][91][92][93][94][95][96][97][98] - 需求方自建团队和品牌数据服务商的市场份额上升,中小数据服务商的份额下滑 - 2023年CR4为22.0%,行业集中度显著提升 企业竞争要素与未来发展策略 [99][100][101][102][103][104][105][106][107][108][109] - 自动化平台、深刻的行业理解、对技术与数据的前瞻性布局是关键要素 - 标准数据集的优势有助于企业实现规模效应和获得更高利润 典型企业案例分析 海天瑞声 [110][111][112][113][114][115][116][117][118][119][120][121][122][123][124][125][126] - 深耕行业近20年,向全行业提供多语言、跨领域、跨模态的人工智能数据及相关数据服务 - 2023年营收有较大下滑,主要受境外客户阶段性裁员、业务调整和预算释放放缓影响 数据堂 [127][128][129][130][131] - 凭借高质量数据服务,已帮助全球上千家企业提升AI模型性能 - 近几年收入大幅增长