公司上半年业绩增长的主要驱动因素 - 受益于多模态大模型的发展、《促进和规范数据跨境流动规定》出台带来的政策环境改善以及公司在境外营销体系的持续投入,公司境外业务收入同比增长50.00%,拉动公司整体营业收入快速增长[4][5] - 标准化数据集产品收入占比大幅提升,公司整体数据交付能力提升,使训练数据定制服务的毛利率同比显著增长,共同驱动公司整体毛利率增加至70.34%[4] - 研发投入强度呈现自然回落,销售费用和管理费用有效降低,共同驱动公司上半年净利润大幅增长,实现扭亏为盈[4][5] 公司全球化业务增长的原因 - 大模型技术快速发展以及应用领域不断拓展,科技巨头加大多模态数据投入,全球数据服务市场持续增长[5] - 公司凭借多年来在语言研究以及自然语言方面的技术积累、以及全球领先的标准化数据集储备,进一步赢得了境外客户信赖[5] - 《促进和规范数据跨境流动规定》等法规出台,为数据出境提供了更为高效简明的路径[5] 公司在大模型业务上的布局和进展 - 持续建设包括"大语言模型中文对话预训练数据集"、"语音大模型(声音复刻、歌曲)微调数据集"等在内的多领域大模型数据集[6][7] - 针对大模型在特定行业的应用需求,重点开发了医疗、金融、法律、艺术等垂直领域的标注资源,形成垂直领域专家库[6] - 与清华大学联合启动多语种语音大模型研发计划,有效提升多语种语音数据处理的效率和准确性[7] 公司在智能驾驶领域的最新进展 - 加大对高级别数据标注工具的研发力度,开发了3D动静分离标注工具、BEV多图层4D车道线标注工具等,有效支撑了自动驾驶算法演进对数据标注工具的需求[7][8] - 开发了2D-3D融合的动静分离检测追踪算法,在点云连续帧融合产线实现提效30%以上,迭代优化点云分割算法和地面检测算法,在点云分割产线实现提效20%以上[7][8] - 在全球范围内扩展了道路采集业务,为公司构建智能驾驶全球化数据服务能力奠定了基础[8] 强化学习阶段数据服务的发展趋势 - 由单模态向多模态转变,逐渐向更多垂类拓展,标注评价/评分指标变得更为丰富[9] - 大模型向多模态发展将推动数据服务行业进入更大的增量空间,高质量多模态训练数据集的持续学习训练的重要性将更加凸显[9][10]