公司概况 - 公司主营业务包括智能语音、自然语言处理、计算机视觉等人工智能核心技术[10,11] - 公司持续加大在算法、算力、训练数据等方面的投入,不断提升技术实力[10,11] - 公司积极拓展海外市场,在美国、欧洲等地区取得良好进展[2] - 公司完成了对数安易公司的投资,进一步增强了数据安全方面的技术实力[2] - 公司未来将持续加大在新兴技术领域的研发投入,推动业务创新和市场拓展[6] - 公司将进一步优化产品结构,提升产品的性能和可靠性,满足客户多样化需求[2] - 公司将持续完善公司治理,提升管理水平,为股东创造更大价值[3,5] 财务数据 - 公司2022年1-6月营业收入为9,242.64万元,同比增长24.13%[23] - 公司2022年1-6月归属于上市公司股东的净利润为41.64万元,上年同期为-1,724.14万元[23] - 公司2022年1-6月经营活动产生的现金流量净额为1,567.69万元,上年同期为-2,387.38万元[23] - 公司2022年6月30日归属于上市公司股东的净资产为75,337.91万元,较上年度末减少3.70%[23] - 公司2022年6月30日总资产为78,778.98万元,较上年度末减少4.45%[23] 行业发展趋势 - 全球人工智能(AI)IT 总投资规模预计从2022年的1,324.9亿美元增至2027年的5,124.2亿美元,年复合增长率为31.1%[33] - 中国人工智能产业规模预计从2023年的2,137亿元增长至2028年的8,110亿元,年复合增长率为32.9%[34] - 训练数据作为AI发展和演进的"燃料"作用更加凸显,2021年全球AI训练数据市场需求约为42亿美元,预计到2027年将增长到220亿美元,年复合增长率达32%[35][36][37][38] - 在数字经济发展和大模型技术的双重驱动下,人工智能行业将进入新一轮产业高速发展期[33] - 数据将在未来发挥更重要的作用,成为大模型竞争的重要决定性要素[35] - 中国人工智能基础数据服务市场规模将从2023年的45亿元增长到2028年的170亿元,年复合增长率为30.4%[56,57,58] 公司技术实力 - 公司持续在智能语音、计算机视觉、自然语言等基础算法研究方面取得进展,新增数十个基础模型[111] - 完成多个现有模型的优化升级,如3D点云目标检测算法准确率提升10%以上、3D点云跟踪算法准确率提升20%以上[111] - 探索语音大模型所需要的无监督训练数据自动清洗技术、视觉大模型所需要的图文对数据标注技术[111] - 实现了千万级大规模点云语义分割的技术突破与落地,完成了多项4D标注相关平台能力升级[111] - 重构了包括副语言标注、打点标注、音素边界标注等在内的多项标注流程,实现了高精度实时语音流线上化处理与可视化渲染[111] - 建设了高性能多源、多维度实时大数据分析系统,优化了数据同步技术与实时采集质控技术的自动检测与错误报告机制[111] 公司资质与荣誉 - 数据堂获得国家高新技术企业、国家及北京市专精特新"小巨人"企业等多项资质荣誉[95] - 标贝科技获得国家高新技术企业、北京市专精特新"小巨人"企业等资质荣誉[95] - 海天瑞声获得国家高新技术企业、国家专精特新"小巨人"企业等多项资质荣誉[95] - 公司被认定为国家级专精特新"小巨人"企业[112,113] 公司产品与服务 - 公司主要从事 AI 训练数据的研发设计、生产及销售业务[98] - 公司提供的训练数据涵盖智能语音、计算机视觉、自然语言等多个核心领域[98] - 公司客户累计数量超过 1,000 家,覆盖了科技互联网、社交、IoT、智能驾驶、智慧金融等领域[98] - 公司提供定制服务、标准化产品和训练数据相关的应用服务三类盈利模式[103] - 公司训练数据生产过程包括设计、采集、加工和质检四个环节[104] - 公司基于自身训练数据提供算法模型相关的训练服务[104] - 公司生产的训练数据广泛应用于个人助手、智能家居、智能驾驶等多种应用场景[102] - 公司成品训练数据集主要由数据文档、说明文档、技术文档三部分构成[100] - 公司提供的训练数据助力 AI 技术实现实践应用及商业化落地[102] 公司研发实力 - 公司拥有同行业具有竞争力的综合研发实力,研发团队规模为65人,覆盖平台工具开发、算法研究、产品设计等多条主线[129] - 公司核心研发人员均曾服务于全球顶尖科技企业或毕业于名校,组成了公司坚实的研发领导核心力量[129] - 公司积累了较为完备的综合性、一体化数据处理平台及工具体系,覆盖智能语音、计算机视觉、自然语言等全业态领域[129] - 公司设置了专门的产品研发部门及AI+研发部门,可前瞻性挖掘和布局新兴市场需求[129] - 公司具备较强的数据生产工程化能力,可助力公司大幅缩短数据研发及生产周期[129] - 公司自有知识产权的训练数据产品储备超过1,650个,全面覆盖