一、纪要涉及的公司 海天卫生,一家专注做人工智能训练数据的公司,2005年成立,是训练数据领域里唯一一家A股的上市公司[4]。 二、纪要提到的核心观点和论据 (一)公司业务发展情况 1. 客户覆盖广泛 - 数据服务已提供给全球超过1000家科技互联网公司、LT厂商等,像微软、谷歌、亚马逊、国内BAT字节等国内外头部科技公司都是其重要客户[4]。 - 业务线覆盖语音、视觉和文本等全类AI的数据需求,可服务智能手机、驾驶、医疗、教育、金融等绝大多数AI应用场景[4]。 2. 业务增长数据 - 今年前三季度收入同比增长了45%,订单数量增长超过50%[4]。 3. 业务增长的核心驱动因素 - 大模型带来的数据需求增加 - 从2014年开始,大模型一方面拓展基础能力,如减少幻觉、提升与用户交互体验,衍生出post training和强化学习阶段新的数据需求[5]。 - 大模型今年开始向更多场景和终端加速渗透和落地,带来更多终端场景下的数据需求,如今年年初开始收到全球几个头部LT厂商数千万量级订单,需求包括构建终端交互能力的语音数据和提升agent理解能力的文本数据等[5]。 - AI参与者类型丰富和增加 - 这几年以运营商为代表的央国企开始加入AI布局,一方面是国家政策指导,另一方面央国企在发展行业和产业模型上有资源优势(算力和传统行业数据资源)[6]。 - 海天内部组建专门的BU拓展运营商为代表的央国体客户,目前已拿到几千万量级订单,预计明年转化为收入[6]。 (二)行业发展趋势及对公司数据业务的影响 1. 数据行业进入快速增长周期的支撑点 - 基础模型能力迭代 - 虽然AI应用爆发,但基础模型迭代需求仍大体量,占据模型公司很大研发投入比重,模型存在幻觉、视觉空间能力、语音交互、逻辑推理能力等问题需要迭代提升,这需要大量数据持续训练,海天在这方面投入较多精力,有专门产品研发部建设适用于不同训练阶段和场景的标准化数据助力模型基础能力提升[7]。 - 模型向更多行业和场景拓展 - 模型向更多行业和场景拓展带来很多数据需求,如海天接到娱乐类音乐游戏标注需求、教育领域全科CT标注需求、金融法律医疗行业数据需求也在快速增加,海天自身也在和模型公司及产业进行合作,如和智普、友谊安征宣武等医院合作探索医疗大模型建设[8]。 - AI参与者不断丰富 - 除传统科技巨头、央国企外,未来随着AI在端测应用能力增强,终端(如VR眼镜、巨神智能等)会产生大量数据需求,且随着应用拓展,可能会有更多软件厂商加入AI转型[8]。 2. 模型迭代对公司数据服务的影响 - 不管模型如何迭代,走向应用会解锁更多场景,数据需求脱不开运行链和推理阶段需要越来越多垂直领域数据(如海天与智普合作挖掘医疗领域高质量数据),以及交互能力方向(如语音对话需求增加)的数据[16][17]。 (三)公司商业模式相关 1. 盈利模式 - 定制化服务与标准化产品收入比例 - 业务结构中定制化服务收入和标准化产品(license)收入大概各占一半[31]。 - 定价方式 - 语音方向按每小时语音收费,不同语种定价不同,如中文比西班牙语便宜,海天更愿意承接外语种业务,积累了全球范围内超过两百个语种方言[31][32]。 - 视觉方向以一张图片或一段视频长度收费,单帧标注颗粒度、承载内容多少影响收费,如自动驾驶方向复杂场景单帧可能卖到好几块甚至十几块,内容少信息量少的可能几毛钱[33]。 - 文本方向以一行或每十行收费,定价还受承接项目难度影响[33]。 - 平台授权相关 - 目前几乎没有把平台或平台授权作为盈利点,过往几年只有一两个项目以卖平台或平台授权方式给到自动驾驶类客户,原因是对数据安全合规性要求高[19][20]。 - 在海外提升定制化服务业务占比是内部重点想做的事之一,以今年前三季度数据为例,海外收入占全球收入一半,其中70%是标准化产品,30%是定制化服务,与Skill公司相比还有很大提升空间[36]。 - 在国内,与央国企和地方政府合作项目中,把数据能力物化到平台揉到项目合作中的可能性更大[39]。 2. 竞争优势(壁垒) - 智能化标注能力 - 大模型范式下数据量需求提升,难度提升,要持续提升自动化标注能力,海天在研发投入上相比国内有竞争力,全公司全职员工两百三十多人,研发侧人员增长节奏符合需求增长但慢于数据需求本身增长[48]。 - 人机协作的数据处理模式 - 人机协作或人机偶合的数据处理模式在未来较长时间是主流逻辑,Skill AI也认同,在大模型技术三段论中,人的因素越来越重,需要各方向数据专家参与项目,且资源体系要全球化,因为客户是全球化的[49]。 - 语言能力 - 人机交互中语音交互重要性提升,应用端向更多语种和方言拓展时数据需求不停且量在增加[50]。 - 合规性 - 中国和美国数据监管节奏快,客户将数据合规任务落在海天身上,一些厂商已把合规要求提到招投标环节且一票否决,海天今年已接到国外一两个硬件厂商、国内一个硬件厂商和一家短视频头部公司在给大单子时先考察合规情况的业务[51][52]。 三、其他重要但是可能被忽略的内容 1. 公司对不同行业数据需求的观察 - 从数据需求来看,硬件终端厂商(主要是手机行业头部品牌)、汽车行业(新能源车厂大模型上车智能驾舱语音交互带来数据需求)、央国企(以运营商为主)数据需求较多,医疗、金融、法律行业相对零散但也有数据需求[45]。 - 从海天数据业务看,比较有前景的AI应用是用户群体基数大、原先内容数字化程度高、AI带来便利性和使用门槛低的行业,如办公、陪伴、娱乐,还有数据需求量和质量要求越来越高的教育和视频生成行业[46]。 2. 公司海外业务发展相关 - 海外业务在公司战略层面排在第一位,战略方向包括全球化、大模型、数据要素[53]。 - 中国AI市场规模占全球的五分之一或六分之一,有更大量需求在海外,且从去年三四季度到今年,摸到更多海外潜在需求,包括很多传统国外企业的数据需求[53]。 - 公司销售团队以前国内国外加起来不到五人,现在小二十人,海外销售团队人数涨了百分之四十多且不断增加,以前在海外客户心中是一家中国公司形象,现在要往承接更多定制化服务大单方向转,需要在交付方面投入更多力量[54]。 - 目前还不好对明年海外业务进行定量展望,定性来说今年增速不错,明年维持增速是大概率事件[55]。