星海系列：人形机器人与AI大模型之Robot+AI的Transformer之旅

报告行业投资评级 - 推荐维持评级 [2] 报告的核心观点 - 阐述Transformer到多模态大模型的演进与应用包括Stable Diffusion等模型推动多模态大模型发展Transformer在多模态任务中广泛应用 [2] - 介绍机器人现实世界至数据化的突破如RT - 2、RoboCat与MimicGen各自的功能和特点展示机器人在不同技术下的能力提升 [2] - 讲述特斯拉FSD端到端算法成为主流数据为关键以及FSD V12的全新自动驾驶特点和发展历程 [2][49] - 说明英伟达Robocasa是具体智能关键节点首次论证real - sim - real通过实验展示其在机器人学习方面的成果和意义 [2][77] - 对后续演绎进行探讨包括李飞飞Rekep、1x世界模型、GR - 2、数字表亲等在机器人智能化进程中的作用 [2] - 给出投资建议关注算法训练中传感器公司机器人本体公司和其他产业链可延伸公司 [2] 根据相关目录分别进行总结 1. Transformer模型的演进 - Transformer网络架构2017年被提出为解决翻译问题其依赖注意力机制可处理序列数据在翻译任务表现佳训练耗时短对不同规模数据集表现良好 [14] - Transformer的意义在于长距离依赖关系处理和并行计算自注意力机制能捕捉长距离依赖关系且允许并行计算提高模型计算效率 [16] - 语言、图片、视频大模型以大语言模型为基础结合视觉模型形成多模态大模型MLLM其更符合人类感知世界方式是更全面任务解决者 [17] - 多模态大模型存在异质化数据处理与整合困难和训练过程挑战重重的难点 [20] - 语言模型的scaling law表明随着数据规模提升模型表现会提升其存在可使多模态模型更可预测和可计算 [21] 2. 机器人现实世界至数据化的突破 2.1谷歌RT - 2 - RT - 2在RT - 1基础上展示更强泛化能力和对语义视觉理解其目标是训练端到端模型从大规模预训练模型学习泛化知识采用视觉 - 语言 - 动作模型与联合微调方法 [27][28] - RT - 2通过具体步骤将任务指令和图像信息结合转化为机器人动作序列并在执行任务中进行联合微调被部署后可在复杂环境执行多任务 [30][31] - RT - 2展示视觉 - 语言模型可转变为视觉 - 语言 - 动作模型提高机器人策略完成率有更好泛化和涌现能力但存在局限性如未提高执行新动作能力实时推断可能成瓶颈 [32][33] 2.2英伟达MimicGen - MimicGen是用于大规模机器人学习的数据生成系统可从少量人类演示数据自动生成大规模多样化演示数据集解决人工数据收集成本高耗时大问题 [34] - MimicGen核心方法是数据分割与重组将人类演示数据分割重组生成新数据可加速机器人学习在复杂场景表现出更强泛化能力 [35][36] - 使用MimicGen生成数据集与传统数据集对比机器人在主要测试任务成功率大幅提升如Square任务成功率从11.3%提升至90.7% [37] - MimicGen在机器人系统应用潜力大可减少人工干预提升生产效率但存在局限性如依赖任务开始时已知信息应用场景限于准静态任务等 [40][41] 2.3谷歌RoboCat - RoboCat是多任务、多具身通才智能体在Gato模型基础上改进使用跨实体、跨任务具身模仿学习框架能快速进行策略泛化展示在新任务和不同平台的泛化能力 [45] - RoboCat以丰富多样化操控行为数据集为基础进行训练基于Gato架构使用预训练的VQ - GAN编码器可自我微调和迭代提高跨任务性能 [46] - 未来机器人研究着眼于更灵活多模态任务规划将数据集与注释语言结合实现精准任务定位并探索不同条件反射和基线研究提升能力 [48] 3. 特斯拉FSD 3.1 FSD V12 - FSD V12是全新端到端自动驾驶模型架构发生重大变化完全采用神经网络进行车辆控制减少车机系统对代码依赖更接近人类司机决策过程 [49] - 根据特斯拉报告开启Autopilot事故率大幅减少且FSD发展经历多个阶段从外部合作到自研不断发展引领智能驾驶技术发展 [50] 3.2 FSD的前世今生 - FSD历史上重大架构变革是2020年引入Transformer模型使算法从重人工、规则驱动转向重AI、数据驱动在感知和规划模块都有应用 [54] - 特斯拉FSD感知模块形成BEV+Transformer+Occupancy神经网络架构规划模块由不同规划模块构成且有HydraNets深度学习网络架构特点是多任务集成 [54][55] - Dojo是特斯拉高性能计算系统用于处理和训练自动驾驶数据具有高带宽、低延时特点使Autopilot更强大 [56] - FSD V12实现感知决策一体化将三大模块合为一个神经网络简化信息传递减少延迟和误差被称为Baby AGI旨在感知理解现实世界复杂性 [58][59] 4. 端到端算法成为研究主流数据集成为关键 - 端到端算法通过单一神经网络连接数据输入与控制指令输出相比传统模块化自动驾驶有架构简单、减少中间数据降维成本等优势但数据量小时性能上升缓慢 [61] - 端到端算法实现自动驾驶有强化学习和模仿学习两种方法强化学习效率较低模仿学习需要大量实际驾驶场景数据 [61] - 端到端算法相比传统技术架构有更容易解决corner case、拟人化自动驾驶、全局最优成本低且泛用性强等优势 [62][65][66] - 自动驾驶端到端算法迁移至人形机器人有数据驱动的技术范式、算法架构通用性、拟人化行为实现等优势 [67][68][69] - 机器人端到端算法存在真实数据收集与标注、合成数据的生成和使用、模型的可解释性等关键问题 [70][71][73] - 特斯拉grok模型使用思维链语言可分解复杂场景进行推理并解释决策有助于解决自动驾驶边缘情况使决策更透明可信 [74] 5. 英伟达Robocasa - Robocasa是用于训练通用机器人的大型模拟框架专注厨房环境其数据集有多样化资产、跨化身支持、多样化任务、大规模训练数据集等特点 [77][78] - Robocasa模拟框架包含模拟平台、厨房场景、资产库、任务集、数据集五个方面内容且相比其他模拟框架有多种进步之处 [79][82] - 通过实验探讨机器生成轨迹有效性、训练数据集规模与泛化性能关系、大规模模拟数据集对知识转移的作用等问题结果表明合成数据在模拟环境学习机器人策略有效 [83][87][89] - 实验也显示复合任务微调性能低未来可研究更强大策略架构和学习算法且目前模拟限于厨房环境未来可拓展 [89]