中金 | AI十年展望(二十):细数2024大模型底层变化,推理优化、工程为王
中金点睛·2024-09-12 07:33

文章核心观点 - 2024年大模型技术快速演进,参数收敛、云端和端侧模型参数量分化,模型迭代动力更多源于大模型应用落地和端侧部署的需求 [1][3] - 推理性能优化和工程化改进成为模型性能提升和成本降低的重要抓手 [1][3] 路径探索 - 斯坦福研究团队提出自学推理者语言模型Quiet-STaR,利用强化学习优化"显式中间推理",提升推理性能并兼顾泛化能力 [5][6][7][9] - Quiet-STaR在数学推理和常识推理任务中的零样本准确率显著提高,处理复杂文本时对困难标记的困惑度有所改善 [9] 路径突破 - 从Google Gemini到OpenAI GPT-4o,海外主流模型从基于语言模型的跨模态向端到端多模态切换,实现与人类相近的自然语言交互能力 [12][13] - 国内原生端到端多模态路径以商汤、Minimax为代表,智谱、科大讯飞也推出对标GPT-4o的应用 [13] 算法创新 - DeepSeek以MLA多头潜在注意力和DeepSeekMoE算法创新,实现推理成本大幅下降,定价仅为GPT-4-Turbo的约1%水平 [14][15] - DeepSeek-V2.5融合增强通用与代码能力,优化对齐人类偏好,在多种测试集上表现优于先前版本 [16] 推理优化 - Apple Intelligence系统采用端云结合架构,结合软硬件优化实现跨App调度,支持端侧离线运行 [18][19] - Apple的AFM模型通过量化和适配器结构平衡性能和轻便化,LLM-in-a-flash让闪存也能流畅运行大模型 [19][20] - Apple和Meta合作的LazyLLM动态剪枝,在尽量保持模型精度的前提下大幅提升预填充速度 [20] 工程改进 - Mooncake通过构建预填充池实现KV-Cache复用,Splitwise采用序列化传输降低KV-Cache传输时延,提升集群运行效率 [20][21] - 合成数据是后训练阶段实现性能突破的关键,主流厂商采用强化学习+自对弈的方式进行合成数据探索 [21][22][23][24] 风险 - 重复使用合成数据训练模型可能导致模型崩溃,合成数据涉及隐私领域存在泄露风险 [25] - AI技术迭代和商业化落地节奏不及预期 [25]