通信：“合成数据+强化学习”：大模型进化的新范式

增持（维持）证券研究报告 | 行业深度 gszqdatemark 2024 09 19 年月日通信 "合成数据+强化学习"：大模型进化的新范式当地时间 9 月 12 日，OpenAI 发布新模型系列 o1（代号"草莓"），该模型的特点主要是在给出推理结果前，花更多时间"思考"，产生较长内部思维链，在解决科学、数学、代码等类问题的表现更好。o1-preview 每百万 token 输入 15 美元，每百万输出 token60 美元，o1-mini 相对便宜，每百万 token 输入 3 美元，每百万 token 输出 12 美元。目前 ChatGPT Plus 和 Team 用户可以在模型选取器中手动选择，o1-preview 每周限制 30 条消息，o1-mini 每周限制 50 条消息。 o1 亮点一：或为 OpenAI 新模型"Orin"生成合成数据。据 The Information，o1 或为 OpenAI 新模型"Orin"生成合成数据。无独有偶，我们注意到，OpenAI 创始团队出走创办的 Anthropic——OpenAI 的有力竞争对手，2024 年 6 月发布了大模型 ...