计算机行业：o1进展追踪与评测：Reasoning能力究竟有多强？

报告行业投资评级 - 报告未给出具体的行业投资评级报告的核心观点模型版本和性能 - OpenAI发布了o1-preview和o1-mini两个版本的模型,其中o1-preview推理能力更强,o1-mini速度更快 [5][6] - 在多个基准测试中,o1模型的表现明显优于GPT-4o [6] - o1模型采用强化学习+CoT的训练方式,大幅提升了推理能力,但也增加了对推理算力的需求 [7][12] 模型定价和使用限制 - o1模型的定价高于GPT-4o,输入和输出的定价分别为 $15/1M tokens和$ 60/1M tokens [8] - OpenAI对o1模型的使用次数有较大限制,Plus和Team用户每周最多使用30/50条消息 [7] 模型训练数据 - o1模型在公开数据、专有数据和内部定制数据集上进行了预训练,以增强其推理和会话能力 [9] 人类偏好评测 - 在数学、编程和数据分析等推理能力较强的任务中,o1-preview的受欢迎程度远高于GPT-4o,但在某些自然语言任务上表现不如GPT-4o [10][11] 模型性能随训练和测试时间增加而提升 - 与Scaling Law不同,o1模型的性能随着强化学习训练时间和测试时间的增加而持续提升 [12] 根据相关目录分别进行总结模型版本和性能 [5][6][7][12] - OpenAI发布了o1-preview和o1-mini两个版本,o1-preview推理能力更强,o1-mini速度更快 - o1模型在多个基准测试中表现优于GPT-4o - o1模型采用强化学习+CoT的训练方式,大幅提升了推理能力,但也增加了对推理算力的需求模型定价和使用限制 [7][8] - o1模型的定价高于GPT-4o,输入和输出的定价分别为 $15/1M tokens和$ 60/1M tokens - OpenAI对o1模型的使用次数有较大限制,Plus和Team用户每周最多使用30/50条消息模型训练数据 [9] - o1模型在公开数据、专有数据和内部定制数据集上进行了预训练,以增强其推理和会话能力人类偏好评测 [10][11] - 在数学、编程和数据分析等推理能力较强的任务中,o1-preview的受欢迎程度远高于GPT-4o,但在某些自然语言任务上表现不如GPT-4o 模型性能随训练和测试时间增加而提升 [12] - o1模型的性能随着强化学习训练时间和测试时间的增加而持续提升,与Scaling Law不同