Reinforcement Fine-Tuning—12 Days of OpenAI Day 2

强化微调功能介绍 - OpenAI即将推出强化微调（Reinforcement Fine-Tuning, RFT）功能，允许用户在自己的数据集上微调O1模型，从高级高中水平提升到专家博士水平[1] - 强化微调将首次使开发者、研究人员和机器学习工程师能够使用强化学习创建在其特定领域内表现卓越的专家模型[1] - 强化微调适用于需要深度专业知识的领域，如法律、金融、工程和保险[2] - 强化微调与监督微调不同，它不仅教模型模仿输入，还教模型在自定义领域中以全新的方式进行推理[2] - 强化微调通过强化学习算法，强化导致正确答案的思维路径，并抑制导致错误答案的思维路径[2] 应用领域 - 强化微调在科学研究领域有广泛应用，如使用计算方法理解罕见疾病的遗传原因[3] - 强化微调技术在生物化学、AI安全、法律和医疗等多个领域显示出有前景的结果[13] - 公司展示了强化微调在科学研究中的应用，特别是在疾病理解和医疗流程改进方面[13] 技术实现 - 强化微调允许用户使用自己的数据集和评估器，利用OpenAI的强化学习算法和分布式模型训练堆栈，为特定用例定制前沿模型[9] - 强化微调过程包括上传训练数据集、验证数据集和评估器，设置超参数，然后启动训练作业[5][7] - 强化微调的结果可以通过验证奖励分数来评估，显示模型在验证数据集上的平均得分变化[9][10] 性能提升 - 强化微调后的模型在特定任务上的表现超过了基础模型，如在给定症状列表时预测可能的致病基因[4][11][12] 未来计划 - 公司计划扩展Alpha计划，以允许更多用户在对其最重要的任务上推动O1模型的能力边界[13] - 公司正在通过强化微调研究计划扩展Alpha访问，该计划适合正在处理复杂任务并可能受益于AI协助的组织[13] - 公司计划在明年年初公开发布强化微调产品[14] - 公司鼓励感兴趣的组织申请有限的名额，申请链接可在直播描述中找到[14]