Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式
量子位·2024-11-05 12:39

文章核心观点 - 上海AI Lab团队复刻了OpenAI的o1项目,并开源了LLaMA版本的o1项目,命名为LLaMA-O1 [1][3][4] - LLaMA-O1项目使用了蒙特卡洛树搜索、Self-Play强化学习、PPO等技术,在数学奥赛问题上表现优于除o1-preview和o1-mini之外的其他商业闭源方案 [1][2] - 团队在2024年6月o1发布之前就开始探索蒙特卡洛树搜索提高大模型数学能力,并积累了一些关注 [1] - 团队还开发了OpenLongCoT-Pretrain数据集,包含10万+条长思维链数据,用于预训练模型 [5][6][7] - 在强化学习训练过程中,团队使用了LoRA进行参数高效微调、PPO算法作为策略优化方法、GAE算法计算优势函数、优先经验回放提高训练效率等关键技术 [13] 数据集和预训练模型 - 团队开源了OpenLongCoT-Pretrain数据集,包含10万+条长思维链数据 [5][6][7] - 目前推荐使用LLaMaFactory代替预训练代码,因为LLaMA-O1项目的预训练模型基于谷歌Gemma 2 [9] - 在预训练模型基础上,可以继续进行强化学习训练,训练过程包括自我对弈生成经验、将经验存储在优先经验回放缓冲区、从缓冲区采样批次数据进行训练、更新模型参数和经验优先级等 [10] 算法创新 - LLaMA-O1项目使用了蒙特卡洛树搜索、Self-Play强化学习、PPO等技术,在数学奥赛问题上表现优于除o1-preview和o1-mini之外的其他商业闭源方案 [1][2] - 团队提出了Self-Refine算法,结合MCTS提高了搜索效率和问题解决能力,特别在复杂的奥赛级别基准测试中表现出色 [2] - 团队还提出了Pairwise Preference Reward Model (PPRM),利用增强博尔达计数方法对解决方案进行全局排序,解决了数学推理任务中评分变化和非独立分布的挑战 [2] 其他项目进展 - 除LLaMA-O1之外,另一个公开进展的o1复刻项目是O1-Journey,来自上交大团队 [14] - O1-Journey团队提出了创新的Journey Learning范式,成功将搜索和学习整合到数学推理中 [14] - O1-Journey团队由上交大本科生和博士生组成,指导教师包括上交大副教授刘鹏飞,姚班校友、斯隆奖得主李远志等 [15]