Kimi创始人杨植麟:Scaling laws依然有效 强化学习是重点
财联社·2024-11-17 13:38

关于月之暗面公司产品相关 - 月之暗面Kimi Chat上线一周年之际发布新一代数学推理模型k0 - math模型及包含该强化模型的Kimi探索版 未来几周将分批上线Kimi网页版和Kimi智能助手APP [1] - 除数学推理模型外 公司还有几个多模态能力在内测中 [2] 关于月之暗面公司业务策略相关 - 公司主动做业务减法 没有人才流失 目的是聚焦核心业务 如聚焦Kimi 这一决策是基于对美国市场的判断和自身观察做出的 创业团队人数应保持较少 卡和人的比例应保持最高 避免把自己变成大厂 [3][4][8] - 公司计划在教育领域进行探索 并与Kimi搜索场景结合 将强化学习技术用于搜索场景与Kimi探索版相结合以提升模型在搜索中的推理能力 [8] 关于月之暗面公司用户相关 - 公司Kimi每月活跃用户规模达3600万 目前最核心任务是提升用户留存 对用户留存提升没有上限限制 [4][9] 关于行业发展相关 - 预训练大模型还有迭代空间 预计还有半代到一代的模型空间会在明年释放 明年业内领先的模型会把预训练做到比较极致的阶段 重点会在强化学习上 [4][8] - 大模型的Scaling laws即规模法则是当前AI圈不少人信奉的定律 随着模型规模、训练数据和计算资源增加模型性能会提升 但Scaling不是把模型做得更大就好 而是要找到有效方法来Scale如更好的数据和方法 公司接下来会关注基于强化学习的方法来Scale [4] - 大模型的思考能力比交互能力更重要 数学场景适合让AI锻炼思考能力 目前大模型数学能力与文字应用能力相比存在较大差距 但模型能力提升很快 如对高考题准确率从去年的百分之二三十提升到如今的90% 持续做强化学习的Scaling可让模型在更多场景完成长链路思考和复杂推理并泛化到更多任务 [6][7] - "百模大战"经历一年多后 业界焦点从卷模型转向卷应用 有消息称一些大模型企业放弃预训练模型 业务重心转向AI应用 [4]