Nature封面：AI训AI，越训越傻

文章核心观点 - 使用合成数据训练大型语言模型可能会导致模型崩溃,即模型生成的内容会污染下一代的训练数据集,导致新一代模型误解现实[4][5] - 模型崩溃主要由三种误差导致:统计近似误差、函数表达性误差和函数近似误差[7][8][9] - 模型崩溃会对语言模型产生严重影响,使其生成的内容越来越偏离原始训练数据[10][13][14] 根据目录分别总结模型崩溃的定义和过程 - 模型崩溃是一个退化过程,模型生成的内容会污染下一代的训练数据集,导致新一代模型误解现实[5] - 早期模型崩溃中,模型开始丢失一些尾部信息,而在晚期模型崩溃,模型将收敛到同原始分布几乎没有任何相似之处[6] 导致模型崩溃的三种误差 - 统计近似误差:由于样本数量有限而产生,并随着样本数量趋于无穷大而消失[7] - 函数表达性误差:由于函数近似表达能力有限而产生,神经网络只有在其规模达到无穷大时才是通用近似值[8] - 函数近似误差:主要由学习过程局限性引起,例如随机梯度下降的结构偏差或目标的选择[9] 模型崩溃对语言模型的影响 - 研究人员评估了模型崩溃对Meta的OPT-125m语言模型的影响,发现随着时间推移,模型产生的错误会增加,最终导致模型完全崩溃[10][13][14] - 在没有原始训练数据的情况下,模型生成的内容越来越同质化,偏离现实[13][14]