深度｜ICLR 2024最佳论文合辑：AI基准测试，推理，和Agent

文章核心观点 - 本文介绍了来自ICLR 2024的一些长篇采访、论文和演讲,内容包括OpenDevin等编码agent、基准测试科学、推理与训练后阶段,以及agent系统 [1] - 公司和行业正在向更实用、智能和自主的语言模型迈进,但目前最先进的模型仍存在逻辑错误和局限性 [2][3][4] 关于基准测试 - SWE-bench是一个评估框架,用于测试语言模型在解决软件工程问题方面的能力,结果显示目前最好的模型只能解决1.96%的问题 [6][7] - 研究人员提出了一种简单有效的方法,可以检测测试集是否存在污染,即使对于参数量较小的模型和小测试集也适用 [8][9] - GAIA是一个用于通用AI助手的基准,提出了一组基本能力测试,人类表现92%,而配备插件的GPT-4仅为15% [10][11] - 基准测试是机器学习社区的基石,但对其科学基础的了解还很少,需要进一步研究 [13] 关于推理和训练后阶段 - 提出了一种新的框架Self-RAG,通过检索和自我反思提高语言模型的质量和真实性,在多个任务中表现优于ChatGPT和Llama2-chat [15][16][17] - 研究发现过程监督在训练模型解决复杂问题方面明显优于结果监督,并发布了包含80万个步骤级人类反馈标签的PRM800K数据集 [18][19] 关于agent系统 - 现有agent在真实网站上的表现受到开放域性、有限上下文长度和缺乏HTML归纳偏差等因素的影响 [27] - 公司提出了WebAgent,通过将指令分解为标准子指令进行规划、总结长HTML文档并生成Python程序在网站上执行操作,显著提高了成功率 [28][29][30] - 公司还提出了MetaGPT,一个创新的元编程框架,将标准操作程序编码到提示序列中,简化工作流程并减少错误 [30]