文章核心观点 - CMU团队提出一种创新的“黑盒优化”策略,通过大语言模型自动调整自然语言提示词,使视觉语言模型在下游任务中获得更好表现,该研究已被CVPR 2024接收[1]。 CMU团队“黑盒优化”策略的背景 - 视觉语言模型参数数十亿且权重不公开,传统白盒优化方法难以实施,而模型开放自然语言接口使通过优化提示词提升表现成为可能,但传统提示词工程依赖工程师经验和先验知识[1][2]。 “黑盒优化”策略的实现过程 - 用ChatGPT等大语言模型自动优化提示词,将正负反馈交给ChatGPT调整提示词,过程类似“爬山法”,大语言模型可自动分析提示词表现找最优改进方向[2]。 - 提示词初始化、排序、生成新提示词、多轮迭代后返回得分最高提示词作为优化结果[4][5]。 “黑盒优化”策略的效果 - 在多个小样本视觉识别数据集上取得最佳准确性,超越传统白盒提示词优化方法,如在不同数据集上与多种方法对比准确性占优[6]。 - 无需了解数据集内容就自动捕捉下游任务视觉特性融入提示词提升效果,如食物识别任务[7]。 - 黑盒优化得到的提示词适用于不同模型架构且表现优于白盒优化得到的提示词[9]。 - 在文生图任务中ChatGPT能自动优化提示词生成符合需求的高质量图像[11]。 - 在提示反演任务中,仅三轮提示词优化就能显著提高用户满意度,还可帮助用户定制特定图像效果[16][17]。 团队成员情况 - 一作刘士弘是卡内基梅隆大学研究生毕业生,现于北美Amazon工作[25]。 - 共同一作林之秋是卡内基梅隆大学博士研究生,在多顶级会议发表论文并获奖[25]。 - Deva Ramanan教授是计算机视觉领域知名学者,现任卡内基梅隆大学教授,获多项学术荣誉,研究成果影响多应用领域[25]。 相关资源 - CVPR'24论文链接https://arxiv.org/abs/2309.05950等,项目网站https://llm - can - optimize - vlm.github.io,论文代码,投稿联系方式等[26]。