多样任务真实数据,大模型在线购物基准Shopping MMLU开源|NeurIPS&KDD Cup 2024
量子位·2024-11-20 11:58
港科大博士金逸伦 投稿 量子位 | 公众号 QbitAI 谁是 在线购物领域 最强大模型?也有评测基准了。 基于真实在线购物数据,电商巨头亚马逊终于"亮剑"—— 联合香港科技大学、圣母大学构建了一个大规模、多任务评测基准 Shopping MMLU ,用以评估大语言模型在在线购物领域的能力与潜力。 一直以来,想要完整建模在线购物相当复杂,主要痛点是: 多任务性: 在线购物中存在多样的实体(例如商品、属性、评论、查询关键词等)、关系(例如关键字和商品的匹配度,商品和商品之 间的兼容性、互补性)和用户行为(浏览、查询、和购买)。 对这些实体、关系和行为和联合建模与理解构成一个复杂的 多任务(multi-task)学习问题 。 少样本性: 在线购物平台会不断面临新用户、新商品、新商品品类等带来的冷启动(cold-start)场景。在冷启动场景下,在线购物平台 需要解决少样本(few-shot)学习问题。 不过,诸如GPT,T5,LLaMA等的大语言模型(LLM)已经展现出了强大的多任务和少样本学习能力,因而有潜力在在线购物领域中得到广 泛应用。 而为了进一步找出最强、最具潜力的LLM,测试基准Shopping MM ...