人大&港科大揭示大模型重要安全风险漏洞:利用概念激活向量破解大模型的安全对齐|NeurIPS 2024
量子位·2024-11-16 13:11

人大&港科大团队 投稿 量子位 | 公众号 QbitAI 利用概念激活向量破解大模型的安全对齐,揭示LLM重要安全风险漏洞。 来自人大&港科大的研究人员提出 安全概念激活向量(SCAV)框架 ,通过精确解读大模型的安全机制来指导攻击。 基于SCAV的攻击方法能够生成嵌入级和提示级的攻击,自动调整扰动参数,并显著提升了攻击成功率和响应质量。 在对七个开源大模型的评估中,基于关键词匹配标准的平均攻击成功率(ASR)为99.14%。同时,研究表明,基于SCAV生成的攻击提示具 有跨模型迁移的潜力,可在GPT-4等黑盒API上取得成功。 提出SCAV框架 使用SCAV框架诱导攻击,首先需要训练SCAV分类器。 通过对恶意和安全指令嵌入的降维分析,研究者发现这两类指令在低维空间中呈现明显的分隔。因此,通过在模型的嵌入空间中定义一个"安 全"与"恶意"的概念分离面,就能够识别出模型在不同输入上对"安全性"的反应。SCAV分类器的目标是在嵌入空间中建立一种简单的线性模 型,将恶意指令和安全指令进行分离,以便在后续攻击中利用这一特性。 △ 图1:SCAV分类器的训练流程 SCAV框架可以诱导两种攻击层次——嵌入层(embed ...