"Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models 学习笔记

LLM的误用：生成假消息、宣扬阴谋论、大规模鱼叉式网络钓鱼攻击、助长仇恨活动
bypass safeguard, elicit harmful content

框架

JAIL-BREAKHUB

数据收集：
- Reddit、Discord、websites、open-source datasets
- 帖子/server 标签 → 根据标签人工筛选prompt → 标准化的prompt格式 → 人工验证，获得jailbreak prompts，剩下remaining prompts
prompt 分析：每一个prompt的各类信息、community（graph-based、共同短语、发展模式）
输出评价：forbidden question set、6 LLMs
- 有效性
- 有效期
- 3 external safeguards
考虑数据的生命期，人工抽样检测防止用户误报

chatgpt

reinforcement learning from human feedback (RLHF) 更符合人类的价值观和使用意图
safeguards检测输入输出（分类）
- 脆弱：jailbreak prompts
- 旨在绕过、引诱生成有害输出
- 相关社群、攻击越来越频繁

问题：缺乏系统的理解，包括它们的分发平台、背后的参与者、prompt的特征及其演变模式

主要发现

jailbreak prompt制作简单，流行且众包、出现专门收集prompt网站
利用多种技巧的结合，长度更长
LLMs能抵抗forbidden question，但不能抵抗jailbreak prompts
存在有效的未公开safeguards，但不能抵抗改写攻击
external safeguards功能很有限

jailbreak prompt

prompt聚集网站的威胁

大多数是业余爱好者（share only once），也存在持续关注者

绝大多数prompt是针对ChatGPT，能不能在其他LLMs上适用？
长度：越来越长，随着更新而变长，jailbreak是regular的*1.5
在语意与regular区分？：经过sentence transformer提取prompt embedding，降维技术UMAP，WizMap解释语义
- 语义十分接近
- 基于语义区分jailbreak和regular很难
分类
- 基于图的社群检测
  
  图中仅保留更有意义的关系，形成一个个jailbreak prompts社群
  - 计算了1405个jailbreak prompts两两配对的Levenshtein distance（衡量字符串差异程度）
  - 得到1405*1405相似矩阵（每个位置填写相似度分数
  - 将其视为一个加权邻接矩阵，超过阈值处连边（强关系）
  - 绝大多数社群规模较小、传播窄、生命周期短，这可能和prompt的效果有关
- 焦点社群
  - 挑了11个大社群，命名
  - 社群内挑选与其他prompt近似度最高的为代表
  - 通过共有词率可视化
  - e.g., Basic community技巧=将GPT转换为DAN，且DAN不需要遵循规则；其他社群利用prompt injection，提权，欺骗，强制回答，因此prompt更长
    
    新出现的具有规模性的jailbreak prompt只出现在一个来源，证实了“平台迁移”
- 社群演变
  - 一开始出现在R、D，后来转移至其他平台
    
    归因于平台迁移、专门收集prompt网站的出现，用户将prompt与LLM打包在网站上提供服务
  - 从Discord起源的prompt要经过更长的时间传播到其他平台 → 对手有意要求不要传播以避免被检测

评估及时有效性

实验设置

禁止问题集：每个情景生成30个不能回答的问题
prompt：
- 每个社群选5个prompts，一个prompt对应一个问题问5次 = 107250个样本
- 迄今为止最大问题集，更小偏差，更精确
target model：
- 6个，独特的架构、规模、训练方法
- 为保证结果的可重复性，使用model endpoint（某一日期的快照）
- 相似规模，同一最大生成长度
评价指标：
- ASR攻击成功率
- ASR-B不使用jailbreak prompt，直接问问题的攻击成功率
- ASR-Max
- 生成内容的毒性评分，≥0.5视作有毒回答

结果

ASR-B：对一些情景有初始的抵抗效果，有的较差

内置的安全措施有效（RLHF
对RLHF训练模型生成的数据进行微调能达到一定的抵抗效果（LLM helps LLM :p
e.g., Dolly的抵抗能力最差

ASR-Max：现有LLM在所有场景中都无法有效抵抗最有效的jailbreak prompt

针对GPT3.5的jailbreak prompt同样适用于其他LLM
即使ASR-B很低，ASR仍可以很高——脆弱性
场景Political Lobbying的ASR-B高于ASR，原因是jailbreak prompt的设计不当（Exception，GPT反而拒绝回答了

社群：

LLM的抵抗可以被多种jailbreak prompt轻松破解

prompt长度：

与ASR微弱的正相关

生成内容的毒性：

归因于社群的特性

其余的社群：平均ASR较低，也存在ASR很高的社群

能力稍弱
less popular ≠ not effective，只是发现成本较高

jailbreak/安全机制的效果（over time

3个官方版本

ASR-B变化不大，ASR、ASR-Max变化显著

1106的ASR显著下降，包括最有效的prompt

小社群中的趋势相同，但仍存在较高ASR的prompt

说明采取了某些未公开的安全措施
识别、消除所有jailbreak prompts是很困难的
需要 JAIL-BREAKHUB 识别少见但有效的prompt

改写攻击

探究新的安全措施是否可以抵御改写攻击

方法

round-trip translation：英译中译英
基于LLM：*2
对抗攻击：引入拼写错误

结果

（攻击前的ASR，攻击后的ASR，超过攻击前ASR的平均改写次数）

脆弱的
对抗攻击进行改写的效果最好
改写尝试少于10次即可攻破防御，最有效的prompt甚至更少

评估安全机制有效性

external safeguards

OpenAI moderation endpoint
- 检查生成内容，依赖多标签分类器（禁止话题）
OpenChatKit moderation model
- 少量样本分类（谨慎程度）
NeMo-Guardrails
- 可编程防护栏
- 对应防护栏进行检查

结果

OpenAI moderation endpoint最有效，尤其在ASR-Max上
均未起到防御效果（隐形回答

原因可能是基于分类的设计，受限于训练数据

其他

其他攻击

prompt injection
backdoor
data extraction
obfuscation
membership inference
adversarial attacks

成果

框架
safe training（RLHF → 效果有限

查询前检测 → 改写攻击

external safeguards → 没有哪一个措施能抵御攻击
结合使用

未来工作

数据更新
jailbreak prompt的自动生成
有效且适应性强的防御