2308-jailbreak

jailbreak prompts
LLM的误用:生成假消息、宣扬阴谋论、大规模鱼叉式网络钓鱼攻击、助长仇恨活动
bypass safeguard, elicit harmful content
法律法规
框架
JAIL-BREAKHUB
- 数据收集:
- Reddit、Discord、websites、open-source datasets
- 帖子/server 标签 → 根据标签人工筛选prompt → 标准化的prompt格式 → 人工验证,获得jailbreak prompts,剩下remaining prompts
- prompt 分析:每一个prompt的各类信息、community(graph-based、共同短语、发展模式)
- 输出评价:forbidden question set、6 LLMs
- 有效性
- 有效期
- 3 external safeguards
- 考虑数据的生命期,人工抽样检测防止用户误报
chatgpt
reinforcement learning from human feedback (RLHF) 更符合人类的价值观和使用意图
safeguards检测输入输出(分类)
- 脆弱:jailbreak prompts
- 旨在绕过、引诱生成有害输出
- 相关社群、攻击越来越频繁
问题:缺乏系统的理解,包括它们的分发平台、背后的参与者、prompt的特征及其演变模式
主要发现
- jailbreak prompt制作简单,流行且众包、出现专门收集prompt网站
- 利用多种技巧的结合,长度更长
- LLMs能抵抗forbidden question,但不能抵抗jailbreak prompts
- 存在有效的未公开safeguards,但不能抵抗 改写攻击
- external safeguards功能很有限
jailbreak prompt
prompt聚集网站的威胁
大多数是业余爱好者(share only once),也存在持续关注者
绝大多数prompt是针对ChatGPT,能不能在其他LLMs上适用?
长度:越来越长,随着更新而变长,jailbreak是regular的*1.5
在语意与regular区分?:经过sentence transformer提取prompt embedding,降维技术UMAP,WizMap解释语义
- 语义十分接近
- 基于语义区分jailbreak和regular很难
分类
基于图的社群检测
图中仅保留更有意义的关系,形成一个个jailbreak prompts社群
- 计算了1405个jailbreak prompts两两配对的Levenshtein distance(衡量字符串差异程度)
- 得到1405*1405相似矩阵(每个位置填写相似度分数
- 将其视为一个加权邻接矩阵,超过阈值处连边(强关系)
- 绝大多数社群规模较小、传播窄、生命周期短,这可能和prompt的效果有关
焦点社群
挑了11个大社群,命名
社群内挑选与其他prompt近似度最高的为代表
通过共有词率可视化
e.g., Basic community技巧=将GPT转换为DAN,且DAN不需要遵循规则;其他社群利用prompt injection,提权,欺骗,强制回答,因此prompt更长
新出现的具有规模性的jailbreak prompt只出现在一个来源,证实了“平台迁移”
社群演变
一开始出现在R、D,后来转移至其他平台
归因于平台迁移、专门收集prompt网站的出现,用户将prompt与LLM打包在网站上提供服务
从Discord起源的prompt要经过更长的时间传播到其他平台 → 对手有意要求不要传播以避免被检测
评估及时有效性
实验设置
禁止问题集:每个情景生成30个不能回答的问题
prompt:
- 每个社群选5个prompts,一个prompt对应一个问题问5次 = 107250个样本
- 迄今为止最大问题集,更小偏差,更精确
target model:
6个,独特的架构、规模、训练方法
为保证结果的可重复性,使用model endpoint(某一日期的快照)
相似规模,同一最大生成长度
评价指标:
- ASR攻击成功率
- ASR-B不使用jailbreak prompt,直接问问题的攻击成功率
- ASR-Max
- 生成内容的毒性评分,≥0.5视作有毒回答
结果
ASR-B:对一些情景有初始的抵抗效果,有的较差
- 内置的安全措施有效(RLHF
- 对RLHF训练模型生成的数据进行微调能达到一定的抵抗效果(LLM helps LLM :p
- e.g., Dolly的抵抗能力最差
ASR-Max:现有LLM在所有场景中都无法有效抵抗最有效的jailbreak prompt
- 针对GPT3.5的jailbreak prompt同样适用于其他LLM
- 即使ASR-B很低,ASR仍可以很高——脆弱性
- 场景Political Lobbying的ASR-B高于ASR,原因是jailbreak prompt的设计不当(Exception,GPT反而拒绝回答了
社群:
- LLM的抵抗可以被多种jailbreak prompt轻松破解
prompt长度:
- 与ASR微弱的正相关
生成内容的毒性:
- 归因于社群的特性
其余的社群:平均ASR较低,也存在ASR很高的社群
能力稍弱
less popular ≠ not effective,只是发现成本较高
jailbreak/安全机制的效果(over time
3个官方版本
ASR-B变化不大,ASR、ASR-Max变化显著
1106的ASR显著下降,包括最有效的prompt
小社群中的趋势相同,但仍存在较高ASR的prompt
- 说明采取了某些未公开的安全措施
- 识别、消除所有jailbreak prompts是很困难的
- 需要 JAIL-BREAKHUB 识别少见但有效的prompt
改写攻击
探究新的安全措施是否可以抵御改写攻击
方法
- round-trip translation:英译中译英
- 基于LLM:*2
- 对抗攻击:引入拼写错误
结果
(攻击前的ASR,攻击后的ASR,超过攻击前ASR的平均改写次数)
脆弱的
对抗攻击进行改写的效果最好
改写尝试少于10次即可攻破防御,最有效的prompt甚至更少
评估安全机制有效性
external safeguards
- OpenAI moderation endpoint
- 检查生成内容,依赖多标签分类器(禁止话题)
- OpenChatKit moderation model
- 少量样本分类(谨慎程度)
- NeMo-Guardrails
- 可编程防护栏
- 对应防护栏进行检查
结果
OpenAI moderation endpoint最有效,尤其在ASR-Max上
均未起到防御效果(隐形回答
原因可能是基于分类的设计,受限于训练数据
其他
其他攻击
- prompt injection
- backdoor
- data extraction
- obfuscation
- membership inference
- adversarial attacks
成果
框架
safe training(RLHF → 效果有限
查询前检测 → 改写攻击
external safeguards → 没有哪一个措施能抵御攻击
结合使用
未来工作
- 数据更新
- jailbreak prompt的自动生成
- 有效且适应性强的防御
- Title: 2308-jailbreak
- Author: dawn_r1sing
- Created at : 2025-09-05 11:08:18
- Updated at : 2025-09-05 11:08:56
- Link: https://dawnrisingdong.github.io/2025/09/05/2308-jailbreak/
- License: This work is licensed under CC BY-NC-SA 4.0.