2308-jailbreak

dawn_r1sing Lv3

jailbreak prompts

LLM的误用:生成假消息、宣扬阴谋论、大规模鱼叉式网络钓鱼攻击、助长仇恨活动

bypass safeguard, elicit harmful content

法律法规

框架

JAIL-BREAKHUB

  • 数据收集:
    • Reddit、Discord、websites、open-source datasets
    • 帖子/server 标签 → 根据标签人工筛选prompt → 标准化的prompt格式 → 人工验证,获得jailbreak prompts,剩下remaining prompts
  • prompt 分析:每一个prompt的各类信息、community(graph-based、共同短语、发展模式)
  • 输出评价:forbidden question set、6 LLMs
    • 有效性
    • 有效期
    • 3 external safeguards
  • 考虑数据的生命期,人工抽样检测防止用户误报

chatgpt

  • reinforcement learning from human feedback (RLHF) 更符合人类的价值观和使用意图

  • safeguards检测输入输出(分类)

    • 脆弱:jailbreak prompts
    • 旨在绕过、引诱生成有害输出
    • 相关社群、攻击越来越频繁

​ 问题:缺乏系统的理解,包括它们的分发平台、背后的参与者、prompt的特征及其演变模式

主要发现

  1. jailbreak prompt制作简单,流行且众包、出现专门收集prompt网站
  2. 利用多种技巧的结合,长度更长
  3. LLMs能抵抗forbidden question,但不能抵抗jailbreak prompts
  4. 存在有效的未公开safeguards,但不能抵抗 改写攻击
  5. external safeguards功能很有限

jailbreak prompt

  • prompt聚集网站的威胁

    大多数是业余爱好者(share only once),也存在持续关注者

    绝大多数prompt是针对ChatGPT,能不能在其他LLMs上适用?

  • 长度:越来越长,随着更新而变长,jailbreak是regular的*1.5

  • 在语意与regular区分?:经过sentence transformer提取prompt embedding,降维技术UMAP,WizMap解释语义

    • 语义十分接近
    • 基于语义区分jailbreak和regular很难
  • 分类

    • 基于图的社群检测

      图中仅保留更有意义的关系,形成一个个jailbreak prompts社群

      • 计算了1405个jailbreak prompts两两配对的Levenshtein distance(衡量字符串差异程度)
      • 得到1405*1405相似矩阵(每个位置填写相似度分数
      • 将其视为一个加权邻接矩阵,超过阈值处连边(强关系)
      • 绝大多数社群规模较小、传播窄、生命周期短,这可能和prompt的效果有关
    • 焦点社群

      • 挑了11个大社群,命名

      • 社群内挑选与其他prompt近似度最高的为代表

      • 通过共有词率可视化

      • e.g., Basic community技巧=将GPT转换为DAN,且DAN不需要遵循规则;其他社群利用prompt injection,提权,欺骗,强制回答,因此prompt更长

        新出现的具有规模性的jailbreak prompt只出现在一个来源,证实了“平台迁移”

    • 社群演变

      • 一开始出现在R、D,后来转移至其他平台

        归因于平台迁移、专门收集prompt网站的出现,用户将prompt与LLM打包在网站上提供服务

      • 从Discord起源的prompt要经过更长的时间传播到其他平台 → 对手有意要求不要传播以避免被检测

评估及时有效性

实验设置

  1. 禁止问题集:每个情景生成30个不能回答的问题

  2. prompt:

    • 每个社群选5个prompts,一个prompt对应一个问题问5次 = 107250个样本
    • 迄今为止最大问题集,更小偏差,更精确
  3. target model:

    • 6个,独特的架构、规模、训练方法

    • 为保证结果的可重复性,使用model endpoint(某一日期的快照)

    • 相似规模,同一最大生成长度

  4. 评价指标:

    • ASR攻击成功率
    • ASR-B不使用jailbreak prompt,直接问问题的攻击成功率
    • ASR-Max
    • 生成内容的毒性评分,≥0.5视作有毒回答

结果

ASR-B:对一些情景有初始的抵抗效果,有的较差

  • 内置的安全措施有效(RLHF
  • 对RLHF训练模型生成的数据进行微调能达到一定的抵抗效果(LLM helps LLM :p
  • e.g., Dolly的抵抗能力最差

ASR-Max:现有LLM在所有场景中都无法有效抵抗最有效的jailbreak prompt

  • 针对GPT3.5的jailbreak prompt同样适用于其他LLM
  • 即使ASR-B很低,ASR仍可以很高——脆弱性
  • 场景Political Lobbying的ASR-B高于ASR,原因是jailbreak prompt的设计不当(Exception,GPT反而拒绝回答了

社群:

  • LLM的抵抗可以被多种jailbreak prompt轻松破解

prompt长度:

  • 与ASR微弱的正相关

生成内容的毒性:

  • 归因于社群的特性

其余的社群:平均ASR较低,也存在ASR很高的社群

  • 能力稍弱

  • less popular ≠ not effective,只是发现成本较高

jailbreak/安全机制的效果(over time

3个官方版本

ASR-B变化不大,ASR、ASR-Max变化显著

1106的ASR显著下降,包括最有效的prompt

小社群中的趋势相同,但仍存在较高ASR的prompt

  • 说明采取了某些未公开的安全措施
  • 识别、消除所有jailbreak prompts是很困难的
  • 需要 JAIL-BREAKHUB 识别少见但有效的prompt

改写攻击

探究新的安全措施是否可以抵御改写攻击

方法

  1. round-trip translation:英译中译英
  2. 基于LLM:*2
  3. 对抗攻击:引入拼写错误

结果

(攻击前的ASR,攻击后的ASR,超过攻击前ASR的平均改写次数)

  • 脆弱的

  • 对抗攻击进行改写的效果最好

  • 改写尝试少于10次即可攻破防御,最有效的prompt甚至更少

评估安全机制有效性

external safeguards

  • OpenAI moderation endpoint
    • 检查生成内容,依赖多标签分类器(禁止话题)
  • OpenChatKit moderation model
    • 少量样本分类(谨慎程度)
  • NeMo-Guardrails
    • 可编程防护栏
    • 对应防护栏进行检查

结果

  • OpenAI moderation endpoint最有效,尤其在ASR-Max上

  • 均未起到防御效果(隐形回答

    原因可能是基于分类的设计,受限于训练数据

其他

其他攻击

  • prompt injection
  • backdoor
  • data extraction
  • obfuscation
  • membership inference
  • adversarial attacks

成果

  • 框架

  • safe training(RLHF → 效果有限

    查询前检测 → 改写攻击

    external safeguards → 没有哪一个措施能抵御攻击

  • 结合使用

未来工作

  • 数据更新
  • jailbreak prompt的自动生成
  • 有效且适应性强的防御
  • Title: 2308-jailbreak
  • Author: dawn_r1sing
  • Created at : 2025-09-05 11:08:18
  • Updated at : 2025-09-05 11:08:56
  • Link: https://dawnrisingdong.github.io/2025/09/05/2308-jailbreak/
  • License: This work is licensed under CC BY-NC-SA 4.0.