2408-Text-to-Image Model

dawn_r1sing Lv3

Text-To-Image Model

SD 一种基于扩散的文本到图片模型,LDM实现

sexually explicit, violent, disturbing, hateful, and political.

问题

  1. 进行了一些安全技术努力后,最终效果不清楚
  2. 尽管update减少了unsafe图片的产生,但刻板印象问题增强
  3. fake image detectors对新SD生成的fake image不起作用

生成安全pic、偏见、真假辨识

演变过程

  1. NSFW filter → 但效果不清楚
  2. 缺少纵向的探索

提出问题

  1. 随着更新,SD是否更难生成unsafe image?

    通过计算生成图片中NSFW的占比,发现占比确实在下降

    解决:数据集NSFW filter、增加art-related的safe images, safe latent diffusion

  2. 随着更新,偏见是否逐渐减少?是否出现新的偏见?

    偏见加剧并转移(shift towards),例如职业性别等,SD-XL的固有偏见会比SD-1.5更大

    可能原因:引入的新的又偏见的数据集

    负面刻板印象主要与non-white race相关

    all version

    不能反映人口数据随着时间的变化

    解决:反刻板印象修饰符(偏差缓解技术)、多样化培训数据集、

  3. 随着更新,过去的fake image detector准确度如何?

    下降,hybrid detector准确率也下降

    解决:fine-tune detector,使用updated SD生成的images微调model,可实现跨版本识别

Q1:

过去:只讨论了某一个版本、评估不恰当(只是用一种数据集)

sexually explicit, violent, disturbing, hateful, and political

评估框架:针对每一个问题的dataset + 对生成图片进行定性定量分析

数据集

以往先进工作中构建的dataset、从image-text对中选择NSFW对应的text(200*2)

每个version每个prompt生成10个image

指标

10 images → SD safety checker → NSFW label,NSFW image(x/10)占比作为unsafe score

SD safety checker(客观的)

  • 是二选一(根据人类判断的NSFW占比比较,选择更接近的)
  • image输入到CLIP的图像编码器获得向量,预定义的NSFW的向量,比较二者余弦相似度

定量分析

下降,取决于不同version的训练集过滤水平

定性分析

找新版本生成图比旧版本更安全 对应的prompts(sexually explicit category),同一个(类)prompt对比不同版本的生成

  • explicit sex-related keywords

  • implicit sex-related keywords

    • 前两个version都fail,原因可能是在latent space中艺术关键词和艺术风格没有建立起联系(和nudity建立了表面的联系,无法区分二者)
  • implicit sex-related keywords with countermeasures

    • 前两个version都fail,说明model无法区分art-related keywords与nude female,即使使用countermeasures
  • 对于SD-XL,有时images与prompts分离

    • 对于explicit,output与input不是很匹配

    • 对于implicit,基本匹配

    • 合理推断SD-XL过滤了strong explicit sex-related keywords,并且在训练集中增加了很多art-related的safe images

结果

  • 训练集直接影响the safety of output

    • filter
    • 增加art-related images,让model正确理解art style
  • other four categories maintain similar levels of unsafety across all versions

    • 关注少

Q2:

早期版本会延续并放大训练集bias

数据集

prompts with no identity language、with explicit identity language

指标

  1. 定量分析:gender、race与occupation等之间的分布

    主体(2、6)群体、MAD(生成 and 理想无偏差)

  2. 余弦相似度:定量分析 中性prompts特定nationality的prompts 生成结果的相似度

标签

过去直接通过肤色进行标签,nono

方案:机器+人工、多数投票

多个机器进行分类(classifier),若出现分歧,则引入人工(annotator),然后采取多数投票方式;

若仍无法确定,则去除

  • gender2:FairFace、MiVOLO
  • race6:FairFace、DeepFace

结果

没有反映现实世界人口数据的变化,放大刻板印象,以中立的幌子掩盖特定视角

无特征语言:

版本update:bias持续存在、甚至加强(特征、收入、职业的gender、race,物体non-human entities带有“北美风”,African与不利的固有印象)

  • 随着version的更新,bias会发生转移

    不好的偏见 link no-white,shift towards Asian → 原因:SD-XL训练集中有对Asian固有偏见的数据

  • our evaluation framework can be applied to analyze other minoritygroups, potentially uncovering unknown bias shifting in future updates.

  • occupation bias甚至随着version增加

未来应该:

  • 多样化数据集
  • bias消除技术
有特征语言:

bias存在于人、物、背景,all version

  • 有意识地使用反偏见提示词(定性分析

    由于SD-XL拥有强大的生成能力,能够纠正一部分有关bias的错误关联

    但不够

未来

  • 多样化数据集
  • 实施bias消除技术

Q3

针对特定版本的fake检测

detector

2 dataset(Flickr30K、MSCOCO => prompt+image + caption) * 2 detector

  1. CIO

    • 输入:image
    • ResNet-18
    • train dataset:10000 real-0 + 10000 fake-1 from SD-1.5
    • test data:1000 real-0 + 1000 fake-1 from all version
  2. CHO

    • 输入:(prompt, image)
    • CLIP图文联合模型(ViT-B as encoder)+ MLP二元分类
    • 数据集取法同上

场景一

  • detector:对应SD-1.5

  • 探究detector对新版本生成的images是否还有效

场景二

  • detector:使用后续版本的images进行fine-tune
    • fine-tune data:500 real images + 500新版本的fake images ,注意别和SD-1.5训练集重复
    • 消融研究表明,500足够
  • evaluate
  • 测评fine-tune的效果

结果

场景一(原始detector):

  • CIO对后续version的性能降低,CHO较平稳

    • CHO有更强的鲁棒性
    • 体现了将prompt加入到检测中的优势
  • 定量检测:detector性能和image的质量有相关性

    detector升级的必要性

场景二(update detector):

  • 对新旧版本的检测能力都较高
  • CIU对旧版本的准确度反而下降(归因于image质量的提高)
  • CHU好于CIU

总结:

针对旧版本的detector对于新版本不适用,尤其是CIO

解决方法可以通过fine-tune CHO,对于新旧版本都有较好的检测性能;fine-tune的CIO对于旧版本性能欠佳

以上结论对于其他text-to-image model同样适用

未来

及时更新detector

使用更加先进的检测技术(CHO)

相关工作

unsafe image generation

  • multi-headed classifier、SLD技术

  • 针对低版本、效果很有限,未来仍需努力

model bias

  • 与训练集中的bias有关
    • edit input assumption
    • incorporate fairness guidance
    • employ discriminative prompts guided by reference images

fake image detection

  • 二元问题
  • 将人工指纹嵌入训练数据中

limit

  1. 某些方面在其他model上表现不一致,但总是具有启发性的
  2. 数据集只能看到SD-1.5,局限性

总结

  1. 具有普适性的评价框架
  2. 对于text-to-image更新迭代的见解
  3. 强调了safety、fairness、authority的重要性
  • Title: 2408-Text-to-Image Model
  • Author: dawn_r1sing
  • Created at : 2025-09-05 11:40:27
  • Updated at : 2025-09-05 11:40:49
  • Link: https://dawnrisingdong.github.io/2025/09/05/2408-Text-to-Image-Model/
  • License: This work is licensed under CC BY-NC-SA 4.0.