2408-Text-to-Image Model

Text-To-Image Model
SD 一种基于扩散的文本到图片模型,LDM实现
sexually explicit, violent, disturbing, hateful, and political.
问题
- 进行了一些安全技术努力后,最终效果不清楚
- 尽管update减少了unsafe图片的产生,但刻板印象问题增强
- fake image detectors对新SD生成的fake image不起作用
生成安全pic、偏见、真假辨识
演变过程
- NSFW filter → 但效果不清楚
- 缺少纵向的探索
提出问题
随着更新,SD是否更难生成unsafe image?
通过计算生成图片中NSFW的占比,发现占比确实在下降
解决:数据集NSFW filter、增加art-related的safe images, safe latent diffusion
随着更新,偏见是否逐渐减少?是否出现新的偏见?
偏见加剧并转移(shift towards),例如职业性别等,SD-XL的固有偏见会比SD-1.5更大
可能原因:引入的新的又偏见的数据集
负面刻板印象主要与non-white race相关
all version
不能反映人口数据随着时间的变化
解决:反刻板印象修饰符(偏差缓解技术)、多样化培训数据集、
随着更新,过去的fake image detector准确度如何?
下降,hybrid detector准确率也下降
解决:fine-tune detector,使用updated SD生成的images微调model,可实现跨版本识别
Q1:
过去:只讨论了某一个版本、评估不恰当(只是用一种数据集)
sexually explicit, violent, disturbing, hateful, and political
评估框架:针对每一个问题的dataset + 对生成图片进行定性定量分析
数据集
以往先进工作中构建的dataset、从image-text对中选择NSFW对应的text(200*2)
每个version每个prompt生成10个image
指标
10 images → SD safety checker → NSFW label,NSFW image(x/10)占比作为unsafe score
SD safety checker(客观的)
- 是二选一(根据人类判断的NSFW占比比较,选择更接近的)
- image输入到CLIP的图像编码器获得向量,预定义的NSFW的向量,比较二者余弦相似度
定量分析
下降,取决于不同version的训练集过滤水平
定性分析
找新版本生成图比旧版本更安全 对应的prompts(sexually explicit category),同一个(类)prompt对比不同版本的生成
explicit sex-related keywords
implicit sex-related keywords
- 前两个version都fail,原因可能是在latent space中艺术关键词和艺术风格没有建立起联系(和nudity建立了表面的联系,无法区分二者)
implicit sex-related keywords with countermeasures
- 前两个version都fail,说明model无法区分art-related keywords与nude female,即使使用countermeasures
对于SD-XL,有时images与prompts分离
对于explicit,output与input不是很匹配
对于implicit,基本匹配
合理推断SD-XL过滤了strong explicit sex-related keywords,并且在训练集中增加了很多art-related的safe images
结果
训练集直接影响the safety of output
- filter
- 增加art-related images,让model正确理解art style
other four categories maintain similar levels of unsafety across all versions
- 关注少
Q2:
早期版本会延续并放大训练集bias
数据集
prompts with no identity language、with explicit identity language
指标
定量分析:gender、race与occupation等之间的分布
主体(2、6)群体、MAD(生成 and 理想无偏差)
余弦相似度:定量分析 中性prompts 与 特定nationality的prompts 生成结果的相似度
标签
过去直接通过肤色进行标签,nono
方案:机器+人工、多数投票
多个机器进行分类(classifier),若出现分歧,则引入人工(annotator),然后采取多数投票方式;
若仍无法确定,则去除
- gender2:FairFace、MiVOLO
- race6:FairFace、DeepFace
结果
没有反映现实世界人口数据的变化,放大刻板印象,以中立的幌子掩盖特定视角
无特征语言:
版本update:bias持续存在、甚至加强(特征、收入、职业的gender、race,物体non-human entities带有“北美风”,African与不利的固有印象)
随着version的更新,bias会发生转移
不好的偏见 link no-white,shift towards Asian → 原因:SD-XL训练集中有对Asian固有偏见的数据
our evaluation framework can be applied to analyze other minoritygroups, potentially uncovering unknown bias shifting in future updates.
occupation bias甚至随着version增加
未来应该:
- 多样化数据集
- bias消除技术
有特征语言:
bias存在于人、物、背景,all version
有意识地使用反偏见提示词(定性分析
由于SD-XL拥有强大的生成能力,能够纠正一部分有关bias的错误关联
但不够
未来
- 多样化数据集
- 实施bias消除技术
Q3
针对特定版本的fake检测
detector
2 dataset(Flickr30K、MSCOCO => prompt+image + caption) * 2 detector
CIO
- 输入:image
- ResNet-18
- train dataset:10000 real-0 + 10000 fake-1 from SD-1.5
- test data:1000 real-0 + 1000 fake-1 from all version
CHO
- 输入:(prompt, image)
- CLIP图文联合模型(ViT-B as encoder)+ MLP二元分类
- 数据集取法同上
场景一
detector:对应SD-1.5
探究detector对新版本生成的images是否还有效
场景二
- detector:使用后续版本的images进行fine-tune
- fine-tune data:500 real images + 500新版本的fake images ,注意别和SD-1.5训练集重复
- 消融研究表明,500足够
- evaluate
- 测评fine-tune的效果
结果
场景一(原始detector):
CIO对后续version的性能降低,CHO较平稳
- CHO有更强的鲁棒性
- 体现了将prompt加入到检测中的优势
定量检测:detector性能和image的质量有相关性
detector升级的必要性
场景二(update detector):
- 对新旧版本的检测能力都较高
- CIU对旧版本的准确度反而下降(归因于image质量的提高)
- CHU好于CIU
总结:
针对旧版本的detector对于新版本不适用,尤其是CIO
解决方法可以通过fine-tune CHO,对于新旧版本都有较好的检测性能;fine-tune的CIO对于旧版本性能欠佳
以上结论对于其他text-to-image model同样适用
未来
及时更新detector
使用更加先进的检测技术(CHO)
相关工作
unsafe image generation
multi-headed classifier、SLD技术
针对低版本、效果很有限,未来仍需努力
model bias
- 与训练集中的bias有关
- edit input assumption
- incorporate fairness guidance
- employ discriminative prompts guided by reference images
fake image detection
- 二元问题
- 将人工指纹嵌入训练数据中
limit
- 某些方面在其他model上表现不一致,但总是具有启发性的
- 数据集只能看到SD-1.5,局限性
总结
- 具有普适性的评价框架
- 对于text-to-image更新迭代的见解
- 强调了safety、fairness、authority的重要性
- Title: 2408-Text-to-Image Model
- Author: dawn_r1sing
- Created at : 2025-09-05 11:40:27
- Updated at : 2025-09-05 11:40:49
- Link: https://dawnrisingdong.github.io/2025/09/05/2408-Text-to-Image-Model/
- License: This work is licensed under CC BY-NC-SA 4.0.