Are We in the AI-Generated Text World Already? Quantifying and Monitoring AIGT on Social Media 学习笔记

2412.18148v3

目的

量化并监控在线社交媒体平台上的AIGT，覆盖一系列LLM

虚假信息传播
舆论控制

从时间维度出发，纵向分析AIGT在内容驱动型社交媒体上的占比

数据集

评估数据：SM-D
3个社交平台上收集的2022.1-2024.10的文字数据（文章、Q&A中的answer，response）
- 过滤：太短的、英文占比少的、带有明显 AI生成异常特征的（重复、不相关词句等），保证后续的文本特征分析更加准确
detector：OSM-Det
AIGTBench：AIGT+HWT
- AIGT：公开的AIGT、SFT数据集，使用不同LLM生成具有平台特征的内容
  - Medium：writing task
    - 1.润色文章
    - 2.基于xxx生成文章
  - Quora and Reddit：Q&A、user interaction tasks
    - 1.润色文章
    - 2.直接问问题Q
- HWT：3个媒体平台在2018.1-2021.12期间的内容，提高detector在媒体内容上的泛化能力，从而捕捉到社交媒体内容的语言风格（消融研究）
分割数据集：训练集7：验证集1：测试集2

detector

基于metric

base model：GPT-2 medium

步骤：

使用base model提取统计特征
基于统计特征，训练逻辑回归模型

基于model

使用AIGTBench测试了pre-trained detector与微调后的detector

OpenAI Detector、ChatGPT Detector：选择RoBERTa-base版本直接使用
ConDA、LM-D：fine-tune
GPTZero：直接使用
CheckGPT：使用AIGTBench复现

评价标准

accuracy
F1-score
ARR：detector预测为AIGT的文本占比
FPR：HWT错误预测为AIGT的占比
NTF：反映用词偏好=当前文章t的出现次数/(当前文章总词数*所有文章t的出现次数) → 惩罚常用词

测试

基于metric：poor

难以有效捕捉细微的文本特征
基于model
- openAI、ChatGPT：very poor，可能是因为它们是在早期模型GPT-2的输出上进行fine-tune，无法检测更先进的AIGT
- 最终选取LM-D（在AIGTBench上fine-tune） → OSM-Det
  - 按平台分AIGTBench，比较结果
  - 对于短文本的预测准确率低于长文本，因此将SM-D中的较短文本排除（<150）

评价

普遍性

不同生成参数：temperature, top-p, and top-k

使用GPT4o and GPT4o-mini，改变生成参数，refine 5000 HWT，进行测试 → 不同生成参数refine得到的text的预测都很准
新model的生成文本：detector没见过这些model的生成文本，不在AIGTBench中

使用这些model 润色 5000 HWT
test in the wild：从huggingface随机选取数据集，没见过的model、没见过的领域，都不在AIGTBench中

分数依旧很高

SM-D评估

看图

Medium、Quora：ARR整体呈现增加（release
Reddit：rely less on AI

分析

语言特征分析（detector的可解释性）

积分梯度：依赖于model，计算梯度为每个输入值赋予重要性分数（仅word
沙普利值：独立于model，扰动输入值，观察预测中的贡献度（≈控制变量法）

word level

无法简单地根据某个词判断class，因为会有重叠

这种重叠说明了 word importance 与上下文高度相关
转向静态统计高频率形容词、连词、副词

使用SpaCy库标记词性，从adj、conj、adv中找出AIGT、HWT的top词，即为AI-preferred vocabulary、Human-preferred vocabulary
- 统计SM-D中AI-preferred vocabulary、Human-preferred vocabulary的NTF，反映这些词的使用状况
  - Medium、Quora：AI↑ Human↓（release时间点
    
    说明这两个平台AI的使用在增加
  - Reddit：AI一直很低，Human一直很高
  - 波动趋势和ARR基本一致

sentence level

很有区分度：

AIGT：句子风格客观，结构标准。名词代词开头，主谓宾
human：灵活的句子结构，非正式表达

其他维度分析

topic

Medium
9个topic
按照时间维度，所有topic的ARR都在增长，其中“科技、软件发展”最高

engagement

likes，comments

AI：Human = 1：1 选取16600 blogs
Mann-Whitney U 检验发现两种blogs的engagement相差很大
- AI的engagement更低，低engagement的blogs 频率更大
- 不同粉丝体量的作者，都呈现 AI作品的engagement更低的现象

author

探究粉丝数与AI使用的关系
随机寻找1000名作者

followers少AAR高，followers多ARR低
在model 发布后，第一次使用AI生成内容的作者数显著增长，后逐渐稳定

限制

覆盖LLM有限
数据集存在分布偏差
语言：detector的公平性
仅对Medium分析了其他维度，数据难收集

人机协作检测

被引用

TH-Bench: Evaluating Evading Attacks via Humanizing AI Text on Machine-Generated Text Detectors
- 评估evading attacks against MGT detectors（攻击者对AIGT进行轻微改动，从而绕过detector）
- 攻击or防御
On the Generalization and Adaptation Ability of Machine-Generated Text Detectors in Academic Writing
- 评估针对学术写作的detector
Echoes of Automation: The Increasing Use of LLMs in Newsmaking
- 统计news的AIGT现状
When Detection Fails: The Power of Fine-Tuned Models to Generate Human-Like Social Media Text
- 从攻击者出发，测试detector的检测效果 → detector在现实场景下性能显著下降，对于fine-tune后的model效果欠佳（OOD）
RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns
- 检测AIGT的其他方法：通过LLM内部的神经激活模式的显著差异来检测AIGT
- 引用目的：选择 Reddit 作为可靠的HWT
Learning in an Echo Chamber: Online Learning with Replay Adversary
- 系统自身输出的数据作为训练的一部分，这样有可能让系统强化自己的错误 → 进行纠正
Machines in the Crowd? Measuring the Footprint of Machine-Generated Text on Reddit
- 相比较，它专门聚焦 Reddit 的AIGT的足迹（社会信息）
引用说明 Internet上有很多AIGT
- 使用其他generative AI的output训练新的generative AI的效果
- 信息检索：当查询、文档和排序器都可能由不同的 LLM 智能体构成时，信息检索系统会发生什么变化？
- 营销：内容同质化
- 计算机视觉：pic的虚假region定位
- AIGT的说服力如何

Are We in the AI-Generated Text World Already? Quantifying and Monitoring AIGT on Social Media 学习笔记

目的

数据集

评估数据：SM-D

detector：OSM-Det

detector

基于metric

基于model

评价标准

测试

评价

SM-D评估

分析

语言特征分析（detector的可解释性）

word level

sentence level

其他维度分析

topic

engagement

author

限制

被引用