2412: AIGTs
Are We in the AI-Generated Text World Already? Quantifying and Monitoring AIGT on Social Media
2412.18148v3
目的
量化并监控在线社交媒体平台上的AIGT,覆盖一系列LLM
- 虚假信息传播
- 舆论控制
从时间维度出发,纵向分析AIGT在 内容驱动型社交媒体 上的占比
数据集
评估数据:SM-D
3个社交平台上收集的2022.1-2024.10的文字数据(文章、Q&A中的answer,response)
- 过滤:太短的、英文占比少的、带有明显 AI生成异常 特征的(重复、不相关词句等),保证后续的文本特征分析更加准确
detector:OSM-Det
AIGTBench:AIGT+HWT
AIGT:公开的AIGT、SFT数据集,使用不同LLM生成具有平台特征的内容
- Medium:writing task
- 1.润色文章
- 2.基于xxx生成文章
- Quora and Reddit:Q&A、user interaction tasks
- 1.润色文章
- 2.直接问问题Q
- Medium:writing task
HWT:3个媒体平台在2018.1-2021.12期间的内容,提高detector在媒体内容上的泛化能力,从而捕捉到社交媒体内容的语言风格(消融研究)
分割数据集:训练集7:验证集1:测试集2
detector
基于metric
base model:GPT-2 medium
步骤:
- 使用base model提取统计特征
- 基于统计特征,训练逻辑回归模型
基于model
使用AIGTBench测试了pre-trained detector与微调后的detector
OpenAI Detector、ChatGPT Detector:选择RoBERTa-base版本直接使用
ConDA、LM-D:fine-tune
GPTZero:直接使用
CheckGPT:使用AIGTBench复现
评价标准
accuracy
F1-score
ARR:detector预测为AIGT的文本占比
FPR:HWT错误预测为AIGT的占比
NTF:反映用词偏好=当前文章t的出现次数/(当前文章总词数*所有文章t的出现次数) → 惩罚常用词

测试
基于metric:poor
难以有效捕捉细微的文本特征
基于model
- openAI、ChatGPT:very poor,可能是因为它们是在早期模型GPT-2的输出上进行fine-tune,无法检测更先进的AIGT
- 最终选取LM-D(在AIGTBench上fine-tune) → OSM-Det
- 按平台分AIGTBench,比较结果
- 对于短文本的预测准确率低于长文本,因此将SM-D中的较短文本排除(<150)
评价
普遍性
不同生成参数:temperature, top-p, and top-k
使用GPT4o and GPT4o-mini,改变生成参数,refine 5000 HWT,进行测试 → 不同生成参数refine得到的text的预测都很准
新model的生成文本:detector没见过这些model的生成文本,不在AIGTBench中
使用这些model 润色 5000 HWT
test in the wild:从huggingface随机选取数据集,没见过的model、没见过的领域,都不在AIGTBench中
分数依旧很高
SM-D评估
看图
Medium、Quora:ARR整体呈现增加(release
Reddit:rely less on AI
分析
语言特征分析(detector的可解释性)
- 积分梯度:依赖于model,计算梯度为每个输入值赋予重要性分数(仅word
- 沙普利值:独立于model,扰动输入值,观察预测中的贡献度(≈控制变量法)
word level
无法简单地根据某个词判断class,因为会有重叠
这种重叠说明了 word importance 与上下文高度相关
转向静态统计高频率 形容词、连词、副词
使用SpaCy库标记词性,从adj、conj、adv中找出AIGT、HWT的top词,即为AI-preferred vocabulary、Human-preferred vocabulary
统计SM-D中AI-preferred vocabulary、Human-preferred vocabulary的NTF,反映这些词的使用状况
Medium、Quora:AI↑ Human↓(release时间点
说明这两个平台AI的使用在增加
Reddit:AI一直很低,Human一直很高
波动趋势和ARR基本一致
sentence level
很有区分度:
- AIGT:句子风格客观,结构标准。名词代词开头,主谓宾
- human:灵活的句子结构,非正式表达
其他维度分析
topic
Medium
9个topic
按照时间维度,所有topic的ARR都在增长,其中“科技、软件发展”最高
engagement
likes,comments
- AI:Human = 1:1 选取16600 blogs
- Mann-Whitney U 检验 发现两种blogs的engagement相差很大
- AI的engagement更低,低engagement的blogs 频率更大
- 不同粉丝体量的作者,都呈现 AI作品的engagement更低 的现象
author
探究 粉丝数与AI使用的关系
随机寻找1000名作者
followers少AAR高,followers多ARR低
在model 发布后,第一次使用AI生成内容的作者数 显著增长,后逐渐稳定
限制
- 覆盖LLM有限
- 数据集存在分布偏差
- 语言:detector的公平性
- 仅对Medium分析了其他维度,数据难收集
人机协作检测
被引用
TH-Bench: Evaluating Evading Attacks via Humanizing AI Text on Machine-Generated Text Detectors
- 评估evading attacks against MGT detectors(攻击者对AIGT进行轻微改动,从而绕过detector)
- 攻击or防御
On the Generalization and Adaptation Ability of Machine-Generated Text Detectors in Academic Writing
- 评估针对学术写作的detector
Echoes of Automation: The Increasing Use of LLMs in Newsmaking
- 统计news的AIGT现状
When Detection Fails: The Power of Fine-Tuned Models to Generate Human-Like Social Media Text
- 从攻击者出发,测试detector的检测效果 → detector在现实场景下性能显著下降,对于fine-tune后的model效果欠佳(OOD)
RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns
检测AIGT的其他方法:通过LLM内部的神经激活模式的显著差异 来检测AIGT
引用目的:选择 Reddit 作为可靠的HWT
Learning in an Echo Chamber: Online Learning with Replay Adversary
- 系统自身输出的数据作为训练的一部分,这样有可能让系统强化自己的错误 → 进行纠正
Machines in the Crowd? Measuring the Footprint of Machine-Generated Text on Reddit
- 相比较,它专门聚焦 Reddit 的AIGT的足迹(社会信息)
引用说明 Internet上有很多AIGT
使用其他generative AI的output训练新的generative AI的效果
信息检索:当查询、文档和排序器都可能由不同的 LLM 智能体构成时,信息检索系统会发生什么变化?
营销:内容同质化
计算机视觉:pic的虚假region定位
AIGT的说服力如何
- Title: 2412: AIGTs
- Author: dawn_r1sing
- Created at : 2025-10-24 19:36:05
- Updated at : 2025-10-24 19:37:43
- Link: https://dawnrisingdong.github.io/2025/10/24/AIGTs/
- License: This work is licensed under CC BY-NC-SA 4.0.