2412: AIGTs

dawn_r1sing Lv3

Are We in the AI-Generated Text World Already? Quantifying and Monitoring AIGT on Social Media

2412.18148v3

目的

量化并监控在线社交媒体平台上的AIGT,覆盖一系列LLM

  • 虚假信息传播
  • 舆论控制

从时间维度出发,纵向分析AIGT在 内容驱动型社交媒体 上的占比

数据集

  1. 评估数据:SM-D

    3个社交平台上收集的2022.1-2024.10的文字数据(文章、Q&A中的answer,response)

    • 过滤:太短的、英文占比少的、带有明显 AI生成异常 特征的(重复、不相关词句等),保证后续的文本特征分析更加准确
  2. detector:OSM-Det

    AIGTBench:AIGT+HWT

    • AIGT:公开的AIGT、SFT数据集,使用不同LLM生成具有平台特征的内容

      • Medium:writing task
        • 1.润色文章
        • 2.基于xxx生成文章
      • Quora and Reddit:Q&A、user interaction tasks
        • 1.润色文章
        • 2.直接问问题Q
    • HWT:3个媒体平台在2018.1-2021.12期间的内容,提高detector在媒体内容上的泛化能力,从而捕捉到社交媒体内容的语言风格(消融研究)

  3. 分割数据集:训练集7:验证集1:测试集2

detector

基于metric

base model:GPT-2 medium

步骤:
  1. 使用base model提取统计特征
  2. 基于统计特征,训练逻辑回归模型

基于model

使用AIGTBench测试了pre-trained detector与微调后的detector

  • OpenAI Detector、ChatGPT Detector:选择RoBERTa-base版本直接使用

  • ConDA、LM-D:fine-tune

  • GPTZero:直接使用

  • CheckGPT:使用AIGTBench复现

评价标准

  • accuracy

  • F1-score

  • ARR:detector预测为AIGT的文本占比

  • FPR:HWT错误预测为AIGT的占比

  • NTF:反映用词偏好=当前文章t的出现次数/(当前文章总词数*所有文章t的出现次数) → 惩罚常用词

tmp83BB

测试

  • 基于metric:poor

    难以有效捕捉细微的文本特征

  • 基于model

    • openAI、ChatGPT:very poor,可能是因为它们是在早期模型GPT-2的输出上进行fine-tune,无法检测更先进的AIGT
    • 最终选取LM-D(在AIGTBench上fine-tune) → OSM-Det
      • 按平台分AIGTBench,比较结果
      • 对于短文本的预测准确率低于长文本,因此将SM-D中的较短文本排除(<150)

评价

普遍性

  • 不同生成参数:temperature, top-p, and top-k

    使用GPT4o and GPT4o-mini,改变生成参数,refine 5000 HWT,进行测试 → 不同生成参数refine得到的text的预测都很准

  • 新model的生成文本:detector没见过这些model的生成文本,不在AIGTBench中

    使用这些model 润色 5000 HWT

  • test in the wild:从huggingface随机选取数据集,没见过的model、没见过的领域,都不在AIGTBench中

    分数依旧很高

SM-D评估

看图

  • Medium、Quora:ARR整体呈现增加(release

  • Reddit:rely less on AI

分析

语言特征分析(detector的可解释性

  • 积分梯度:依赖于model,计算梯度为每个输入值赋予重要性分数(仅word
  • 沙普利值:独立于model,扰动输入值,观察预测中的贡献度(≈控制变量法)

word level

  • 无法简单地根据某个词判断class,因为会有重叠

    这种重叠说明了 word importance 与上下文高度相关

  • 转向静态统计高频率 形容词、连词、副词

    使用SpaCy库标记词性,从adj、conj、adv中找出AIGT、HWT的top词,即为AI-preferred vocabulary、Human-preferred vocabulary

    • 统计SM-D中AI-preferred vocabulary、Human-preferred vocabulary的NTF,反映这些词的使用状况

      • Medium、Quora:AI↑ Human↓(release时间点

        说明这两个平台AI的使用在增加

      • Reddit:AI一直很低,Human一直很高

      • 波动趋势和ARR基本一致

sentence level

很有区分度:

  • AIGT:句子风格客观,结构标准。名词代词开头,主谓宾
  • human:灵活的句子结构,非正式表达

其他维度分析

topic
  • Medium

  • 9个topic

  • 按照时间维度,所有topic的ARR都在增长,其中“科技、软件发展”最高

engagement

likes,comments

  • AI:Human = 1:1 选取16600 blogs
  • Mann-Whitney U 检验 发现两种blogs的engagement相差很大
    • AI的engagement更低,低engagement的blogs 频率更大
    • 不同粉丝体量的作者,都呈现 AI作品的engagement更低 的现象
author
  • 探究 粉丝数与AI使用的关系

  • 随机寻找1000名作者

    followers少AAR高,followers多ARR低

  • 在model 发布后,第一次使用AI生成内容的作者数 显著增长,后逐渐稳定

限制

  • 覆盖LLM有限
  • 数据集存在分布偏差
  • 语言:detector的公平性
  • 仅对Medium分析了其他维度,数据难收集

人机协作检测

被引用

  • TH-Bench: Evaluating Evading Attacks via Humanizing AI Text on Machine-Generated Text Detectors

    • 评估evading attacks against MGT detectors(攻击者对AIGT进行轻微改动,从而绕过detector
    • 攻击or防御
  • On the Generalization and Adaptation Ability of Machine-Generated Text Detectors in Academic Writing

    • 评估针对学术写作的detector
  • Echoes of Automation: The Increasing Use of LLMs in Newsmaking

    • 统计news的AIGT现状
  • When Detection Fails: The Power of Fine-Tuned Models to Generate Human-Like Social Media Text

    • 从攻击者出发,测试detector的检测效果 → detector在现实场景下性能显著下降,对于fine-tune后的model效果欠佳(OOD)
  • RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns

    • 检测AIGT的其他方法:通过LLM内部的神经激活模式的显著差异 来检测AIGT

    • 引用目的:选择 Reddit 作为可靠的HWT

  • Learning in an Echo Chamber: Online Learning with Replay Adversary

    • 系统自身输出的数据作为训练的一部分,这样有可能让系统强化自己的错误 → 进行纠正
  • Machines in the Crowd? Measuring the Footprint of Machine-Generated Text on Reddit

    • 相比较,它专门聚焦 Reddit 的AIGT的足迹(社会信息)
  • 引用说明 Internet上有很多AIGT

    • 使用其他generative AI的output训练新的generative AI的效果

    • 信息检索:当查询、文档和排序器都可能由不同的 LLM 智能体构成时,信息检索系统会发生什么变化?

    • 营销:内容同质化

    • 计算机视觉:pic的虚假region定位

    • AIGT的说服力如何

  • Title: 2412: AIGTs
  • Author: dawn_r1sing
  • Created at : 2025-10-24 19:36:05
  • Updated at : 2025-10-24 19:37:43
  • Link: https://dawnrisingdong.github.io/2025/10/24/AIGTs/
  • License: This work is licensed under CC BY-NC-SA 4.0.