ICLR 2024
- 判断生成的文本是人写的还是大模型写的
- 现有的检测器主要分为两类
- 有监督分类器
- 在训练领域表现出色,但在面对来自不同领域或不熟悉模型生成的文本时表现变差
- 零样本分类器
- 免疫领域特定的退化
- 在检测精度上可以与有监督分类器相当
- 但目前的方法计算成本高、计算时间长
- 有监督分类器
- ——>提出了一种新的假设来检测机器生成的文本
- 人类和机器在给定上下文的情况下选择词汇存在明显的差异
- 人类的选择比较多样,而机器更倾向于选择具有更高模型概率的词汇
- 如下图,在四个不同开源模型上,人类撰写文本的条件概率曲率近似一个均值为 0 的正态分布,而机器生成文本的条件概率曲率近似一个均值为 3 的正态分布
- 人类和机器在给定上下文的情况下选择词汇存在明显的差异