本文是LLM系列文章,针对《A Watermark for Low-entropy and Unbiased Generation in Large Language Models》的翻译。
大型语言模型中低熵和无偏生成的水印
摘要
大型语言模型 (LLM) 的最新进展凸显了滥用的风险,引发了对准确检测 LLM 生成内容的担忧。检测问题的可行解决方案是将难以察觉的标识符注入 LLM,称为水印。以前的工作表明,无偏见的水印通过保持 LLM 输出概率分布的期望来确保不可伪造并保持文本质量。但是,以前的无偏水印方法对于本地部署是不切实际的,因为它们依赖于在检测过程中访问白盒 LLM 和输入提示。此外,这些方法未能为水印检测的 II 类误差提供统计保证。本研究提出了 Sampling One Then Accepting (STA-1) 方法,这是一种无偏水印,在检测过程中不需要访问 LLM 或提示,并且对 II 类错误有统计保证。此外,我们提出了一种新颖的权衡方式,即无偏见水印中的水印强度和文本质量。我们表明,在低熵场景中,无偏水印面临着水印强度和输出不满意的风险之间的权衡。在低熵和高熵数据集上的实验结果表明,STA-1 实现了与现有无偏水印相当的文本质量和水印强度,并且输出不满意的风险较低。本研究的实现代码可在线获取。