Addressing Topic Granularity and Hallucination in Large Language Models for Topic Modelling

本文是LLM系列文章,针对《Addressing Topic Granularity and Hallucination in Large Language Models for Topic Modelling》的翻译.

在大型语言模型中解决主题粒度和幻觉问题以进行主题建模

摘要

大型语言模型 (LLM) 具有强大的零样本主题提取功能,为概率主题建模和封闭集主题分类方法提供了一种替代方案。作为零样本主题提取器,LLM 应该理解人类指令,以根据给定的文档生成相关且非幻觉的主题。然而,基于 LLM 的主题建模方法在生成符合人工指令中规定的粒度的主题时经常面临困难,这通常会导致许多几乎重复的主题。此外,尚未研究解决 LLM 产生的幻觉主题的方法。在本文中,我们专注于解决主题粒度和幻觉问题,以实现更好的基于 LLM 的主题建模。为此,我们引入了一种新颖的方法,该方法利用直接偏好优化 (DPO) 来微调开源 LLM,例如 Mistral-7B。我们的方法不依赖传统的人工注释来对首选答案进行排名,而是采用重建管道来修改 LLM 生成的原始主题,从而实现快速高效的训练和推理框架。比较实验表明,我们的微调方法不仅显著提高了 LLM 产生更连贯、相关和精确主题的能力,而且还减少了幻觉主题的数量。

1 引言

2 相关工作

猜你喜欢

转载自blog.csdn.net/c_cpp_csharp/article/details/143461540