在大规模语言模型(LLMs)进入生产环境时,评估(evals)是一个至关重要但常常被忽略的步骤。尽管设置评估可能有些复杂,但如果你打算在公司内部或产品中大规模使用LLMs,这是一个完全必要的步骤。所以今天,我将为大家介绍一个当前最受欢迎的评估框架之一:Deep Eval。Deep Eval是一个开源的评估框架,专为大规模语言模型设计,它自带了许多不同的评估方法,当然你也可以编写自己的评估指标。在这个教程中,我们将探索Deep Eval的基本概念、如何设置开发环境以运行这些评估,并创建我们的第一个评估测试。让我们开始吧!
创建工作目录和虚拟环境
首先,我们需要在终端中创建一个文件夹来保存所有的工作内容,并在这个文件夹中创建一个虚拟环境。
mkdir dp_eval_test
cd dp_eval_test
python -m venv
source env/bin/activate
这样我们就创建了一个名为dp_eval_test
的文件夹,并在其中激活了一个Python虚拟环境。
安装Deep Eval
接下来,我们需要在虚拟环境中安装Deep Eval。
pip install deep-eval<