Pass@k 评价指标 - 代码天地

Pass@k 是一种用于 程序生成 和 代码生成任务 的评价指标，尤其是在 自动编程 或 代码生成模型 的评估中非常有用。该指标用于衡量模型在生成多个候选解时，是否能正确解决某个问题。

Pass@k 是在给定一个编程任务的情况下，模型生成的 k 个解（样本） 中，至少有 一个解是正确的 的概率。

具体来说：

如果 Pass@k = 1.0，意味着在生成的 k 个解中，至少有 一个解 是 正确的。

Pass@k 的计算可以通过以下步骤进行：

$\text{Pass@k} = \frac{\text{通过的测试问题数}}{\text{总测试问题数}}$

假设在一个编程任务中，我们有 3 个测试问题，每个问题的模型生成了 3 个候选解。以下是每个问题的测试结果：

测试问题	候选解 1	候选解 2	候选解 3	是否通过
问题 1	失败	成功	失败	通过（至少一个解通过）
问题 2	失败	失败	失败	未通过
问题 3	成功	失败	成功	通过（至少一个解通过）

Pass@k 计算：

$\text{Pass@3} = \frac{2}{3} \approx 0.6667$

因此，Pass@3 = 0.6667。

在 OpenAI 的 HumanEval 论文 中，提出了一种 针对每个问题生成多个样本并进行无偏估计的方法，这是为了解决 单个解的正确性评估 可能引入的偏差问题。

假设在 HumanEval 数据集 上，每个问题生成了 3 个候选解，假设 每个解通过测试的概率为 0.1，则可以计算：

$P_{\text{pass@3}} = 1 - (1 - 0.1)^3 = 1 - (0.9)^3 = 1 - 0.729 = 0.271$

所以，Pass@3 的无偏估计为 0.271，意味着 至少一个解通过的概率是 0.271。

评价指标	描述
Pass@k	衡量在生成的 k 个候选解中，至少一个解能正确通过测试的比例。
计算方式	对每个问题，计算模型生成的候选解中至少一个通过的概率，并统计最终通过的比例。
无偏估计	通过生成多个候选解，并计算至少一个解通过的概率，避免单个解评估的偶然性与偏差。
应用场景	主要应用于自动编程、代码生成、程序合成等任务，用于评估模型生成代码的能力。

Pass@k 是 代码生成任务 中一个常见的评估指标，结合 无偏估计 方式，可以更准确地评估模型在多解生成中的表现。