估的模型为高质量候选

Rate this post

我们计算新模型（例如 shiny-new-qa）为每个候选词分配的概率。这是可行的，因为大多数文本生成模型都是语言模型，可以为任意单词序列分配概率。

第三，我们进行每项 nnd 测试。如果被评集分配了更高的概率，则该模型通过测试（测试 1-2、4-2 和 1-5），否则，该模型未通过测试（测试 1-3、4-3、4-5）。

nnd 结果以两种方式汇总。首先，通用结果以测试通过率的总体百分比计算。在本例中，模型通过了 3/6 项 nnd 测试，总体通过率为 50%。通用 nnd 结果对于模型比较很有用，因为它是一个单一的数字。

通过查看涉及特定错

误类别的测试的通过率，可以计算出更详细的结果。在我们的示例中，模型通过了 3/4 个涉及“不流手机号数据库列表畅”错误的 nnd 测试（通过率为 75%），以及 0/2 个涉及“非事实”错误的 nnd 测试。详细的 nnd 细分有助于检查模型的优势和劣势。

这就是理论，现在让我们看看如何在实践中使用 nnd。

应用 nnd 评估
问题生成（qg）
我们根据测验设计注释[1]创建了一个 nnd 测试集，其中教师评估了阅读理解测验中是否应该包含问题。

在研究期间，作者评估了 7 个模型，发现较新、较大的 qg 模型（例如 mixqg-large）生成的问题演示老虎机的优势明显优于较小、较旧的模型。由于研究期间的延迟问题，最大的模型规模 (3b) 以及当时尚未发布的较新的 macaw 模型未能纳入研究。

在研究中，更新、更大的模型会如何比较？

mixqg-3b 的通过率最高，比原始研究中表现最佳的 mixqg-large 提高了 2%。对于好奇的读者，nnd 论文利用错误类别注释进行了更详细的分析，结果表明，尽管 macaw-3b 的整体表现并不优于 mixqg-3b，但它在避免不流畅错误方面取得了最佳表现。

总结
nnd 的另一个优点是它不需要生成候选，这既需要计算成本，又会引入混杂因素：解码策略（我的模型更好是因电子邮件线索带领为我使用了更奇特的解码策略，还是因为底层模型更好）。