我们计算新模型(例如 shiny-new-qa)为每个候选词分配的概率。这是可行的,因为大多数文本生成模型都是语言模型,可以为任意单词序列分配概率。
第三,我们进行每项 nnd 测试。如果被评集分配了更高的概率,则该模型通过测试(测试 1-2、4-2 和 1-5),否则,该模型未通过测试(测试 1-3、4-3、4-5)。
nnd 结果以两种方式汇总。首先,通用结果以测试通过率的总体百分比计算。在本例中,模型通过了 3/6 项 nnd 测试,总体通过率为 50%。通用 nnd 结果对于模型比较很有用,因为它是一个单一的数字。
通过查看涉及特定错
误类别的测试的通过率,可以计算出更详细的结果。在我们的示例中,模型通过了 3/4 个涉及“不流 手机号数据库列表 畅”错误的 nnd 测试(通过率为 75%),以及 0/2 个涉及“非事实”错误的 nnd 测试。详细的 nnd 细分有助于检查模型的优势和劣势。
这就是理论,现在让我们看看如何在实践中使用 nnd。
应用 nnd 评估
问题生成(qg)
我们根据测验设计注释[1]创建了一个 nnd 测试集,其中教师评估了阅读理解测验中是否应该包含问题。
在研究期间,作者评估了 7 个模型,发现较新、较大的 qg 模型(例如 mixqg-large)生成的问题 演示老虎机的优势 明显优于较小、较旧的模型。由于研究期间的延迟问题,最大的模型规模 (3b) 以及当时尚未发布的较新的 macaw 模型未能纳入研究。
在研究中,更新、更大的模型会如何比较?
我们用 nnd 评估来推断
mixqg-3b 的通过率最高,比原始研究中表现最佳的 mixqg-large 提高了 2%。对于好奇的读者,nnd 论文利用错误类别注释进行了更详细的分析,结果表明,尽管 macaw-3b 的整体表现并不优于 mixqg-3b,但它在避免不流畅错误方面取得了最佳表现。
总结
nnd 的另一个优点是它不需要生成候选,这既需要计算成本,又会引入混杂因素:解码策略(我的模型更好是因 电子邮件线索带领 为我使用了更奇特的解码策略,还是因为底层模型更好)。