我要投稿

探索大语言模型的不确定性评估

发布日期：2024-05-10 16:06:09 浏览次数： 3055

作者：LLM星球

微信搜一搜，关注“LLM星球”

单位 | Tencent AI Lab; University College London; University of Macau

研究方向 | 大模型评测

论文标题| Benchmarking LLMs via Uncertainty Quantification

论文地址| https://arxiv.org/pdf/2401.12794

代码地址| https://github.com/smartyfh/LLM-Uncertainty-Bench

洞见

大语言模型（LLMs）在学术界和工业界的应用日益广泛，它们在问答、文本摘要、对话系统和机器翻译等任务中展现出了卓越的性能。然而，现有的评估平台往往忽视了模型不确定性的重要性。本文通过引入不确定性量化，揭示了准确率之外的另一个关键维度，强调了在评估LLMs时考虑不确定性的必要性。

工作动机

为了解决现有大语言模型（LLMs）评估方法的局限性，即缺乏对模型预测不确定性的考量。鉴于LLMs在学术界和工业界的广泛应用，以及它们在多种自然语言处理任务中的潜力，研究者们认识到需要一种更全面的评估框架来准确地衡量这些模型的性能。因此，文章提出了一种新的基准测试方法，该方法通过整合不确定性量化来提供对LLMs更深入的理解。通过采用一致性预测作为量化不确定性的工具，文章不仅考虑了模型的准确性，还考虑了模型对其预测的确定性，从而为LLMs的稳健发展和安全、可靠应用提供了支持。此外，通过对多个代表性任务中的多个LLMs进行实证研究，文章揭示了规模、指令微调和不确定性之间的关系，进一步强调了在评估LLMs时考虑不确定性的重要性。

实验方法

这篇文章提出了一种基于一致性预测的评估方法，用于量化LLMs在多种自然语言处理任务中的不确定性。研究方法包括将五个典型的NLP任务转化为多项选择问题形式，并采用三种不同的提示策略来减少模型对提示的敏感性。通过从LLMs获取每个选项的预测概率，并利用Softmax函数转换为概率值，研究者使用一致性预测在分离出的校准集上计算阈值，并据此为测试集实例生成预测集。这一过程涉及到两种一致性分数函数：最小歧义集值分类器（LAC）和自适应预测集（APS），以确保预测集包含正确标签的同时，对不确定性进行量化。通过这种方法，研究者能够在统计上严格地评估LLMs的不确定性，从而为它们的性能提供一个更全面的视角。

实验结果

实验设置

3.1

错误率与数据划分：实验设定错误率为0.1，确保预测集以至少90%的概率包含真实标签，并将数据集分为50%的校准集和50%的测试集；
示例和输入长度：遵循上下文学习范式，实验中包含了示例，并对所有任务设置了2048个令牌的最大输入长度限制；
评估指标与提示策略：使用准确率、预测集大小和覆盖率作为评估指标，并通过三种不同的提示策略以及两种一致性分数函数（LAC和APS）来量化不确定性。

实验结果

3.2

不确定性与准确性的关系：Table 2的实验结果表明，具有更高准确性的LLMs可能表现出较低的确定性。这意味着准确性并不是衡量LLMs性能的唯一标准，不确定性的量化同样重要。

模型规模对不确定性的影响：图3中的实验结果表明，更大规模的LLMs相比于较小规模的模型可能会展现出更大的不确定性。这表明模型规模与不确定性之间存在关联。

指令微调对不确定性的影响：通过对比基础预训练模型和指令微调后的模型，研究发现指令微调倾向于增加LLMs的不确定性，尤其是在遵循指令完成任务方面。

除此之外，文章还探索了MoE技术对LLMs性能的影响，并发现采用MoE的LLMs在准确性和不确定性方面均优于未采用MoE的模型。这表明MoE技术能够有效提升模型在处理复杂数据关系时的适应性和性能。此外，实验还考察了不同比例的校准数据对不确定性量化的影响，结果显示，即使在校准数据比例发生变化的情况下，LLMs的不确定性评估结果依然保持稳定，这证实了一致性预测方法在量化不确定性时的鲁棒性。最后，文章还对一致性预测和困惑度（Perplexity）两种不确定性量化方法进行了比较，发现一致性预测在覆盖率和不确定性评估方面的表现更为稳定和可靠，尤其是在困惑度在不同任务中覆盖率变化显著的情况下，一致性预测仍保持超过90%的高覆盖率，突显了其在不确定性量化方面的优势。

Take Away

这篇文章采用一致性预测方法对大语言模型的不确定性进行了深入分析，发现尽管LLMs准确性高，但不确定性仍是评估中不可忽视的因素，模型规模的增加可能带来更高的不确定性。此外，我们发现校准数据比例的变动对不确定性评估结果影响不大，显示了方法的稳健性。与困惑度相比，一致性预测在不同任务中展现了更稳定的覆盖率和不确定性评估能力。这些发现为LLMs的综合评估提供了新的视角，对未来研究和应用具有指导意义。