Google针对语言模型的新研究,要了解大型语言模型识别并修正自己错误的两个重要能力。研究人员开发BIG-Bench Mistake评估基准数据集进行试验,发现大型语言模型虽然可以识别出自身在推理过程中出现的逻辑错误,并进行自我修正,但是这个过程并不够好,常需要人工干预来指正模型的输出,而研究人员提出了自我修正新方法,让模型能够发现自己输出的错误,并根据反馈改进结果。
由于过去并没有能够评估大型语言模型纠错能力的数据集,因此Google研究人员创建了BIG-Bench Mistake评估基准数据集,特别是用于验证在数学领域以外的错误发现任务上。BIG-Bench Mistake数据集包含了语言模型PaLM在BIG-Bench之中5项任务,所生成的关联思考(Chain-of-Thought)轨迹,每个轨迹都被标注出第一个逻辑错误。
为了最大化数据集的错误数量,Google选取了255个答案不正确的轨迹,和45个答案正确的轨迹,随后研究人员请人工标记者逐一审查每个轨迹,并标记出第一个错误,每个轨迹至少由3名标记者进行标注,确保答案的可靠性。虽然大部分的任务都是由人类标记,但是其中有一种称为Dyck语言用于检查上下括号是否闭合的任务,是由算法自动标注。
研究人员提到,因为这个数据集中的逻辑错误都很简单明确,因此可以作为一个良好的测试标准,用于检验大型语言模型是否能够被用于更难更模糊的任务前,能否先找出自己的错误。简单来说,在学会更难的数学题目之前,先练习加减法一样,这个数据集可以协助大型语言模型先从简单的逻辑错误开始练习,逐步提升识别错误的能力。
研究发现,即便是最先进的大型语言模型在关联思考风格推理中,找到逻辑错误的能力也相对有限,其中最佳模型的准确率仅52.9%。其次,将错误发现作为答案正确性的代理,这一个方法效果并不理想,简单来说,在评估问题的答案时,不直接判断答案本身的正确性,而是检查解答过程中是否存在逻辑错误,当过程中未发现错误,则假定答案正确,反之则是答案错误,而实验结果发现这个假设并不有效,与总是将答案标记为错误的简单策略相比没好上太多。
即使知道错误的具置,大型语言模型在修正错误的表现也表现不佳。此外,通过4项BIG-Bench任务微调的小型模型表现,接着在未曾见过的任务上进行测试,通常比零样本提示的大型模型表现更好。这显示借由针对性的训练和调整,大型语言模型能够学习并应用错误发现的技能到未知的场景中,进而提高在各种不同任务上的准确性和可靠性。
研究人员认为这是一个重要的结果,因为可以仅使用一个小型的微调奖励模型来进行回溯,并提高任务的准确性,即便没有任务相关的数据。较小的奖励模型完全独立于生成器大型语言模型,并且可以针对个别使用案例进行更新和进一步微调。
这项研究的贡献在于揭示了大型语言模型在自我修正方面的挑战,并为未来的改进提供了方向。气镐球坐标操作器机械阻抗