现有方法旨在使评估模型的评分与人类期望评分保持一致,由于评分是主观的,不像客观判断正确,这些方法更适合于文本翻译和摘要等开放式任务。相反,我们的方法旨在使xFinder从LLM输出中提取的关键答案与人类期望的关键答案保持一致。从根本上说,这种方法更适合于具有确定性答案的任务,如选择题和数学问题。我们将关键答案提取任务定义如下:

设D表示由三组元素组成的评估数据集:一个问题、一组选项和正确答案。q表示问题,C表示选项集,a表示正确答案。设Σ为所有令牌的集合,P为幂集。将D中的每个数据点(q, C, a)输入LLM,产生输出y:

如果y中的一个唯一的子字符串可以被识别为三种类型(直接、提示包装或转换问题包装)之一,则该子字符串被认为是关键答案句s。这三种类型及其对应的集合的定义如下:
直接。这是指s直接提供最终答案。τ: Σ∗→P(Σ∗)表示同义词转换的函数。
提示包装。这是指s由相关提示和最终答案组成。子集F∧P(Σ*)表示指向答案的提示符集合,其中占位符<最终答案>表示最终答案的位置。表达式s◦f表示将f中的<最终答案>标记替换为s而形成的新句子。
转换问题包装。这是指s由转换成陈述性陈述的原始问题q和最终答案组成。函数ζ:Σ∗→Σ∗表示语句转换函数,该函数将q转换为声明形式并标识占位符的位置。
当多个子字符串满足条件时,有必要确定y中是否存在一个思想链(CoT)过程。如果y中存在一个CoT过程,则定义s为满足条件的唯一子字符串,并且出现在y中的CoT过程之后。如果不存在CoT过程,则y中不存在s。

关键答案k的定义分为两种场景: