评估 RAG 和长上下文 LLM 输出的质量

显示全部楼层

介绍

如何衡量长上下文 LLM 输出和 RAG 结果的质量？SalesForce 着手创建一个数据集和一个框架来衡量生成输出的准确性。

Salesforce 设计了一个程序来创建包含重复见解或信号的文档“干草堆” 。 “干草堆摘要”(SummHay)任务要求系统生成识别相关见解并引用源文档的摘要。

通过对预期见解和引用的精确了解，Salesforce 实现了对覆盖率和引用的自动评估评分摘要。

Salesforce 在对话和新闻领域创建了Haystacks，并评估了 10 个 LLM 和 50 个 RAG 系统。他们的结果表明，SummHay仍然是一个挑战，即使是最好的系统也比人类的表现 (56%) 落后 10 多个百分点。

SummHay 还可用于研究企业 RAG 系统和长上下文模型中的定位偏差。Salesforce 设想，未来系统可以在SummHay上匹敌甚至超越人类的表现。

尽管 RAG 和长上下文 LLM 都旨在解决回答大量文本查询的问题，但仍然缺乏对常见任务的直接比较，这使得评估具有挑战性。

最近的测试要求模型在大型文档中查找小块信息。然而，这些任务缺乏区分最新大型语言模型能力所需的复杂性，因为许多最先进的模型实现了近乎完美的性能。

Salesforce 建议利用摘要任务作为评估长上下文模型和 RAG 系统的试验台。

总结需要基于长期背景的推理以及对内容的相对重要性的仔细理解。

关于摘要评估的先前工作，特别是在评估摘要的相关性方面，主要集中于单文档摘要或输入内容约为 1,000-2,000 个标记的任务。

较长的对话和多文档新闻摘要通常仍然限制在 10k 个标记左右。

摘要评估的一个主要问题是依赖低质量的参考摘要和与人类判断相关性较差的自动指标。

传统评估将候选摘要与黄金标准参考文献进行比较，假设重叠度越高表示质量越好。这种方法不可靠，尤其是在长上下文环境中，因为获取高质量参考文献的成本很高。即使是最好的内容覆盖率自动指标也常常无法与人类判断很好地相关。

为了解决这些问题，Salesforce 使用合成数据生成。

考虑下面的图片，Salesforce 的方法包括针对给定主题创建大量文档（“Haystack”），确保某些信号在文档之间重复出现。

通过控制哪些见解出现在哪些文档中，Salesforce 可以自动确定搜索查询的相关见解。SummHay任务要求系统总结这些见解并引用其来源。总结的评估基于预期见解的覆盖范围和引用源文档的准确性。

Haystacks 在两个领域生成，即对话和新闻文章。

Haystack 通常包含有关某个主题的 100 份文档，总计约 10 万个标记。Salesforce 总共生成 10 个 Haystack，每个 Haystack 大约有 10 个查询，总共 92 个SummHay任务。该管道可以扩展并应用于其他领域。

SummHay评估协议，主要评估系统输出的参考见解覆盖率和引用质量。手动注释证实了该协议在知识渊博的注释者中具有很强的可重复性（相关性为 0.77）。

然后，Salesforce 尝试了基于 LLM 的评估，发现虽然相关性水平略低（0.71），但评估成本却降低了近 50 倍。

Salesforce 在SummHay上建立了对人类表现的评估，并对 50 个 RAG 系统和 10 个长上下文 LLM 进行了大规模评估。

对所有评估系统来说， SummHay都是一项艰巨的任务，因为没有一个模型能够达到接近人类水平的性能。即使模型被赋予了预言信号（这是哪些文档相关的完美指标），情况仍然如此。
尽管具有此优势，但模型在总结见解和准确引用来源方面仍远远达不到人类的表现。
在 RAG（检索增强生成）管道和长上下文 LLM（大型语言模型）之间进行选择时，需要考虑重要的权衡。
RAG 系统通常提供更好的引用质量，这意味着它们可以更准确地引用特定文档或来源。
然而，这往往是以牺牲洞察覆盖为代价的，洞察覆盖指的是全面捕获和总结所有相关信息的能力。
相比之下，长语境法学硕士 (LLM) 可能涵盖更全面的见解，但可能难以提供精确和准确的引用。
使用先进的 RAG 组件（例如重新排序）可以提高任务的端到端性能，从而证实SummHay是整体 RAG 评估的可行选择。
SummHay上的位置偏差实验证实了中间丢失现象，表明大多数 LLM 偏向于上下文窗口顶部或底部的信息。