链载Ai

标题: 大模型性能评测之大海捞针(Needle In A Haystack) [打印本页]

作者: 链载Ai    时间: 9 小时前
标题: 大模型性能评测之大海捞针(Needle In A Haystack)

1. 导入

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">大模型在卷上下文长度context length,那对于长文本的处理,大模型的性能如何呢?又应该如何评测呢?

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">gkamradt的一项极限测试却发现,大部分人用法都不对,没发挥出AI应有的实力。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">AI真的能从几十万字中找到特定关键事实吗?颜色越红代表AI犯的错越多。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">gkamradt将这项测试命名为NeedleInAHaystack[草垛找针],中文翻译为大海捞针,是一种评估大模型长文本性能的方法。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">简而言之就是把一个关键信息(针)藏在一个长文本Prompt(草垛/大海)中,然后通过提问让大模型找到这个关键信息。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">由于这个测试确实能反映出大模型的能力,现在已经逐渐发展为一种标准的评估方法。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;display: table;padding-right: 0.2em;padding-left: 0.2em;color: rgb(255, 255, 255);background: rgb(15, 76, 129);">2.大海捞针任务简述

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">Kamradt把藏起来的那句话(也就是大海捞针的“针”)分别放到了文本语料(也就是大海捞针的“大海”)从前到后的15处不同位置,然后针对从1K到128K(200K)等量分布的15种不同长度的语料进行了225 次(15×15)实验。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">Greg Kamradt 的“大海捞针”实验简述:

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">大海

YC创始人PaulGraham的218篇博客文章

ThebestthingtodoinSanFranciscoiseatasandwichandsitinDoloresParkonasunnyday.
在旧金山最好的事情,就是在阳光明媚的日子坐在多洛雷斯公园吃一个三明治.

提问

WhatisthemostfunthingtodoinSanFranciscobasedonmycontext?Don'tgiveinformationoutsidethedocument

期望的回答

ThebestthingtodoinSanFranciscoiseatasandwichandsitinDoloresParkonasunnyday.

3. 其它大海捞针方法(OpenCompass)







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5