链载Ai

标题: AI大模型是如何测试效果的? [打印本页]

作者: 链载Ai    时间: 2 小时前
标题: AI大模型是如何测试效果的?

AI大模型的测试和评估是一个复杂的过程,通常包括多个方面的考量,因此对大模型的测试也称为多度测试。

可以简单概括为以下几个方面:

模型的参数量

模型参数计算(以ALexNet为例):

参数量在6000万,假设每个参数都是一个float,即4个字节,总字节就是24000万字节,则24000万字节/1024/1024 = 228MB

大模型竞技场Chatbot Arena

一个针对大型语言模型(LLMs),采用众包方法进行匿名、随机化的对战的评分系统。

大模型测试详情

根据清华发布2024年3月版《SuperBench大模型综合能力评测报告》。SuperBench 评测体系包含了语义、代码、对齐、智能体和安全等五个评测大类,28 个子类。

PART/1 语义评测

在语义理解能力评测中,模型形成三个梯队。70 分档为第一梯队,包括 Claude-3(76.7 分,第一),GLM-4 和文心一言 4.0 超过 GPT-4 系列模型,分别位居第二和第三,但与 Claude-3 有 3 分差距。


PART/2 代码评测

在代码编写能力评测中,国内模型与国际一流模型仍有明显差距。GPT-4 系列和 Claude-3 模型在代码通过率上明显领先。国内模型中,GLM-4、文心一言 4.0 和讯飞星火 3.5 表现突出,综合得分超过 40 分。但即使是表现最好的模型,代码的一次通过率仍只有约 50%,代码生成任务对现有大模型仍是一大挑战。








欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5