返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

扣子出品 | 大模型竞技场:谁与争锋

[复制链接]
链载Ai 显示全部楼层 发表于 1 小时前 |阅读模式 打印 上一主题 下一主题


ingFang SC", miui, "Hiragino Sans GB", "Microsoft Yahei", sans-serif;font-size: 14px;letter-spacing: 0.5px;text-align: start;background-color: rgb(255, 255, 255);margin-bottom: 16px;margin-top: 16px;white-space-collapse: preserve !important;word-break: break-word !important;">字节又又又整活了,继悄咪咪上线众多第三方国产大模型之后,字节扣子今日正式上线竞技场,大模型之间的“厮杀”拉开帷幕。

ingFang SC", miui, "Hiragino Sans GB", "Microsoft Yahei", sans-serif;font-size: 14px;letter-spacing: 0.5px;text-align: start;background-color: rgb(255, 255, 255);margin-bottom: 16px;margin-top: 16px;white-space-collapse: preserve !important;word-break: break-word !important;">截至今日(2024-06-12),扣子支持的第三方国产大模型有:

01

第三方大模型


豆包·Function call模型

功能特点:
  • 支持Function calling能力(提供更准确、稳定的工具调用能力)

通义千问-Max

功能特点:
  • 支持Function calling能力(提供更准确、稳定的工具调用能力)
  • 输入的长度支持最长8192个Tokens(约12288个中文字符)

GLM-4

功能特点:

  • 支持Function calling能力(提供更准确、稳定的工具调用能力)

  • 输入的长度支持最长120000个Tokens(约180000个中文字符)

MiniMax 6.5s

功能特点:
  • 支持Function calling能力(提供更准确、稳定的工具调用能力)
  • 输入的长度支持最长250880个Tokens(约376320个中文字符)
Moonshot(32K)
功能特点:
  • 支持Function calling能力(提供更准确、稳定的工具调用能力)
  • 输入的长度支持最长32768个Tokens(约49152个中文字符)

功能特点:
  • 支持Function calling能力(提供更准确、稳定的工具调用能力)
  • 输入的长度支持最长32768个Tokens(约49152个中文字符)

ingFang SC", miui, "Hiragino Sans GB", "Microsoft Yahei", sans-serif;font-size: 14px;letter-spacing: 0.5px;text-align: start;background-color: rgb(255, 255, 255);margin-bottom: 16px;margin-top: 16px;white-space-collapse: preserve !important;word-break: break-word !important;">今日下午,扣子上线模型广场,模型之间的“厮杀”之战开始。

ingFang SC", miui, "Hiragino Sans GB", "Microsoft Yahei", sans-serif;font-size: 14px;letter-spacing: 0.5px;text-align: start;background-color: rgb(255, 255, 255);margin-bottom: 16px;margin-top: 16px;white-space-collapse: preserve !important;word-break: break-word !important;">支持随机对战和选择模型对战。

对战模式

说明

指定 Bot 对战

指定 Bot 进行模型对战,

适用于评测模型在指定细分领域的文本生成、技能和知识调用等能力。

随机 Bot 对战

系统随机选择一个 Bot 进行模型对战,

适用于评测模型在任意业务场景下的文本生成、技能和知识调用等能力。

纯模型对战

不指定任何 Bot,统随机选择两个模型展开对决。

模型回答不编排、工作流等配置的限制和影响,

适用于评测模型本身的文本生成等能力。

ingFang SC", miui, "Hiragino Sans GB", "Microsoft Yahei", sans-serif;font-size: 14px;letter-spacing: 0.5px;text-align: start;background-color: rgb(255, 255, 255);margin-bottom: 16px;margin-top: 16px;white-space-collapse: preserve !important;word-break: break-word !important;">
选择随机对战,start run......

ingFang SC", miui, "Hiragino Sans GB", "Microsoft Yahei", sans-serif;font-size: 14px;letter-spacing: 0.5px;text-align: start;background-color: rgb(255, 255, 255);margin-bottom: 16px;margin-top: 16px;white-space-collapse: preserve !important;word-break: break-word !important;">事先不知道模型双方是谁,蒙面的对手,都在回答同一个问题,究竟谁的回答更加获得观战者的芳心?让我们拭目以待。

ingFang SC", miui, "Hiragino Sans GB", "Microsoft Yahei", sans-serif;font-size: 14px;letter-spacing: 0.5px;text-align: start;background-color: rgb(255, 255, 255);margin-bottom: 16px;margin-top: 16px;white-space-collapse: preserve !important;word-break: break-word !important;">GLM-4赢得了本次battle的胜利,minimax的角色扮演在这种对话场景有点锦上添花了,GLM-4棋高一筹。

ingFang SC", miui, "Hiragino Sans GB", "Microsoft Yahei", sans-serif;font-size: 14px;letter-spacing: 0.5px;text-align: start;background-color: rgb(255, 255, 255);margin-bottom: 16px;margin-top: 16px;white-space-collapse: preserve !important;word-break: break-word !important;">当然也支持推理能力、编码能力、任务解决、生成创作、角色扮演方面的能力PK。

ingFang SC", miui, "Hiragino Sans GB", "Microsoft Yahei", sans-serif;font-size: 14px;letter-spacing: 0.5px;text-align: start;background-color: rgb(255, 255, 255);margin-bottom: 16px;margin-top: 16px;white-space-collapse: preserve !important;word-break: break-word !important;">信息分析与处理、知识应用、推理能力

ingFang SC", miui, "Hiragino Sans GB", "Microsoft Yahei", sans-serif;font-size: 14px;letter-spacing: 0.5px;text-align: start;background-color: rgb(255, 255, 255);margin-bottom: 16px;margin-top: 16px;white-space-collapse: preserve !important;word-break: break-word !important;">编码能力、任务解决、生成创作

角色创作

纯模型对战环节

扣子平台的竞赛规则旨在通过公平性原则确保模型对战的公正性。系统随机选择两个匿名模型进行成对比较,采用均匀采样和分流来减少外部因素影响。

在对战中,模型的生成多样性被设定为平衡模式,且对战时的上下文轮数和最大回复长度等参数会根据Bot的设置或模型的上限来确定。

纯模型对战时,上下文轮数固定为3轮,最大回复长度为2k,且输出格式为文本。用户在对战中不能更换Bot,但可以重新选择开始新对战。

为了确保投票的公正性,对话中禁止询问模型身份,且投票后不支持更改选票。用户可以发起多轮会话以确定表现更好的模型,并在得到至少一轮完整的回复后才能进行投票。

投票结果将影响模型的评分,因此用户需要谨慎选择。任何试图暴露模型身份的行为将导致投票无效,且不会影响模型评分。

模型对战采用主观评测的方式,衡量模型输出与人类偏好或期望的一致性。

可以通过多轮会话提问不同的问题,尽量全面覆盖模型的能力范围。

评测问题可以是答案固定的客观问题,或答案不固定的开放性、半开放性问题,对模型能力进行综合评测。

采用的评测方式

为了准确、全面、系统化地评估大语言模型的能力、向 Bot 开发者提供具备参考价值的模型榜单,扣子参考 Chatbot Arena 的评分机制,采用 Bradley-Terry 模型对模型进行满意度比较和全方位评测。


Bradley-Terry 模型类似 Elo 评分系统,是一种成熟的统计模型,适用于需要分析成对比较数据的情况,目前广泛用于体育比赛分析等领域。Bradley-Terry 模型假设每个参赛者都有一个固定的实力参数,比赛结果的概率由这些参数决定,通常使用 Logistic 函数来计算一支队伍相对于另一支队伍的胜率,可以更准确地估计模型之间的相对实力。

https://www.coze.cn/docs/guides/model_compete_overview

百度百科:Bradley-Terry 模型是一个体育比赛的统计模型,用几个参赛队(或运动员)两两竞技的胜负场次来估计每个参赛队的实力,进而预报任意两支参赛队交手时的胜负概率。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ