返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

Llama 3.1 405B 中文基准评测出炉!推理总分80.44,略超GPT-4 Turbo,不敌GPT-4o

[复制链接]
链载Ai 显示全部楼层 发表于 4 小时前 |阅读模式 打印 上一主题 下一主题


Meta于7月23日发布Meta Llama 3.1 405B,并认为这是世界上最大、功能最强大开源基础模型。顶级开源模型Llama 3.1 405B的上下文长度扩展到了 128K、支持八种语言,在常识、可操纵性、数学、工具使用和多语言翻译等方面可与 GPT-4、GPT-4o、Claude 3.5 Sonnet 等领先的闭源模型相媲美。

针对公众关注的Llama 3.1 405B的中文性能问题,作为专业第三方测评机构SuperCLUE选取了中文推理相关的核心任务进行了深入测评。具体来说,我们采用了中文数学多步推理测评基准(SuperCLUE-Math6,含2024题)和中文等级化代码单元测试基准(SuperCLUE-Code3,包含1560个测试用例),对Llama 3.1 405B在数学和编程方面的能力进行了全面评估。

先说结论

结论1:在完成SuperCLUE推理任务时,Llama 3.1 405B的整体得分为88.44,超过GPT-4 Turbo,仅次于GPT-4o,暂据排行榜第二。

结论2:Llama 3.1 405B在SC-Math6数学基准上得分91.19分,判定为推理等级5,与GPT-4o相比仅有0.58分的差距,领先其他模型。

结论3:Llama 3.1 405B在SC-Code3代码基准上得分69.68分,接近70分,较GPT-4 Turbo略高(0.11分),与GPT-4o有一定差距(2分)。

测评结果
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;">
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;">SuperCLUE-Math6
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.034em;text-align: justify;width: 578px;height: 648px;"/>

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;">SuperCLUE-Code3


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ