返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

Mixtral 8x22B:更便宜、更好、更快、更强大

[复制链接]
链载Ai 显示全部楼层 发表于 3 小时前 |阅读模式 打印 上一主题 下一主题

Mistral发布并开源了Mixtral-8x22B-v0.1Mixtral-8x22B-Instruct-v0.1,Mixtral 8x22B是Mistral最新的开放模型。它为人工智能社区在性能和效率方面树立了新的标准。这是一个稀疏的专家混合(SMoE)模型,在使用的1410亿参数中,只有390亿是活跃的,为其大小提供了无与伦比的成本效率。

Mixtral 8x22B 具有以下优点:
  • 它具有强大的数学和编码能力。
  • 它原生支持函数调用;
  • 它的64K令牌上下文窗口允许从大型文档中精确地回忆信息。
  • 在Apache 2.0许可下免费使用

  • 性能超越所有开放模型

效率之最
我们构建的模型为各自的规模提供了无与伦比的成本效率,提供了社区提供模型中最好的性能-成本比。Mixtral 8x22B是我们开放模型家族的自然延续。它的稀疏激活模式使其比任何密集的70B模型更快,同时比任何其他开放权重模型(在宽松或限制性许可证下分发)更有能力。基础模型的可用性使其成为微调用例的极好基础。
衡量性能(MMLU)与推理预算权衡(活跃参数数量)的指标。Mistral 7B、Mixtral 8x7B和Mixtral 8x22B都属于与其它开放模型相比高度高效的模型家族。
无与伦比的开放性能
推理和知识
Mixtral 8x22B针对推理进行了优化。
在广泛常识、推理和知识基准测试中,顶级领先的LLM开放模型的性能:MMLU(衡量大规模多任务语言理解)、HellaSwag(10-shot)、Wino Grande(5-shot)、Arc Challenge(5-shot)、Arc Challenge(25-shot)、TriviaQA(5-shot)和NaturalQS(5-shot)。
多语言能力
Mixtral 8x22B具有原生的多语言能力。在法语、德语、西班牙语和意大利语的HellaSwag、Arc Challenge和MMLU基准测试中,它的表现大大超过了LLaMA 2 70B。
Mistral开源模型与LLaMA 2 70B在法语、德语、西班牙语和意大利语的HellaSwag、Arc Challenge和MMLU的比较。
数学与编码
与其他开放模型相比,Mixtral 8x22B在编码和数学任务中表现最佳。
在领先的开放模型的流行编码和数学基准测试中的表现:HumanEval pass@1、MBPP pass@1、GSM8K maj@1(5-shot)、GSM8K maj@8(8-shot)和Math maj@4。



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ