链载Ai

标题: DeepSeek发布全球最强开源MoE模型 [打印本页]

作者: 链载Ai    时间: 9 小时前
标题: DeepSeek发布全球最强开源MoE模型

继今年1月份开源国内首个MoE模型后,历时4个月钻研,今天我们开源第二代MoE模型:DeepSeek-V2!

一句话总结DeepSeek-V2:参数更多、能力更强、成本更低


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);letter-spacing: 0.544px;visibility: visible;">媲美GPT4能力
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);letter-spacing: 0.544px;visibility: visible;">

在目前大模型主流榜单中,DeepSeek-V2均表现出色:

各大模型API或Chat版本效果对比
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);letter-spacing: 0.544px;visibility: visible;">
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);letter-spacing: 0.544px;visibility: visible;">全新的模型结构

DeepSeek-V2没有沿用主流的“类LLaMA的Dense结构”和“类Mistral的Sparse结构”,而是对模型框架进行了全方位的创新,提出了媲美MHA的MLA(Multi-head Latent Attention)架构,大幅减少计算量和推理显存;自研Sparse结构DeepSeekMoE进一步将计算量降低到极致,两者结合最终实现模型性能跨级别的提升。(详情查看论文和开源代码)

不严谨估计,DeepSeek-V2以236B总参数、21B激活,大致达到70B~110B Dense的模型能力,同时消耗的显存(KV Cache)只有同级别Dense模型的1/5~1/100,每token成本大幅降低。实际部署在8卡H800机器上,输入吞吐量超过每秒10万tokens,输出超过每秒5万tokens。

DeepSeek-V2 API的定价为:每百万tokens输入1元、输出2元(32K上下文),价格仅为GPT-4-Turbo的近百分之一欢迎使用。

各大模型API价格对比

就中文能力来看,DeepSeek-V2在全球模型中处于第一档的位置,但其成本却是最低的(下图)。

横轴为每百万输入/输出Tokens平均单价


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 18px;letter-spacing: 0.544px;outline: 0px;visibility: visible;">模型&论文双开源

深度求索始终秉持着最开放的开源精神,以开源推动人类AGI事业的前行。这次的DeepSeek-V2模型和论文也将完全开源,免费商用,无需申请:

模型权重:

https://huggingface.co/deepseek-ai

技术报告:

https://github.com/deepseek-ai/DeepSeek-V2/blob/main/deepseek-v2-tech-report.pdf


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 18px;letter-spacing: 0.544px;outline: 0px;visibility: visible;">对话官网、开放平台均上新

登录chat.deepseek.com,免费开启对话。

DeepSeek API开放平台已正式运营。即日起,访问platform.deepseek.com,注册即赠送 1000万输入/500万输出Tokens,可按需充值。优质项目请公众号后台与我们联系,免费获赠更多额度。


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 18px;letter-spacing: 0.544px;outline: 0px;visibility: visible;">关于DeepSeek

DeepSeek是一家探索通用人工智能(AGI)本质的公司,并致力于将研究、工程和商业三者融为一体。

我们坚信,创新力和好奇心是通往AGI之路的核心要素。这是一场智慧与激情的征程,我们将无畏前行,开拓未知,为实现AGI的终极梦想而不懈努力!


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);text-align: center;line-height: 1.5em;">—end—






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5