返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

Qwen1.5-MoE模型:2.7B的激活参数量达到7B模型的性能

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 09:29 |阅读模式 打印 上一主题 下一主题

Qwen1.5-MoE模型:2.7B的激活参数量达到7B模型的性能

写在前面

今天阿里放了MOE的模型,总参数量14.3B,具有64个专家,每次激活8个,在仅激活2.7B参数情况下,效果可以与Qwen1.5-7B模型媲美,并且训练陈本降低75%,推理速度提升1.74倍。同时阿里开源了Base版本模型和Chat版本模型。

博客:https://qwenlm.github.io/zh/blog/qwen-moe/
HF:https://huggingface.co/Qwen/Qwen1.5-MoE-A2.7B
HF:https://huggingface.co/Qwen/Qwen1.5-MoE-A2.7B-Chat

注意:以下内容来自参考Qwen官方博客。

模型结构

与Mistral-MOE配置8个专家采用Top-2门控策略选择专家不同,主要进行以下改进:

  • 细粒度专家细分:将一个完整的FFN拆分成数个部分,每一部分作为一个独立的专家。
  • 模型初始化优化:利用Qwen-1.8B模型初始化Qwen1.5-MoE-A2.7B参数,并在在初始化阶段引入了随机参数,不仅加速了模型的收敛速度,还提升了预训练过程中整体性能。
  • 共享路由机制:实现共享专家与路由专家的融合,模型始终存在4个共享专家处于激活状态,并从剩余的60个路由专家中选择激活的4个专家。

实验效果

在MMLU、GSM8K、HumanEval和Multilingual榜单上评论了Qwen1.5-MoE-A2.7B模型的语言理解、数学、代码和多语言能力。在MT-Bench榜单上测试了Chat模型的能力。发现Qwen1.5-MoE-A2.7B效果可以媲美最佳的7B模型。

尽管MOE模型的总参数了较大,但实际激活参数远小于7B模型,并由于初始化方法无需过多数据进行模型训练,从而显著降低了模型75%的训练成本。

并且在A100-80G显卡上,利用vllm框架测试Qwen1.5-7B和Qwen1.5-MoE-A2.7B模型的推理性能,保持输入输出token均为1k情况下,具体TPS如下,可以发现Qwen1.5-MoE-A2.7B模型与Qwen1.5-7B模型相比,推理速度提高了约1.74倍。

模型推理

利用transformers进行Qwen1.5-MoE-A2.7B模型推理如下所示:

fromtransformersimportAutoModelForCausalLM,AutoTokenizer
device="cuda"#thedevicetoloadthemodelonto

model=AutoModelForCausalLM.from_pretrained(
"Qwen/Qwen1.5-MoE-A2.7B-Chat",
torch_dtype="auto",
device_map="auto"
)
tokenizer=AutoTokenizer.from_pretrained("Qwen/Qwen1.5-MoE-A2.7B-Chat")

prompt="Givemeashortintroductiontolargelanguagemodel."
messages=[
{"role":"system","content":"Youareahelpfulassistant."},
{"role":"user","content":prompt}
]
text=tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs=tokenizer([text],return_tensors="pt").to(device)

generated_ids=model.generate(
model_inputs.input_ids,
max_new_tokens=512
)
generated_ids=[
output_ids[len(input_ids):]forinput_ids,output_idsinzip(model_inputs.input_ids,generated_ids)
]

response=tokenizer.batch_decode(generated_ids,skip_special_tokens=True)[0]

写在最后

开源的MOE模型越来越多,最近老马的Grok-1模型是MOE,DBRX的132B模型也是MOE,今天千问也开源了MOE。

但总觉得如论MOE模型有些投机取巧的意味,狗头保命。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ