返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

华为MindIE初体验:Qwen1.5-14B-Chat模型40并发推理实测

[复制链接]
链载Ai 显示全部楼层 发表于 半小时前 |阅读模式 打印 上一主题 下一主题

最近发现华为NPU的生态里多了一个成员——MindIE,部分解决了大模型推理的问题,下面简要介绍下Mind华为昇腾NPU卡的生态。

TL;DR

  1. 华为NPU生态新增了MindIE,部分解决了大模型推理问题
  2. 华为昇腾NPU与英伟达GPU生态层级对比:
  • CANN 对应 CUDA
  • MindSpore 对应 PyTorch
  • MindFormer 对应 Transformers
  • MindIE 对应 vLLM
  • MindIE目前支持的模型有限,包括:
    • LLaMA 3-8B, LLaMA 2-7B
    • Qwen 1.5-14B-Chat, Qwen 1.5-72B-Chat
    • ChatGLM3-6B
    • 未列出的模型大概率不支持
  • MindIE推理性能测试(使用910B4卡):
    • 并发数: 40
    • 首token平均延迟: 66毫秒
    • 每秒生成token数: 约1200
    • 单请求每秒生成token数: 约30
    • 模型: Qwen 1.5-14B-Chat
    • 硬件: 4卡910B4
    • 测试条件:
    • 测试结论
  • 测试结果显示,MindIE的推理性能基本可以满足生产环境需求
  • 基本概念

    首先,在英伟达的生态中,有从底层到上层分别有CUDA、PyTorch、transformers、vLLM等常见库。对应的,在华为的生态中,分别有CANN、MindSpore、MindFormer、MindIE。具体对应关系见下图:

    关于MindSpore、MindIE的详细介绍,分别见下面的图与链接:

    MindSpore——https://www.mindspore.cn/

    MindIE——https://www.hiascend.com/software/mindie

    MindIE目前支持的模型们

    在华鲲振宇AI最优解/ Ascend-FAQ的gitee[1]页面上,介绍了MindIE目前支持的模型,包含了llama3-8B、llama2-7B、Qwen1.5-14B-Chat、Qwen1.5-72B-Chat、chatglm3-6B等模型。

    目前看支持的大模型很少,而且页面上没有写的大概率不支持(比如Qwen1.5-32B-Chat以及Qwen2系列实测均不支持)。

    MindIE推理效果

    虽然支持的模型不多,但是,得益于910B系列卡的强劲算力,配合MindIE框架做了下并发推理测试,具体结果如下:

    可以看到4卡910B4,跑Qwen1.5-14B-Chat模型,在40并发的情况下首token平均延迟为66毫秒每秒token生成数在1200左右单个请求每秒生成token数约为30个,基本可以满足生产环境的需求

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ