返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

vLLM部署QwQ-32B(GPU版)

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 18:03 |阅读模式 打印 上一主题 下一主题
按官网要求,在部署vLLM之前首先要保证Python的版本在3.12及以上,gcc版本在12以上,并且一般需要安装Anaconda,用于做Python环境隔离,上述过程不再赘述。
一、vLLM安装部署
  • 查看GPU显存

    nvidia-smi

  • 创建一个独立的虚拟环境并激活
  • 安装vLLM
二、QwQ-32B模型下载
从魔塔社区下载模型https://modelscope.cn/models/Qwen/QwQ-32B/files
  • 安装modelscope
  • 下载完整模型库
耐心等待吧,我这边下载了两三个小时才下载完sudo modelscope download --model Qwen/QwQ-32B --local_dir /home/data-local/qwq-32b

三、模型运行
接下来就是见证奇迹的时刻了~~~~~
完了,报错了
执行UDA_VISIBLE_DEVICES=0 vllm serve --model /home/data-local/qwq-32b --served-model-name QWQ-32B --port 8000 报错
改为CUDA_VISIBLE_DEVICES=0 vllm serve /home/data-local/qwq-32b --served-model-name QWQ-32B --port 8000
这次可以了

接下来试试跑一下别的模型
CUDA_VISIBLE_DEVICES=0 vllm serve /home/data-local/DeepSeek-R1-Distill-Qwen-7B --served-model-name Qwen-7B --port 8000
四、测试连接
  • API接口测试
curl http://localhost:8000/v1/completions -H "Content-Type: application/json" -d '{ "model": "QWQ-32B", "prompt": "你好", "max_tokens": 100}'
  • 通过OpenAI兼容的API调用
fromopenaiimportOpenAI#初始化客户端(添加api_key参数)client=OpenAI(base_url="http://172.19.66.132:8000/v1",api_key="dummy"#虚拟密钥‌:ml-citation{ref="1"data="citationList"})#调用模型生成文本response=client.completions.create(model="Qwen-1.5B",prompt="如何部署大语言模型?",max_tokens=200)#正确输出字段为response.choices.textprint(response.choices[0].text)

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ