vLLM部署QwQ-32B（GPU版）

显示全部楼层

按官网要求，在部署vLLM之前首先要保证Python的版本在3.12及以上，gcc版本在12以上，并且一般需要安装Anaconda，用于做Python环境隔离，上述过程不再赘述。

一、vLLM安装部署

查看GPU显存
nvidia-smi

创建一个独立的虚拟环境并激活

安装vLLM

二、QwQ-32B模型下载

从魔塔社区下载模型https://modelscope.cn/models/Qwen/QwQ-32B/files

安装modelscope

下载完整模型库

耐心等待吧，我这边下载了两三个小时才下载完sudo modelscope download --model Qwen/QwQ-32B --local_dir /home/data-local/qwq-32b

三、模型运行

接下来就是见证奇迹的时刻了~~~~~

完了，报错了

执行UDA_VISIBLE_DEVICES=0 vllm serve --model /home/data-local/qwq-32b --served-model-name QWQ-32B --port 8000 报错

改为CUDA_VISIBLE_DEVICES=0 vllm serve /home/data-local/qwq-32b --served-model-name QWQ-32B --port 8000

这次可以了

接下来试试跑一下别的模型

CUDA_VISIBLE_DEVICES=0 vllm serve /home/data-local/DeepSeek-R1-Distill-Qwen-7B --served-model-name Qwen-7B --port 8000

四、测试连接

API接口测试

curl http://localhost:8000/v1/completions -H "Content-Type: application/json" -d '{ "model": "QWQ-32B", "prompt": "你好", "max_tokens": 100}'

通过OpenAI兼容的API调用

fromopenaiimportOpenAI#初始化客户端（添加api_key参数）client=OpenAI(base_url="http://172.19.66.132:8000/v1",api_key="dummy"#虚拟密钥‌:ml-citation{ref="1"data="citationList"})#调用模型生成文本response=client.completions.create(model="Qwen-1.5B",prompt="如何部署大语言模型？",max_tokens=200)#正确输出字段为response.choices.textprint(response.choices[0].text)