|
与传统的HuggingFace Transformers相比,vLLM的吞吐量高达24倍,且无需改变模型架构,它采用创新的PagedAttention算法,优化了注意力键和值的管理,从而提升了推理速度,并且其能够有效地利用多核CPU和GPU资源,显著提升LLM的推理速度。
相比于ollama,vllm输出的速度更快,支持的并发更高,目前也没有遇到安全问题,稳定性非常好,更适合作为服务器的接口服务来部署。
但相应的,vllm会把服务器的GPU显存都占满,使得机器无法再部署其他服务,同时ollama部署更加的简单,也是因为这个原因ollama在最近部署deepseek的热潮中被提到的更多一些,因此个人使用可能ollama更合适。
vLLM本地环境准备
vllm需要使用最新的0.7.3版本,支持思考过程增加<think>标签。 建议用conda新建一个环境来安装
python环境我这里使用的是python3.8,显卡为a40显卡40g显存版本。
模型权重下载
因为网络问题,建议在阿里魔塔社区下载QWQ模型。
选择好对应的版本后,使用pip安装modelscope,便可以下载选中的版本模型了:
frommodelscopeimportsnapshot_downloadmodel_dir=snapshot_download('qwen/QWQ-32B')
vLLM部署运行模型
因为之前已经配置好vLLM的环境,所以使用以下命令可以运行模型: /root/miniconda3/envs/vllm/bin/python-mvllm.entrypoints.openai.api_server--served-model-nameqwq-32b--model/root/.cache/modelscope/hub/qwen/QWQ-32B
参数解析: 模型路径:--model /root/.cache/modelscope/hub/qwen/QWQ-32B 模型名称:–served-model qwq-32b
写在最后 ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;background-color: rgb(255, 255, 255);"> 2025年的今天,AI创新已如井喷,几乎每天都有新的技术出现。作为亲历三次AI浪潮的技术人,我坚信AI不是替代人类,而是让我们从重复工作中解放出来,专注于更有创造性的事情,关注我们公众号口袋大数据,一起探索大模型落地的无限可能! |