腾讯云究极薅羊毛部署最近爆火的DeepSeek

显示全部楼层

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;display: table;padding: 0.5em 1em;color: rgb(63, 63, 63);text-shadow: rgba(0, 0, 0, 0.1) 2px 2px 4px;">

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">如果你还在看如何用ollama在本地部署DeepSeek这样的入门级文章，那是时候来看看高级一点的玩法了！

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">ollama确实很适合新手小白，但是如果你看到的文章标题号称“企业级”还在教你下载ollama，那你可以直接拉黑那个文章作者了，确信无疑是在误人子弟和蹭热点。不会有哪个“企业”真的用ollama在生产环境部署大模型服务。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">好了，进入正题！

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">既然是薅羊毛，就得找到这只羊，这次，我们选腾讯云。腾讯云最近推出的Cloud Studio 高性能计算空间，每个月可以用10000分钟。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">“夺少？？”

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">“一万分钟！！”

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">系统还提供了一大堆常用的框架模板可供选择。

这里，也有ollama，你肯定也看到过一些介绍Cloud Studio的文章，教你用这里的ollama模板来部署，当然这也能用。

但是如果只到这一步，还完全没有达到薅羊毛的目的。大部分人是不可能用完这1万分钟的，或者，真的有大量需求的时候，ollama的推理速度慢导致的1万分钟都不够用。没有达到我们羊毛党的高标准高要求。

这时候，如果你再点一下“新建”按钮会发现，还可以创建一个空间。

这时候就有一个大胆的idea出现了！

一个空间是16GB的显存，那两个空间岂不是32GB了！

能否让两个空间一起运行，但是对外就提供一个接口来使用，这样对于使用者客户端来说，就是同一个服务，不需要在客户端做路由选择，也不需要在服务端增加负载均衡。

这时候就要使用真正企业级的推理框架了，本次我们选择vllm，最新版的vllm已经更新到0.7.1了，对DeepSeek也有了更好的支持。

不管使用的是哪个模板，都具备较为完整的CUDA环境和python环境，我们要做的就很简单，一条安装vllm的命令即可

pip3installvllm"ray[serve]"requests

当然，启动的两个空间都做相同的操作，包括下载的模型位置也要一样。至于怎么下载模型，我相信你已经在海量的蹭热度的文章里学会了。

至此，准备环境结束，接下来要做的是让他们都运行起来！

因为有两台机器，我们把其中一台定为header，另一台定为worker。随便选一台，可以抛硬币来决定。

在head机器上运行

raystart--head

在另一台机器上运行，这里的10.x.x.x的IP地址，是head的IP地址，没有外网地址，是内网地址

raystart--address='10.x.x.x:6379'--num-gpus=1

这时候在head机器上运行命令查看ray集群状态

raystatus

应该可以看到两个节点了。也能从dashboard页面看到信息。

接下来就可以在head机器上启动DeepSeek模型了！激动人心的时刻到了！

vllmservedeepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B--distributed-executor-backendray

指定vllm使用的分布式后端是ray，不是默认的python。

这时候从ray的dashboard页面，就可以看到两个节点都有任务启动了。

调用一下大模型的chat接口试试看，同时观察dashboard上GPU的占用率情况。大功告成！