返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

腾讯云究极薅羊毛部署最近爆火的DeepSeek

[复制链接]
链载Ai 显示全部楼层 发表于 7 小时前 |阅读模式 打印 上一主题 下一主题

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;display: table;padding: 0.5em 1em;color: rgb(63, 63, 63);text-shadow: rgba(0, 0, 0, 0.1) 2px 2px 4px;">

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">如果你还在看如何用ollama在本地部署DeepSeek这样的入门级文章,那是时候来看看高级一点的玩法了!

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">ollama确实很适合新手小白,但是如果你看到的文章标题号称“企业级”还在教你下载ollama,那你可以直接拉黑那个文章作者了,确信无疑是在误人子弟和蹭热点。不会有哪个“企业”真的用ollama在生产环境部署大模型服务。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">好了,进入正题!

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">既然是薅羊毛,就得找到这只羊,这次,我们选腾讯云。腾讯云最近推出的Cloud Studio 高性能计算空间,每个月可以用10000分钟。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">“夺少??”

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">“一万分钟!!”

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">系统还提供了一大堆常用的框架模板可供选择。


这里,也有ollama,你肯定也看到过一些介绍Cloud Studio的文章,教你用这里的ollama模板来部署,当然这也能用。

但是如果只到这一步,还完全没有达到薅羊毛的目的。大部分人是不可能用完这1万分钟的,或者,真的有大量需求的时候,ollama的推理速度慢导致的1万分钟都不够用。没有达到我们羊毛党的高标准高要求。

这时候,如果你再点一下“新建”按钮会发现,还可以创建一个空间。

这时候就有一个大胆的idea出现了!


一个空间是16GB的显存,那两个空间岂不是32GB了!

能否让两个空间一起运行,但是对外就提供一个接口来使用,这样对于使用者客户端来说,就是同一个服务,不需要在客户端做路由选择,也不需要在服务端增加负载均衡。

这时候就要使用真正企业级的推理框架了,本次我们选择vllm,最新版的vllm已经更新到0.7.1了,对DeepSeek也有了更好的支持。

不管使用的是哪个模板 ,都具备较为完整的CUDA环境和python环境,我们要做的就很简单,一条安装vllm的命令即可

pip3installvllm"ray[serve]"requests

当然,启动的两个空间都做相同的操作,包括下载的模型位置也要一样。至于怎么下载模型,我相信你已经在海量的蹭热度的文章里学会了。

至此,准备环境结束,接下来要做的是让他们都运行起来!

因为有两台机器,我们把其中一台定为header,另一台定为worker。随便选一台,可以抛硬币来决定。

在head机器上运行

raystart--head

在另一台机器上运行,这里的10.x.x.x的IP地址,是head的IP地址,没有外网地址,是内网地址

raystart--address='10.x.x.x:6379'--num-gpus=1

这时候在head机器上运行命令查看ray集群状态

raystatus

应该可以看到两个节点了。也能从dashboard页面看到信息。


接下来就可以在head机器上启动DeepSeek模型了!激动人心的时刻到了!

vllmservedeepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B--distributed-executor-backendray

指定vllm使用的分布式后端是ray,不是默认的python。

这时候从ray的dashboard页面,就可以看到两个节点都有任务启动了。


调用一下大模型的chat接口试试看,同时观察dashboard上GPU的占用率情况。大功告成!

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ