4090单卡运行Deepseek r1:671B满血版

显示全部楼层

需要配置

显存： 24G

内存：382G

模型文件：deepseek-r1:671b的Q4_K_M量化版

硬件配置

显卡：NVIDIAGeForce RTX 4090 24G

内存：64G * 8 DDR5 4800

cpu：Intel(R) Xeon(R) Gold 6430

环境配置

1.cuda环境，版本需要在12.4以上，

官网链接https://developer.nvidia.com/cuda-toolkit-archive：

wgethttps://developer.download.nvidia.com/compute/cuda/12.6.0/local_installers/cuda_12.6.0_560.28.03_linux.runsudoshcuda_12.6.0_560.28.03_linux.run

2.安装conda环境（可选）：

wgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-py310_24.11.1-0-Linux-x86_64.shbash./Miniconda3-py310_24.11.1-0-Linux-x86_64.shcondacreate--namektransformerspython=3.11condaactivatektransformers

3.安装必要依赖：

sudoapt-getupdate&&sudoapt-getinstallgccg++cmakeninja-build

4.安装ktransformer:

##flash_attn安装pipinstallflash_attn-ihttps://mirrors.aliyun.com/pypi/simple/##ktransformer使用源码安装gitclonehttps://github.com/kvcache-ai/ktransformers.gitcdktransformers##拉取子模块代码gitsubmoduleinitgitsubmoduleupdate##运行编译脚本bashinstall.sh

下载速度过慢，修改编译脚本里（install.sh）指定为国内源：

pipinstall-rrequirements-localchat.txt-ihttps://mirrors.aliyun.com/pypi/simple/

模型下载

模型文件是deepseek-r1:671b的Q4_K_M量化版。由于模型文件过大，所以下载速度比较慢。

使用modelscope下载

官网地址：https://www.modelscope.cn/models

pipinstallmodelscopemodelscopedownload--modelunsloth/DeepSeek-R1-GGUF--local_dir/path/to/models--includeDeepSeek-R1-Q4_K_M-*--max-workers108

命令参数解释：

model：是指定魔塔社区上的模型项目

local_dir：是指定文件的下载路径（路径不存在会自动创建）

include：是指定下载文件（其中DeepSeek-R1-Q4_K_M-*是匹配所有前缀为DeepSeek-R1-Q4_K_M-的文件）

max-workers：是指定下载文件建立的连接数（一般该值设置为CPU核心数减2即可。本机CPU核心数为112，这里指定108，该值越大下载越快）。

模型运行

进入配置好的conda环境之后，执行命令

python-mktransformers.local_chat--model_pathdeepseek-ai/DeepSeek-R1--gguf_path/path/to/model--cpu_infer48--force_thinktrue--max_new_tokens128

命令参数解释：

model_path：魔搭项目路径，用于远程拉取必要的json文件

gguf_path：下载的gguf模型文件所在的路径

cpu_infer：用于推理的CPU核心数，本机的CPU核心数是64，这里设置48，cpu_infer默认值是10，10个核心数推理速度较慢，可以适当增加，但是不要超过CPU核心数减2。force_think：设置为true才能够看到模型的思考过程，否则默认是不输出模型的思考过程的。

max_new_tokens：需要生成的tokens数量

模型初次加载大约需要10分钟，模型将被载入内存的buff/cache中，如果内存不够，模型是无法被成功运行的，最终运行效果如下：