返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

4090单卡运行Deepseek r1:671B满血版

[复制链接]
链载Ai 显示全部楼层 发表于 3 小时前 |阅读模式 打印 上一主题 下一主题


需要配置

显存: 24G

内存:382G

模型文件:deepseek-r1:671b的Q4_K_M量化版

硬件配置


显卡:NVIDIAGeForce RTX 4090 24G


内存:64G * 8 DDR5 4800


cpu:Intel(R) Xeon(R) Gold 6430


环境配置


1.cuda环境,版本需要在12.4以上,

官网链接https://developer.nvidia.com/cuda-toolkit-archive:


wgethttps://developer.download.nvidia.com/compute/cuda/12.6.0/local_installers/cuda_12.6.0_560.28.03_linux.runsudoshcuda_12.6.0_560.28.03_linux.run


2.安装conda环境(可选):


wgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-py310_24.11.1-0-Linux-x86_64.shbash./Miniconda3-py310_24.11.1-0-Linux-x86_64.shcondacreate--namektransformerspython=3.11condaactivatektransformers


3.安装必要依赖:


sudoapt-getupdate&&sudoapt-getinstallgccg++cmakeninja-build


4.安装ktransformer:


##flash_attn安装pipinstallflash_attn-ihttps://mirrors.aliyun.com/pypi/simple/##ktransformer使用源码安装gitclonehttps://github.com/kvcache-ai/ktransformers.gitcdktransformers##拉取子模块代码gitsubmoduleinitgitsubmoduleupdate##运行编译脚本bashinstall.sh


下载速度过慢,修改编译脚本里(install.sh)指定为国内源:


pipinstall-rrequirements-localchat.txt-ihttps://mirrors.aliyun.com/pypi/simple/


模型下载


模型文件是deepseek-r1:671b的Q4_K_M量化版。由于模型文件过大,所以下载速度比较慢。


使用modelscope下载


官网地址:https://www.modelscope.cn/models


pipinstallmodelscopemodelscopedownload--modelunsloth/DeepSeek-R1-GGUF--local_dir/path/to/models--includeDeepSeek-R1-Q4_K_M-*--max-workers108


命令参数解释:


model:是指定魔塔社区上的模型项目


local_dir:是指定文件的下载路径(路径不存在会自动创建)


include:是指定下载文件(其中DeepSeek-R1-Q4_K_M-*是匹配所有前缀为DeepSeek-R1-Q4_K_M-的文件)


max-workers:是指定下载文件建立的连接数(一般该值设置为CPU核心数减2即可。本机CPU核心数为112,这里指定108,该值越大下载越快)。


模型运行


进入配置好的conda环境之后,执行命令


python-mktransformers.local_chat--model_pathdeepseek-ai/DeepSeek-R1--gguf_path/path/to/model--cpu_infer48--force_thinktrue--max_new_tokens128


命令参数解释:


model_path:魔搭项目路径,用于远程拉取必要的json文件


gguf_path:下载的gguf模型文件所在的路径


cpu_infer:用于推理的CPU核心数,本机的CPU核心数是64,这里设置48,cpu_infer默认值是10,10个核心数推理速度较慢,可以适当增加,但是不要超过CPU核心数减2。force_think:设置为true才能够看到模型的思考过程,否则默认是不输出模型的思考过程的。


max_new_tokens:需要生成的tokens数量


模型初次加载大约需要10分钟,模型将被载入内存的buff/cache中,如果内存不够,模型是无法被成功运行的,最终运行效果如下:

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ