链载Ai

标题: 为什么vLLM做不到?解密Ollama越级部署黑科技:以DeepSeek-R1-8B为例 [打印本页]

作者: 链载Ai    时间: 前天 17:27
标题: 为什么vLLM做不到?解密Ollama越级部署黑科技:以DeepSeek-R1-8B为例

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">最近在折腾双4090GPU,近200g内存服务器vllm部署70b的实验。使用ragflow知识库。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">按照我之前使用ollama的理解,我觉的部署70b应该没啥问题,然后一个个的坑。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">先说下

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">越折腾疑问越多,然后我就了解下了一些知识点,有了这篇水文。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">我们以RTX3060 12G显存为例拆解下。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;display: table;padding: 0.3em 1em;color: rgb(255, 255, 255);background: rgb(250, 81, 81);border-radius: 8px;box-shadow: rgba(0, 0, 0, 0.1) 0px 4px 6px;">DeepSeek-R1-8B的显存解剖

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding-left: 12px;color: rgb(63, 63, 63);">原始显存需求

Ollama的“瘦身魔法

最疯狂的是,我一个前同事用ollama,在macbook air 8g内存上部署了70b的模型。

vLLM的“显存洁癖"

Ollama越级部署的三大核心技术

混合精度量化(灵活度碾压vLLM)

量化方案
显存占用
PPL(困惑度)
Ollama混合精度
6.2 GB
7.1
vLLM官方INT8量化
10.5 GB
6.9

内存-CPU分级存储(vLLM的禁区)

自适应序列切片

vLLM为何“宁死不做越级部署”?

设计目标的根本冲突

量化支持的局限性

硬件兼容性差异

实战测试——RTX 3060上的生死对决

测试环境

结果对比

框架显存占用生成速度可用性
vLLM
报错退出
-
完全不可用
Ollama
6.2/12 GB
22 tokens/s
流畅运行
原版Hugging Face
17.1/12 GB
报错退出
不可用

关键结论

开发者选型指南

选Ollama的场景

选vLLM的场景

终极避坑建议


结语:没有神话,只有取舍

Ollama的“越级”本质是技术民主化——让更多人用上大模型,哪怕牺牲速度;vLLM的“高冷”则是商业现实的抉择。未来二者的融合或许会出现(如vLLM引入动态卸载),但在此之前,开发者仍需认清需求,选择最适合的战场。

相关术语

内存(RAM)与显存(VRAM)

Ollama显存优化的本质:CPU-GPU异构内存交换

当Ollama声称“将部分权重转存至CPU内存”时,其技术本质是:
将GPU显存中暂时不用的权重数据,通过PCIe总线转移到系统内存(RAM),并在需要时动态加载回显存
这一过程涉及以下核心技术:

(1)内存分级策略(Memory Tiering)

(2)预取与缓存(Prefetching & Caching)

(3)硬件加速传输






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5