用一张12GB 显存的显卡本地部署 DeepSeek-OCR

显示全部楼层

运行环境配置

NVIDIA GeForce RTX 3080 Ti（12G）
Ubuntu 20.04 + CUDA 11.8 + PyTorch 2.6.0

这种配置在许多开发者手中都很常见，无需专业服务器即可上手。

源码安装步骤

1. 克隆仓库：

git clone https://github.com/DeepSeek-ai/DeepSeek-OCR.git

2. 创建并激活虚拟环境：

conda create -n deepseek-ocr python=3.12.9 -y

conda activate deepseek-ocr

3. 安装 vLLM（指定版本 0.8.5）：
从GitHub Releases下载对应轮子文件：

https://github.com/vllm-project/vllm/releases/tag/v0.8.5

pip install vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl

4. 安装依赖：

pip install -r requirements.txt

pip install flash-attn==2.7.3 --no-build-isolation -v

模型下载

官方模型地址：
https://huggingface.co/deepseek-ai/DeepSeek-OCR/tree/main

国内用户可加速下载：
https://modelscope.cn/models/deepseek-ai/DeepSeek-OCR/files

使用 vLLM 进行推理

进入 vLLM 推理目录：

cd DeepSeek-OCR/DeepSeek-OCR-vllm

编辑配置文件`config.py｀：

对于12GB 显存的显卡，必须将 `IMG_SIZE` 设置为 512（最小值），否则容易出现显存溢出问题。

启动推理脚本：
python run_dpsk_ocr_pdf.py

运行过程中，显存占用保持在合理范围内，能平稳处理任务。

实际解析效果展示

包含主标题、副标题和正文文本的文档：

模型准确识别了层级标题和段落结构，输出清晰有序。

带有图片、图片说明、副标题和文本的复杂页面：

DeepSeek-OCR 成功区分了图像区域、捕获了图片下方说明文字，并完整提取了周围正文。

从这些测试看，即使在有限算力下，模型对多元素 PDF 的版面理解能力表现出色，标题、文本、图像、表格等要素都能被精准分离和识别。