返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

用一张12GB 显存的显卡本地部署 DeepSeek-OCR

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 17:13 |阅读模式 打印 上一主题 下一主题

运行环境配置


NVIDIA GeForce RTX 3080 Ti(12G)
Ubuntu 20.04 + CUDA 11.8 + PyTorch 2.6.0


这种配置在许多开发者手中都很常见,无需专业服务器即可上手。

源码安装步骤


1. 克隆仓库:

git clone https://github.com/DeepSeek-ai/DeepSeek-OCR.git


2. 创建并激活虚拟环境:

conda create -n deepseek-ocr python=3.12.9 -y

conda activate deepseek-ocr


3. 安装 vLLM(指定版本 0.8.5):
从GitHub Releases下载对应轮子文件:

https://github.com/vllm-project/vllm/releases/tag/v0.8.5

pip install vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl


4. 安装依赖:

pip install -r requirements.txt

pip install flash-attn==2.7.3 --no-build-isolation -v


模型下载

官方模型地址:
https://huggingface.co/deepseek-ai/DeepSeek-OCR/tree/main

国内用户可加速下载:
https://modelscope.cn/models/deepseek-ai/DeepSeek-OCR/files

使用 vLLM 进行推理

进入 vLLM 推理目录:

cd DeepSeek-OCR/DeepSeek-OCR-vllm


编辑配置文件`config.py`:

对于12GB 显存的显卡,必须将 `IMG_SIZE` 设置为 512(最小值),否则容易出现显存溢出问题。

启动推理脚本:
python run_dpsk_ocr_pdf.py


运行过程中,显存占用保持在合理范围内,能平稳处理任务。

实际解析效果展示


包含主标题、副标题和正文文本的文档:

模型准确识别了层级标题和段落结构,输出清晰有序。

带有图片、图片说明、副标题和文本的复杂页面:

DeepSeek-OCR 成功区分了图像区域、捕获了图片下方说明文字,并完整提取了周围正文。

从这些测试看,即使在有限算力下,模型对多元素 PDF 的版面理解能力表现出色,标题、文本、图像、表格等要素都能被精准分离和识别。


相关资源


官方仓库:

https://github.com/deepseek-ai/DeepSeek-OCR

一个便捷的 Docker 化 API 封装项目:

https://github.com/Bogdanovich77/DeekSeek-OCR---Dockerized-API


总结


通过亲身实践,DeepSeek-OCR 在消费级硬件上的表现超出了预期。它能在较低资源投入下,提供全面而准确的 PDF 版面解析能力,非常适合日常文档处理、数据提取等场景。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ