从0-1:DeepSeek 大模型本地部署全攻略

显示全部楼层

在人工智能快速发展的当下，大模型已成为推动技术进步和产业变革的关键力量。DeepSeek 大模型作为开源大模型领域的佼佼者，以其强大的性能和创新的技术，吸引了众多开发者和企业的目光。DeepSeek 大模型由量化巨头幻方量化旗下的深度求索公司研发，在数学、代码、自然语言推理等任务上表现卓越，性能可与 OpenAI o1 模型正式版相媲美。在国外大模型排名榜 Chatbot Arena 上，DeepSeek-R1 的基准测试排名已升至全类别大模型第三，与 OpenAI 的 ChatGPT-4o 最新版并列，并在风格控制类模型 (StyleCtrl) 分类中与 OpenAI 的 o1 模型并列第一。

它的训练费用相对较低，仅需 557.6 万美元，在 2048 块英伟达 H800 GPU 集群上运行 55 天即可完成训练，这一成本还不到 OpenAI GPT-4o 模型训练成本的十分之一。这使得更多的研究机构和企业能够负担得起大模型的训练和应用，降低了技术门槛，促进了人工智能技术的普及和发展。

DeepSeek 大模型采用了全新的训练方法，在训练阶段大规模使用强化学习技术，证明了直接强化学习的可行性，这在大模型的发展历程中具有里程碑意义。通过强化学习，模型能够在极少标注数据的情况下，极大地提升推理能力，实现了自我优化和能力的快速提升。

此外，DeepSeek 大模型还将训练技术全部公开，并蒸馏了 6 个小模型向社区开源，允许用户借此训练其他模型。这种开放的姿态，不仅促进了技术的共享和创新，也为全球的开发者提供了更多的研究和实践机会，推动了整个大模型领域的发展。

01

—

在什么情况下需要本地部署DeepSeek

在数据安全和隐私日益受到重视的今天，本地部署 DeepSeek 大模型具有多方面的显著优势。

从数据隐私角度来看，对于处理敏感数据的企业和个人而言，如医疗、金融等行业，数据就是生命线。本地部署使得数据存储和处理都在本地环境中进行，无需将敏感数据传输到云端，从而避免了数据在传输和存储过程中可能面临的泄露风险，切实保障了数据主权和安全，满足了严格的法规要求，如医疗行业的 HIPAA 法规、欧盟的 GDPR 等。

在成本控制方面，虽然本地部署初期需要投入一定的硬件成本，但从长期使用来看，尤其是对于数据量较大、使用频率较高的场景，能有效减少持续的云服务费用。以一些需要频繁调用大模型进行数据分析和处理的企业为例，通过本地部署，可避免按使用量付费的云服务模式带来的高额成本，降低运营成本。

本地部署还能实现高度的自定义开发。不同的企业和项目有着独特的业务需求和应用场景，通过本地部署，开发者可以根据自身特定需求对 DeepSeek 模型进行定制化训练和优化，使其更好地适配业务流程，提升模型在特定任务上的表现，为企业创造更大的价值。

此外，本地部署的 DeepSeek 还支持离线使用，在网络条件不佳或无网络的环境下，依然能够稳定运行，为用户提供服务，确保业务的连续性。

02

—

本地部署最小资源要求

在进行 DeepSeek 大模型本地部署前，了解其最小资源要求是至关重要的一步，这将帮助你判断自己的设备是否能够支持模型的运行。

硬件要求

CPU：需支持 AVX2 指令集，这是许多现代 CPU 都具备的特性。它能加速特定的数学和逻辑运算，为模型的运行提供基础支持。如果你的 CPU 不支持 AVX2 指令集，可能无法顺利部署和运行 DeepSeek 大模型。

内存：至少需要 16GB。大模型在运行过程中需要处理大量的数据和复杂的运算，充足的内存能够保证模型运行的流畅性。若内存不足，可能会导致模型运行缓慢甚至出现卡顿现象，影响使用体验。

存储：30GB 的可用存储空间是最低要求。这部分空间将用于存储 DeepSeek 模型文件、相关的依赖库以及运行过程中产生的临时数据。随着模型的更新和使用，可能需要更多的存储空间，因此建议预留一定的扩展空间。

软件要求

操作系统：DeepSeek 大模型支持 Windows、macOS 或 Linux 系统，用户可以根据自己的使用习惯和设备情况选择合适的操作系统进行部署。不同操作系统在部署过程中可能会有一些细微的差异，但整体流程大致相同。

其他依赖：如果计划使用 Open Web UI 与模型进行交互，还需要安装 Docker。Docker 是一个开源的应用容器引擎，它可以将应用程序及其依赖项打包成一个可移植的容器，使得应用程序能够在不同的环境中稳定运行，为使用 Open Web UI 提供了便利。

03

—

企业版本资源要求

对于企业级应用，DeepSeek 大模型的部署需要考虑到更高的性能、稳定性和可扩展性要求。

硬件方面

GPU：推荐使用 NVIDIA A100 或 H100 GPU，以满足大规模数据处理和复杂运算的需求。对于处理大规模文本数据和复杂业务逻辑的企业，如大型金融机构的风险评估、电商平台的智能客服等，A100 或 H100 GPU 能够提供强大的计算能力，确保模型的高效运行。在处理金融风险评估时，模型需要快速分析大量的历史数据和实时市场数据，A100 GPU 可以在短时间内完成复杂的计算任务，为企业提供及时准确的风险评估结果。

内存：建议配置 64GB 及以上的内存，以确保模型在处理大量数据时不会出现内存不足的情况。如果企业同时处理多个业务场景下的大模型任务，如医疗企业同时进行病历分析和药物研发数据处理，充足的内存可以保证各个任务的顺利进行，避免因内存不足导致任务中断或运行缓慢。

存储：考虑到企业数据量的增长和模型的更新，建议至少准备 1TB 的高速存储，如 NVMe SSD，以保障数据的快速读写，提升模型的加载和运行速度。对于拥有海量历史数据的企业，如电信运营商，1TB 的高速存储可以快速存储和读取用户的通话记录、上网数据等，为模型的训练和应用提供有力支持。

服务器：企业级部署通常需要专业的服务器，这些服务器具备更好的散热、稳定性和扩展性，能够满足长时间、高强度的运行需求。如戴尔 PowerEdge 服务器系列，通过优化的散热设计和冗余电源配置，可确保在企业复杂的 IT 环境中稳定运行，为 DeepSeek 大模型的部署提供可靠的硬件基础。

软件方面

操作系统：Linux 系统是企业级部署的首选，如 Ubuntu Server 或 CentOS，它们在稳定性、安全性和性能优化方面具有优势，能够满足企业对系统长期稳定运行的要求。在大型企业的分布式计算环境中，Ubuntu Server 系统可以方便地进行集群管理和资源调度，确保大模型在多节点服务器上高效运行。

深度学习框架：需要安装 TensorFlow 或 PyTorch 等深度学习框架，这些框架提供了丰富的工具和函数，方便企业对 DeepSeek 模型进行优化和定制化开发。例如，企业可以利用 TensorFlow 的分布式训练功能，在多台服务器上同时训练模型，加速模型的训练过程，提高开发效率。

其他依赖：还需要安装 CUDA 和 cuDNN 等相关的 GPU 加速库，以充分发挥 GPU 的性能，提升模型的运算速度。在科学研究机构进行复杂的数据分析和模型训练时，CUDA 和 cuDNN 库能够将 GPU 的并行计算能力充分利用起来，大大缩短模型训练的时间。

04

—

本地部署详细步骤

环境准备

操作系统：DeepSeek 大模型支持 Windows、macOS 和 Linux 系统，你可以根据自己的熟悉程度和设备情况进行选择。对于 Windows 用户，建议使用 Windows 10 及以上版本，以确保系统的稳定性和兼容性；macOS 用户需确保系统版本在 macOS Catalina 10.15 及以上；Linux 用户则推荐使用 Ubuntu 20.04 及以上版本。

Docker 安装：如果计划使用 Open Web UI 与模型进行交互，需要先安装 Docker。以 Windows 系统为例，首先访问 Docker 官方网站（https://www.docker.com/products/docker-desktop），点击 “Download for Windows” 按钮下载 Docker Desktop 安装程序。下载完成后，双击安装程序，按照提示完成安装。安装完成后，启动 Docker Desktop。若使用的是 Windows 10 或更高版本，建议启用 WSL 2 后端以提高性能。打开 Docker Desktop，进入 “Settings” -> “General”，勾选 “Use the WSL 2 based engine”。进入 “Resources” -> “WSL Integration”，启用 WSL 发行版。安装完成后，打开命令提示符或 PowerShell，输入 “docker --version”，若显示 Docker 版本信息，则说明安装成功。

Ollama 安装：Ollama 是一个开源工具，用于在本地轻松运行和部署大型语言模型。访问 Ollama 官网（https://ollama.com/），点击 “Download” 按钮，根据操作系统选择对应的安装包。下载完成后，直接双击安装文件并按照提示完成安装。安装完成后，在终端输入 “ollama --version”，若输出版本号（例如 ollama version is 0.5.6），则说明安装成功。

下载并部署 DeepSeek 模型

选择模型版本：Ollama 支持多种 DeepSeek 模型版本，用户可根据硬件配置选择合适的模型。1.5B 版本适合初步测试，对硬件要求较低；7B 或 8B 版本适合大多数消费级 GPU，能满足日常使用和一些轻度的应用场景；14B、32B 或 70B 版本则适合高端 GPU，适用于对模型性能要求较高的专业场景。

下载模型：打开终端，输入下载命令。例如，下载 7B 版本的命令为 “ollama run deepseek-r1:7b” 。如果需要下载其他版本，可以参考以下命令：

下载 8B 版本：ollama run deepseek-r1:8b

下载 14B 版本：ollama run deepseek-r1:14b

下载 32B 版本：ollama run deepseek-r1:32b

启动服务：在终端运行 “ollama serve” 命令启动 Ollama 服务。服务启动后，可以通过访问http://localhost:11434来与模型进行交互。

使用 Open Web UI（可选）

Open Web UI 为用户提供了一个更直观、友好的交互界面，方便与 DeepSeek 模型进行对话和操作。

安装 Docker：确保机器上已安装 Docker，具体安装步骤如前文所述。

运行 Open Web UI：在终端运行以下命令安装并启动

Open Web UI：

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart alwaysghcr.io/open-webui/open-webui:main

该命令中，“-d” 表示后台运行容器；“-p 3000:8080” 将容器的 8080 端口映射到主机的 3000 端口；“--add-host=host.docker.internal:host-gateway” 添加主机映射，使容器能够访问主机服务；“-v open-webui:/app/backend/data” 将 Open Web UI 的数据目录挂载到 Docker 卷 open-webui；“--name open-webui” 为容器命名；“--restart always” 设置容器始终自动重启；“ghcr.io/open-webui/open-webui:main” 指定使用的 Docker 镜像。

3.访问与使用：安装完成后，打开浏览器，访问http://localhost:3000，首次访问时需要创建一个账户，输入用户名和密码完成注册并登录。在 Open Web UI 界面中，进入设置页面，在 “Ollama API URL” 字段中输入http://host.docker.internal:11434，然后保存设置。找到模型选择菜单，选择 DeepSeek 模型（如 deepseek-r1:latest），即可在输入框中输入问题或指令与模型进行交互。

`部署过程中的注意事项和常见问题解决`

`注意事项`

安装路径选择：在安装 Docker 和 Ollama 时，注意选择合适的安装路径。如果是 Windows 系统，Ollama 默认安装在C盘，若C盘空间有限，建议提前配置环境变量，更改 Ollama 模型的存储路径。例如，在系统环境变量中新建变量 “OLLAMA_MODELS”，将其值设置为其他磁盘的路径，如 “D:\ollama\models” 。

权限设置：确保用户对安装目录和相关文件具有足够的读写权限。在 Linux 系统中，运行 Docker 命令时可能需要使用 sudo 权限。如果权限不足，可能会导致模型下载失败或服务无法正常启动。

网络环境：模型下载过程需要稳定的网络连接，建议在下载前检查网络状况，避免因网络波动导致下载中断或超时。若网络环境不佳，可尝试使用代理服务器或更换网络。

`常见问题解决`

模型下载超时：如果在下载模型时出现超时问题，可能是网络不稳定或服务器负载过高导致。首先，检查网络连接，确保网络正常。然后，可以尝试重新运行下载命令，如 “ollama run deepseek-r1:7b” 。若多次尝试仍无法下载，可等待一段时间后再次尝试，或者更换下载源。

服务启动失败：若 Ollama 服务启动失败，首先确认是否已正确安装 Ollama，以及相关依赖是否齐全。检查终端输出的错误信息，若提示端口被占用，可以修改 Ollama API 的侦听端口。在系统环境变量中设置 “OLLAMA_HOST” 变量，将其值设置为新的端口号，如 “:8001” 。如果是因为缺少依赖库导致服务启动失败，根据错误提示安装相应的依赖库。

显存不足：当出现显存不足的情况时，若使用的是较大规模的模型，可尝试换用较小规模的模型，如从 70B 模型切换到 7B 模型。也可以尝试使用量化技术，如 4-bit 或 8-bit 量化，降低模型对显存的需求。在运行模型时，使用 “--quantize q4_0” 等参数启用量化。还可以限制模型使用的显存，通过设置 “CUDA_VISIBLE_DEVICES” 环境变量指定使用的 GPU 设备，并通过 “OLLAMA_GPULAYERS” 变量限制使用的 GPU层数。

通过以上步骤，你已经成功地在本地部署了 DeepSeek 大模型，开启了个性化人工智能应用的大门。无论是在数据安全、成本控制还是自定义开发方面，本地部署都为你提供了更多的可能性。

DeepSeek 大模型的本地部署，不仅是技术探索的成果，更是开启了一扇通往无限可能的大门。它让我们在享受大模型强大能力的同时，拥有了对数据和应用的绝对控制权。通过本地部署，企业能够根据自身业务需求，深度定制模型，实现业务流程的优化和创新；个人开发者也能在自己的小天地里，尽情探索人工智能的奥秘，开发出独具创意的应用。

在未来，随着硬件技术的不断进步和大模型算法的持续优化，我们有理由相信，DeepSeek 大模型的本地部署将变得更加简单高效，应用场景也将更加广泛。它将在医疗、金融、教育、科研等众多领域发挥重要作用，为行业发展带来新的机遇和变革。