Ollama Nginx 4090打造DeepSeek-R1-32B高可用大模型集群，助力企业拥抱AI时代

显示全部楼层

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;line-height: normal;text-align: center;background-color: rgb(255, 255, 255);visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">

今年是DeepSeek-R1系列模型深入千行百业，助力企业全面拥抱AI 变革的关键一年！

无论企业是自研应用，还是基于大模型推出AIGC 产品，都需要高效部署DeepSeek-R1。在企业级场景下，采用模型集群方案至关重要，其优势主要体现在以下几个方面：

成本效率与自主性

长期成本优化：避免云厂商API调用费用，尤其在高并发场景下边际成本更低。
数据主权保障：敏感数据无需外传，满足金融、医疗等行业的合规要求（如GDPR、HIPAA）。
定制化能力：支持模型微调（Fine-tuning）、领域适配（Domain Adaptation）及业务逻辑嵌入。
性能与可靠性

低延迟响应：本地化部署消除公网传输延迟，结合模型量化技术可实现毫秒级推理。
弹性扩展：通过Docker动态扩缩容应对流量波动，避免单点瓶颈。
高可用架构：多副本部署结合负载均衡（如Nginx/HAProxy）实现服务冗余。

技术可控性

版本迭代灵活：支持灰度发布、A/B测试，快速验证模型优化效果。
软硬件协同优化：可针对特定硬件（如NVIDIA GPU+NVLink）优化计算图与算子。

首先，我们在中间件选型时充分考虑了企业的综合成本，最终确定了以下技术组合：

DeepSeek-R1-32B（量化版） + Nginx + Ollama + 4090 GPU

为确保系统的高可用性，至少需要配置两块 4090 GPU。同时，在应用端设置限流机制，当模型负载达到上限时，系统会向用户提供友好的提示。

服务器繁忙，请稍后再试。

总体部署方案

1、选择 Ollama 的 Docker 版本，便于随时跟进 Ollama 的最新版本升级。

2、采用 Nginx 反向代理，实现模型接口的负载均衡。

3、对于 DeepSeek-R1-32B，我们推荐使用基于 Ollama 量化的版本（约 20G），主要考虑其能在单块 4090 GPU 上顺利部署，同时在能力和性能上均能满足需求。当然，如果企业经济实力充足，也可以选择原始版（约 70G），此版本启动一个模型服务需要 4 块 4090 GPU，而实现高可用则需配置 8 块 4090 GPU。

Linux下Ollama的安装

实现目标：确保每个 Ollama 的 Docker 容器独占一块 4090 GPU，并配置独立端口。保证 Docker 启动时 Ollama 服务自动启动，停止 Docker 时 Ollama 服务也随之停止。

执行以下命令创建与启动Docker：

sudodockerrun-dp8880:11434--runtime=nvidia--gpusdevice=0--nameDeepSeek-R1-1-v/model/deepseek-r1-32b:/root/.ollama/modelsollama/ollama:0.5.7

第二个Docker可以启动8881端口，选择GPU的1号卡，名字DeepSeek-R1-2，具体命令大家自己写就可以。

Nginx配置

实现目标：负载所有Ollama提供的模型接口，实现模型高可用配置。

Nginx配置如下：

upstream deepseek_r1_api {  random;  server192.168.1.10:8880;  server192.168.1.11:8881;}
server {  listen   80;  server_name _;  charset utf-8;  access_log /nginx/deepseek_llm.logmain;
  location / {    proxy_pass http://deepseek_r1_api;  }}

请求URL示例：

http://ip:80/api/generate

请求cURL示例：

curl--location--requestPOST'http://ip:80/api/generate'\--header'Content-Type:application/json'\--data-raw'{"model":"deepseek-r1:32b","prompt":"你能做些什么？","stream":true}'

Open WebUI远程验证

下载与安装

地址：https://github.com/open-webui/open-webui

找到“If Ollama is on your computer, use this command:”提示语，并复制命令。

注：我们采用Docker环境部署，本地环境请自行安装。

将复制的命令，在一个新的命令提示符窗口下打开。

安装完成后可以在Docker列表中看到Open WebUI的条目。

2、Open WebUI+DeepSeek-R1

Open WebUI地址：http://localhost:3000

拷贝地址在浏览器中打开，或是点击Docker Open WebUI条目中红框圈住的部分。

打开后的Open WebUI界面如下：

点击“开始使用”，完成管理员账号的创建，配置远程模型，就可以进入聊天界面。

选择“管理员面板”-“外部连接”-“Ollama API”，添加外部地址。

写在最后

通过上述架构设计，企业可构建高可用、低成本的私有化模型服务，同时为后续模型迭代奠定技术基础。

最后让它再为我写一首诗！

我的提示词：

用李白的诗体，写一首诗，随便写点啥主题。