返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

内网服务器离线安装部署 DeepSeek

[复制链接]
链载Ai 显示全部楼层 发表于 前天 17:32 |阅读模式 打印 上一主题 下一主题

安装 Ollama

Ollama 官网:https://ollama.com/

1. 安装

curl -fsSL https://ollama.com/install.sh | sh

二进制文件安装:使用 curl 命令下载或者直接在 Github 上下载二进制文件

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz
sudo tar -C /usr -xzf ollama-linux-amd64.tgz

2. 服务配置

2.1 启动服务

ollama serve

打开另外一个终端,验证 ollama 运行状态。

ollama -v

2.2 设置开机自启动服务

创建服务文件/etc/systemd/system/ollama.service

[Unit]
Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="ATH=$PATH"

[Install]
WantedBy=default.target

服务文件解释:

  • Description=Ollama Service描述服务的名称和用途,表明这是一个用于运行 Ollama 应用的服务。
  • After=network-online.target指定服务应在系统网络完全就绪(即network-online.target达成)之后启动。确保服务依赖的网络功能可用。
  • ExecStart=/usr/bin/ollama serve定义启动服务时执行的命令:运行/usr/bin/ollama程序的serve子命令(通常用于启动服务端)。
  • User=ollamaGroup=ollama服务以ollama用户和组的身份运行,避免使用 root 权限,提高安全性。需确保系统中已存在该用户和组,否则服务会启动失败。
  • Restart=always服务无论因何原因退出(包括正常退出、异常崩溃、被杀死等),都会自动重启。
  • RestartSec=3重启前等待 3 秒,防止频繁崩溃导致系统负载过高。
  • Environment="ATH=$PATH"显式设置环境变量PATH,继承当前 systemd 环境中的PATH值,确保服务能找到所需命令路径。需注意实际环境可能与 Shell 中的PATH不同。
  • WantedBy=default.target当通过systemctl enable启用服务时,该服务会关联到default.target(系统默认启动目标,通常是图形界面或多用户模式)。系统启动时,服务会自动运行。

2.3 启动服务并设置开机自启动

sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama // 启动 ollama
sudo systemctl status ollama // 查看 ollama 状态

2.4 自定义安装,配置环境变量

编译配置文件shell

sudo systemctl edit ollama

也可以手动创建/etc/systemd/system/ollama.service.d/override.conf添加配置

[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_MODELS=/home/xxxx/.ollama/models"
Environment="OLLAMA_KEEP_ALIVE=-1"

常见环境变量

环境变量
说明
OLLAMA_DEBUG
显示额外的调试信息(例如OLLAMA_DEBUG=1
OLLAMA_HOST
指定 Ollama 服务器的 IP 地址(默认127.0.0.1:11434
OLLAMA_KEEP_ALIVE
模型在内存中保持加载状态的持续时间(默认"5m"
OLLAMA_MAX_LOADED_MODELS
每个 GPU 最大允许加载的模型数量
OLLAMA_MAX_QUEUE
最大队列请求数
OLLAMA_MODELS
模型存储目录的路径
OLLAMA_NUM_PARALLEL
最大并行请求数
OLLAMA_NOPRUNE
启动时不清理模型缓存
OLLAMA_ORIGINS
允许的跨域来源列表(逗号分隔)
OLLAMA_SCHED_SPREAD
始终在所有 GPU 上调度模型
OLLAMA_FLASH_ATTENTION
启用 Flash Attention 加速
OLLAMA_KV_CACHE_TYPE
K/V 缓存的量化类型(默认f16
OLLAMA_LLM_LIBRARY
手动指定 LLM 库以绕过自动检测
OLLAMA_GPU_OVERHEAD
为每个 GPU 预留的显存空间(单位:字节)
OLLAMA_LOAD_TIMEOUT
模型加载超时时间(默认"5m"

2.5 ollama 命令

ollama serve #启动 ollama 
ollama create #从模型文件创建模型
ollama show #显示模型信息
ollama run #运行模型
ollama pull #拉取模型
ollama push #推送模型
ollama list #列出模型
ollama cp #复制模型
ollama rm #删除模型
ollamahelp #获取有关任何命令的帮助信息

2.6 查看日志

journalctl -e -u ollama

2.7 卸载

停止并删除 ollama 服务

sudo systemctl stop ollama
sudo systemctl disable ollama
sudo rm /etc/systemd/system/ollama.service

移除 ollama 二进制文件 (either/usr/local/bin,/usr/bin, or/bin):

sudo rm $(which ollama)

删除模型和用户、用户组

sudo rm -r /usr/share/ollama
sudo userdel ollama # 若为 ollama 专门添加了用户
sudo groupdel ollama # 若为 ollama 专门添加了用户组

安装 DeepSeek-R1

1. 在线安装

ollama run deepseek-r1

2. 离线安装

使用一台联网的电脑执行ollama run deepseek-r1:1.5b指令,下载完成后找到模型所在位置。下载过程若出现速度慢的情况,可以结束指令后重新执行,会自动断点续传,这一步操作主要是方便找到更快的下载链接。

默认存放位置:

Windows
C:\Users%username%\.ollama\models
MacOS
~/.ollama/models
Linux
/usr/share/ollama/.ollama/model 或 /home/%username%/.ollama/model

也可以尝试搜索拉取模型时产生的哈希字符,以便找到模型位置。

2.1 保存 gguf 文件和 Modelfile

按照时间排序,找到最大的那个文件,就是gguf格式的模型,复制出来,改名为deepseek-r1-1.5b-local.gguf

执行命令ollama show deepseek-r1:1.5b --modelfile > Modelfile得到模型对应的Modelfile文件并保存。关键的两个文件已获取:

  • deepseek-r1-1.5b-local.gguf

  • Modelfile

2.2 内网部署模型

上传gguf文件和Modelfile文件至已安装 ollama 服务的内网服务器。修改Modelfile第五行的FROM,将模型路径修改为模型的真实路径,例如这里是./deepseek-r1-1.5b-local.gguf

ollama create deepseek-r1-1.5b-local -f Modelfile

导入成功后,接下来的使用和外网一模一样,输入ollama list命令可以看到导入的模型。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ