简介上一篇介绍的 deepseek-free-api ,主要是提供接口服务,允许用户通过网络访问 DeepSeek 模型的能力。这意味着,尽管用户可以在本地容器中运行该 API,但实际的模型推理和处理仍依赖于远程服务器或云服务,用户在使用时需要考虑网络连接的稳定性和访问权限。 什么是 DeepSeek-R1 ? DeepSeek-R1 是 DeepSeek 的第一代推理模型,在数学、代码和推理任务中,其性能与 OpenAI-o1 相当,包括基于 Llama 和 Qwen 的六个从 DeepSeek-R1 蒸馏出的密集模型。
什么是蒸馏 ? 蒸馏技术(Distillation)是一种模型压缩和优化的方法,主要用于将一个大型、复杂的模型的知识转移到一个较小的模型中。这个过程通常被称为“知识蒸馏”(Knowledge Distillation)
 其中 671b 是教师模型(Teacher Model), 另外的 6 个蒸馏模型为学生模型(Student Model) 1.5b:全称是 DeepSeek-R1-Distill-Qwen-1.5B,蒸馏模型源自 Qwen-2.5 系列;7b:是 DeepSeek-R1-Distill-Qwen-7B,蒸馏模型源自 Qwen-2.5 系列;8b:是 DeepSeek-R1-Distill-Llama-8B,蒸馏模型源自 Llama3.1-8B-Base;14b:是 DeepSeek-R1-Distill-Qwen-14B,蒸馏模型源自 Qwen-2.5 系列;32b:是 DeepSeek-R1-Distill-Qwen-32B,蒸馏模型源自 Qwen-2.5 系列;70b:是 DeepSeek-R1-Distill-Llama-70B,蒸馏模型源自 Llama3.3-70B-Instruct;
安装ollama- 再根据机器的性能,下载对应参数的
DeepSeek-R1 模型;
| 模型版本 | 适用场景 | 内存占用 | 推理速度 |
|---|
| 1.5b | 轻量级任务 | 3GB | 15 token/s | | 7b | 常规对话 | 10GB | 8 token/s | | 70b | 复杂推理 | 48GB | 2 token/s |
需要说明的是,ollama 除了 docker 方式部署外,也支持主流操作系统(Windows、macOS 或 Linux)的二进制安装包  当然老苏还是更喜欢在 NAS 上用 docker 方式部署 文章传送门:本地大模型运行框架Ollama
#新建文件夹ollama和子目录 mkdir-p/volume1/docker/ollama/data
#进入ollama目录 cd/volume1/docker/ollama
#运行容器(仅CPU) dockerrun-d\ --restartunless-stopped\ --nameollama\ -p11434:11434\ -v$(pwd)/data:/root/.ollama\ ollama/ollama
#进入容器 dockerexec--userroot-itollama/bin/bash
#下载模型 ollamapulldeepseek-r1:1.5b
#运行模型 ollamarundeepseek-r1:1.5b
#联网会用到的文本嵌入式模型 ollamapullnomic-embed-text
 WebUI命令行方式用起来毕竟还是不太方便,虽然支持 ollama 的 WebUI 很多,而且也可以接入 One API 进行统一管理 ,但老苏觉得最佳的交互体验组合应该还是 Open WebUI 文章传送门:适配Ollama的前端界面Open WebUI
不过今天老苏不打算使用 Open WebUI,而是给大家推荐一款浏览器插件 Page Assist。 它通过插件形式直接集成到侧边栏,无需复杂配置即可一键调用本地部署的 AI 模型,让您可以从任何网页与您的模型进行交互。  相比传统 WebUI,Page Assist 具备一定的技术优势 | 特性 | 传统 WebUI | Page Assist |
|---|
| 部署复杂度 | 需独立服务部署 | 浏览器插件即装即用 | | 资源占用 | 200MB+ 内存 | <50MB 内存 | | 上下文感知能力 | 手动复制粘贴 | 自动捕获网页选区 | | 多模型切换 | 需重新加载页面 | 实时无缝切换 |
目前支持的浏览器 | 浏览器 | 侧边栏 | 与网页聊天 | 网页界面 |
|---|
| Chrome | ✅ | ✅ | ✅ | | Brave | ✅ | ✅ | ✅ | | Firefox | ✅ | ✅ | ✅ | | Vivaldi | ✅ | ✅ | ✅ | | Edge | ✅ | ❌ | ✅ | | LibreWolf | ✅ | ✅ | ✅ | | Zen Browser | ✅ | ✅ | ✅ | | Opera | ❌ | ❌ | ✅ | | Arc | ❌ | ❌ | ✅ |
运行设置在浏览器中打开插件,会看到错误信息 Unable to connect to Ollama  这是因为我们并没有在本机安装 ollama,而是安装在 NAS 上,因此不能通过 127.0.0.1 或者 localhost 进行访问。


 - 展开
Advance Ollama URL Configuration选项,并启用 Enable or Disable Custom Origin URL
 - 回到主界面,如果
Ollama URL 地址没问题,应该会看到 Ollama is running ?
 中文这一步不是必须的,只是大部分人,也包括老苏,更习惯中文的使用环境 在设置界面 --> General Settings  设置为 简体中文  聊天现在可以开始聊天了。因为机器性能的缘故,老苏用的是 1.5b 的模型  联网会需要用到文本嵌入模型  老苏使用了推荐的 nomic-embed-text  侧边栏在任意一个网页,选中 Page Assist 插件点右键菜单,启动 侧边栏  勾选 与当前页面聊天  让模型总结一下页面的内容  |