链载Ai

标题: 人工智能——使用Ollama部署本地大模型 [打印本页]

作者: 链载Ai 时间: 昨天 11:37
标题: 人工智能——使用Ollama部署本地大模型

1、简介

在如今的 AI 应用领域中，大模型（LLM，Large Language Models）已然成为推动前沿技术发展的关键力量。其中的 Top1 当属 OpenAI 的 GPT 系列无疑，它通过大规模的数据训练、可以执行高质量的语言处理任务，如聊天问答、文本生成、翻译等。

去年，ChatGPT 引入了定制个人知识库的支持，该功能采用了检索增强（RAG，Retrieval-Augmented Generation）技术，它使得模型能够在生成回答前、先从知识库中检索相关信息，显著提高了输出的准确性和信息量。然而，由于网络环境、隐私和政策等原因，导致线上知识库在使用时面临诸多限制，这促使更多人开始寻求部署自己的本地大模型和知识库。不过，当下各种大模型野蛮生长，没有统一的管理标准，虽然开源免费的很多、但部署到本地的门槛也不低。直到 Ollama 的出现 …

Ollama 是一个大模型的管理框架，其作用类似于 Docker：如果将每一个标准化的大模型视为“镜像”，那么 Ollama 就能够通过一行命令快速拉取并运行这些大模型。然而，Ollama 本身是基于命令行的服务，所以为了方便我们对大模型进行微调和使用，还需要引入 maxkb 。maxkb 提供了一个 ChatBot 界面，它会把我们输入的结构化知识、转换成大模型可以理解的语言（即嵌入向量），从而实现有效的交互。在本文中，将会引导大家何利用 Ollama 快速搭建本地的大模型服务，并结合 maxkb 构建一个私人定制知识库。

2、优势

开源免费： Ollama 及其支持的模型完全开源免费，任何人都可以自由使用、修改和分发。
简单易用：无需复杂的配置和安装过程，只需几条命令即可启动和运行 Ollama。
模型丰富： Ollama 支持 Llama 3、Mistral、Qwen2 等众多热门开源 LLM，并提供一键下载和切换功能。
资源占用低：相比于商业 LLM，Ollama 对硬件要求更低，即使在普通笔记本电脑上也能流畅运行。
社区活跃： Ollama 拥有庞大且活跃的社区，用户可以轻松获取帮助、分享经验和参与模型开发。

3、如何使用

安装 Ollama：根据你的操作系统，从 Ollama 官网下载并安装最新版本。
启动 Ollama：打开终端或命令行，输入 ollama serve 命令启动 Ollama 服务器。
下载模型：在模型仓库找到想要的模型，然后使用 ollama pull 命令下载，例如 ollama pull llama3:70b 。
运行模型：使用 ollama run 命令启动模型，例如 ollama run llama3:70b 。
开始聊天：在终端中输入你的问题或指令，Ollama 会根据模型生成相应的回复。

4、模型库

Ollama 支持在 ollama.com/library 上获取的模型列表，以下是一些可下载的示例模型：

Model	Parameters	Size	Download
Llama 3	8B	4.7GB	`ollama run llama3`
Llama 3	70B	40GB	`ollama run llama3:70b`
Mistral	7B	4.1GB	`ollama run mistral`
Dolphin Phi	2.7B	1.6GB	`ollama run dolphin-phi`
Phi-2	2.7B	1.7GB	`ollama run phi`
Neural Chat	7B	4.1GB	`ollama run neural-chat`
Starling	7B	4.1GB	`ollama run starling-lm`
Code Llama	7B	3.8GB	`ollama run codellama`
Llama 2 Uncensored	7B	3.8GB	`ollama run llama2-uncensored`
Llama 2 13B	13B	7.3GB	`ollama run llama2:13b`
Llama 2 70B	70B	39GB	`ollama run llama2:70b`
Orca Mini	3B	1.9GB	`ollama run orca-mini`
LLaVA	7B	4.5GB	`ollama run llava`
Gemma	2B	1.4GB	`ollama run gemma:2b`
Gemma	7B	4.8GB	`ollama run gemma:7b`
Solar	10.7B	6.1GB	`ollama run solar`

注意：运行 7B 模型至少需要 8 GB 的 RAM，运行 13B 模型需要 16 GB，运行 33B 模型需要 32 GB。

5、安装Ollama

[root@mast01 ~]# curl -fsSL https://ollama.com/install.sh | sh
>>> Downloading ollama...
######################################################################## 100.0%
>>> Installing ollama to /usr/local/bin...
>>> Creating ollama user...
>>> Adding ollama user to video group...
>>> Adding current user to ollama group...
>>> Creating ollama systemd service...
>>> Enabling and starting ollama service...
Created symlink from /etc/systemd/system/default.target.wants/ollama.service to /etc/systemd/system/ollama.service.
>>> The Ollama API is now available at 127.0.0.1:11434.
>>> Install complete. Run "ollama" from the command line.
WARNING: No NVIDIA/AMD GPU detected. Ollama will run in CPU-only mode.

[root@mast01 ~]# ollama run llama3
pulling manifest 
pulling 6a0746a1ec1a... 100% ▕███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 4.7 GB             
pulling 4fa551d4f938... 100% ▕███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 12 KB             
pulling 8ab4849b038c... 100% ▕███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 254 B             
pulling 577073ffcc6c... 100% ▕███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 110 B             
pulling 3f8eb4da87fa... 100% ▕███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 485 B             
verifying sha256 digest 
writing manifest 
removing any unused layers 
success 
>>> #直接退出即可

查看下服务状态

[root@mast01 ~]# systemctl status ollama
● ollama.service - Ollama Service
  Loaded: loaded (/etc/systemd/system/ollama.service; enabled; vendor preset: disabled)
  Active: active (running) since 四 2024-08-15 19:02:40 CST; 3s ago
 Main PID: 128252 (ollama)
 Tasks: 10
  Memory: 414.1M
  CGroup: /system.slice/ollama.service
      └─128252 /usr/local/bin/ollama serve

修改端口

#默认只能本地访问
[root@mast01 ~]# netstat -tunlp|grep ollama
tcp    0   0 127.0.0.1:11434     0.0.0.0:*        LISTEN   23094/ollama   

[root@mast01 ~]# vim /etc/systemd/system/ollama.service
[Service]
Environment="OLLAMA_HOST=0.0.0.0"

更改模型存放位置

[root@mast01 ~]# vim /etc/systemd/system/ollama.service
[Service]
Environment="OLLAMA_MODELS=/data/ollama/models"

指定运行GPU

#如果有多张 GPU，可以对 CUDA_VISIBLE_DEVICES 配置，指定运行的 GPU，默认使用多卡
[root@mast01 ~]# vim /etc/systemd/system/ollama.service
Environment="CUDA_VISIBLE_DEVICES=0,1"

重启 ollama

[root@mast01 ~]# systemctl daemon-reload
[root@mast01 ~]# systemctl restart ollama

6、安装maxkb

MaxKB 是一款基于 LLM 大语言模型的知识库问答系统，由飞致云开发。通过MaxKB可以实现在网页上可视化使用大语言模型。本次采用docker的方式直接部署。

[root@mast01~]#dockerrun-d--name=maxkb-p8080:8080-v~/.maxkb:/var/lib/postgresql/datacr2.fit2cloud.com/1panel/maxkb

访问（默认账号：admin 密码：MaxKB@123..）

7、导入模型

系统管理---->模型设置---->Ollama---->添加模型

模型配置（API Key处任意输入：我这里输的是*）

点击修改之后，会自动导入配置

8、创建应用

在应用处点击创建应用

输入自定义的应用名称，我这里输入ai

选择关联好的ai模型，点击右上角的保存并发布

回到概览，点击演示。可以根据需求修改参数

即可对话大语言模型

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;text-align: center;color: rgb(163, 163, 163) !important;">

欢迎光临链载Ai (https://www.lianzai.com/)