下载地址: https://ollama.com/download/Ollama-darwin.zip
下载完成之后解压进行安装即可
使用下面命令进行安装:
curl-fsSLhttps://ollama.com/install.sh|sh
如果没有curl,请使用对应操作系统的安装命令(如yum)安装之后再执行上面的命令
执行命令:
dockerrun-d-vollama:/root/.ollama-p11434:11434--nameollamaollama/ollama
参照:https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html#installation 进行安装
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey \
| sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list \
| sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' \
| sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt-get update(1.2)、安装
sudoapt-getinstall-ynvidia-container-toolkit
curl -s -L https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo \
| sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo(2.2)、安装
curl -s -L https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo \
| sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo
curl -s -L https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo \
| sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repodocker run -d \
--gpus=all \
-v ollama:/root/.ollama \
-p 11434:11434 \
--name ollama \
ollama/ollama为了使用AMD GPU,只需要在启动容器时使用rocm:tag即可
docker run -d \
--device /dev/kfd \
--device /dev/dri \
-v ollama:/root/.ollama \
-p 11434:11434\
--name ollama \
ollama/ollama:rocm使用下面命令即可自动下载gemma3模型并运行。
ollamarungemma3
ollama支持的模型可以在官网上查看:(https://ollama.com/search)
ollama支持导入Safetensors与GGUF两种格式的本地模型导入,还支持对模型进行量化与自定义提示词。
FROM./vicuna-33b.Q4_0.gguf
ollamacreateexample-fModelfile
ollamarunexample
首先,创建一个Modelfile指向FROM用于微调的基础模型的命令,以及一个ADAPTER指向 Safetensors 适配器目录的命令:
FROM <base model name>
ADAPTER /path/to/safetensors/adapter/directory请确保在FROM命令中使用与创建适配器时相同的基础模型,否则您将得到不稳定的结果。大多数框架使用不同的量化方法,因此最好使用非量化(即非 QLoRA)适配器。如果您的适配器与您的 位于同一目录中Modelfile,请使用ADAPTER .指定适配器路径。
ollama create现在从创建的目录运行Modelfile:
ollamacreatemy-model
最后,测试模型:
ollamarunmy-model
Ollama 支持基于几种不同的模型架构导入适配器,包括:
首先,Modelfile使用指向FROM包含 Safetensors 权重的目录的命令创建一个:
FROM/path/to/safetensors/directory
如果您在与权重相同的目录中创建 Modelfile,则可以使用该命令FROM .。
ollama create现在从您创建的目录运行命令Modelfile:
ollamacreatemy-model
最后,测试模型:
ollamarunmy-model
Ollama 支持导入几种不同架构的模型,包括:
量化模型可以让你以更快的速度运行模型,减少内存消耗,但准确率会降低。这使得你可以在更普通的硬件上运行模型。
Ollama 可以使用命令-q/--quantize中的标志将基于 FP16 和 FP32 的模型量化为不同的量化级别ollama create。
首先,创建一个包含您想要量化的基于 FP16 或 FP32 的模型的 Modelfile。
FROM/path/to/my/gemma/f16/model
然后使用ollama create来创建量化模型。
$ ollama create --quantize q4_K_M mymodel
transferring model data
quantizing F16 model to Q4_K_M
creating new layer sha256:735e246cc1abfd06e9cdcf95504d6789a6cd1ad7577108a70d9902fef503c1bd
creating new layer sha256:0853f0ad24e5865173bbf9ffcc7b0f5d56b66fd690ab1009867e45e7d2c4db0f
writing manifest
successOllama支持对模型进行自定义提示词,以便更好的适应项目的需求,如自定义模型llama3.2:
ollamapullllama3.2
FROM llama3.2
# set the temperature to 1 [higher is more creative, lower is more coherent]
PARAMETER temperature 1
# set the system message
SYSTEM """
You are Mario from Super Mario Bros. Answer as Mario, the assistant, only.
"""ollama create mario -f ./Modelfile
ollama run mario
>>> hi
Hello! It's your friend Mario.关于Modelfile中的指令,详情请参见:https://github.com/ollama/ollama/blob/main/docs/modelfile.md
使用三个引号"""可以支持模型时使用多行输入,如:
>>> """Hello,
... world!
... """
I'm a basic program that prints the famous "Hello, world!" message to the console.ollamarunllava"What'sinthisimage?/Users/jmorgan/Desktop/smile.png"
ollamarunllama3.2"Summarizethisfile(catREADME.md)"
输出内容:
Output: Ollama is a lightweight, extensible framework for building and running language models on the local machine. It provides a simple API for creating, running, and managing models, as well as a library of pre-built models that can be easily used in a variety of applications.
ollama支持api,用于运行与管理模型。详细的API参考手册见:https://github.com/ollama/ollama/blob/main/docs/api.md
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt":"Why is the sky blue?"
}'curl http://localhost:11434/api/chat -d '{
"model": "llama3.2",
"messages": [
{ "role": "user", "content": "why is the sky blue?" }
]
}'OLLAMA_MODELS:模型文件存放目录,默认目录为当前用户目录
OLLAMA_HOST:Ollama 服务监听的网络地址,默认为127.0.0.1,如果允许其他电脑访问 Ollama(如:局域网中的其他电脑),建议设置成0.0.0.0,从而允许其他网络访问
OLLAMA_PORT:Ollama 服务监听的默认端口,默认为11434,如果端口有冲突,可以修改设置成其他端口(如:8080等)
OLLAMA_ORIGINS:HTTP 客户端请求来源,半角逗号分隔列表,若本地使用无严格要求,可以设置成星号,代表不受限制
OLLAMA_KEEP_ALIVE:大模型加载到内存中后的存活时间,默认为5m即 5 分钟(如:纯数字如 300 代表 300 秒,0 代表处理请求响应后立即卸载模型,任何负数则表示一直存活);我们可设置成24h,即模型在内存中保持 24 小时,提高访问速度
OLLAMA_NUM_PARALLEL:请求处理并发数量,默认为1,即单并发串行处理请求,可根据实际情况进行调整
OLLAMA_MAX_QUEUE:请求队列长度,默认值为512,可以根据情况设置,超过队列长度请求被抛弃
OLLAMA_DEBUG:输出 Debug 日志标识,应用研发阶段可以设置成1,即输出详细日志信息,便于排查问题
OLLAMA_MAX_LOADED_MODELS:最多同时加载到内存中模型的数量,默认为1,即只能有 1 个模型在内存中本地开发与测试: 开发者可在个人电脑上离线运行、调试和微调开源大模型(如LLaMA系列、Mistral等),无需依赖云端API,提升效率并保护隐私。
私有化部署: 适用于对数据安全要求高的场景(如金融、医疗、企业内部),将模型完全部署在本地服务器或私有云,确保敏感数据不出本地。
定制化模型应用: 结合自定义提示模板和参数调整,打造特定领域(客服、写作辅助、代码生成)的专属AI工具。
研究与学习: 方便研究人员和学生低成本探索大模型原理、行为及微调技术。
资源受限环境探索: 在特定硬件(如配备GPU的工作站)上体验大模型能力。
硬件要求: 需较强计算资源(尤其是显存),模型越大要求越高,需根据硬件选择合适的模型。
模型选择与管理: 需自行寻找、下载和管理模型文件(Modelfile),依赖社区生态,中文等非英语模型支持可能有限。
性能限制: 本地运行性能通常低于大型云服务,响应速度及并发能力受硬件制约。
安全与合规: 使用开源模型需遵守其特定许可协议;本地部署虽提升数据安全,但仍需自行负责模型内容安全及合规风险。
运维成本: 私有化部署需承担模型更新、维护及服务器运维成本。
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |