ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;color: rgb(63, 63, 63);">
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">2025年9月18日,Ollama 发布了 ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">v0.12.0版本更新,本次更新带来了一个重量级的新特性—— ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">云端模型(Cloud Models)预览功能,使开发者不仅能在本地运行模型,还能直接调用云端算力运行超大模型,实现本地与云端的无缝协同。同时,本版本也对多种模型架构的支持、GPU 兼容性以及 API 行为做了重要优化。 ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding-left: 8px;color: rgb(63, 63, 63);"> ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">一、核心更新亮点 ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(15, 76, 129);"> ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">1. 云端大模型(Cloud Models)预览
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">在 v0.12.0 中,Ollama 首次提供了云端推理能力,开发者可以运行体量更大的模型,而无需担心本地机器显存容量不足。云端模型通过 ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">数据中心级别硬件提供推理计算,同时保持了 Ollama 一贯的隐私与安全政策——不保留用户数据 。通过云端模式,你可以直接调用如qwen3-coder:480b-cloud 、gpt-oss:120b-cloud 、DeepSeek-v3.1:671b-cloud 等超大模型,并与本地工具链无缝集成。
示例运行命令: .
ollamarunqwen3-coder:480b-cloud 当前可用的云端模型包括:
•qwen3-coder:480b-cloud (阿里巴巴长上下文编码及智能体任务优化模型) •gpt-oss:120b-cloud (OpenAI 自研推理与智能体任务模型) •deepseek-v3.1:671b-cloud (混合推理模式模型,支持思维链与非思维链模式) 2. 新增模型架构支持 •BERT 系列 模型现已在 Ollama 引擎上运行,更适合各种文本分类、检索与 NLU 场景。 •Qwen 3 系列 模型也已集成至 Ollama 引擎,可在本地和云端流畅运行。 3. GPU 与性能优化 • 修复了旧款 NVIDIA GPU 在新驱动环境下无法被检测 的问题。 • 修复了多版本 CUDA 环境下的兼容性问题(Multi-CUDA version skew)。 • 优化了模型导入流程,避免了ollama create导入失败的 bug。 • 构建系统优化,防止并行构建导致内存或线程资源耗尽。 4. API 行为改进 • 针对/api/generate接口,如果提示中包含初始<think>标记,将不会进行重复解析,避免响应异常。 • API 与 OpenAI 接口现已完全兼容,可直接用 OpenAI SDK 方式调用。 • 新增远程代理(Remote Proxy)支持,可更方便部署在跨网络环境。 二、使用方法 1. 安装或升级 下载最新 v0.12.0 版本后,即可使用云端功能。
2. 签到认证 云端推理需要在 Ollama 平台进行账号登录: .
ollamasignin 退出登录: .
ollamasignout 3. 运行云端模型 CLI 方式运行: .
ollamarungpt-oss:120b-cloud 查看已拉取的模型列表: .
ollamals 输出示例: .
NAME ID SIZE MODIFIED gpt-oss:120b-cloud 569662207105 - 5seconds ago deepseek-v3.1:671-cloud d3749919e45f - 2days ago qwen3-coder:480b-cloud 11483b8f8765 - 2days ago4. API 调用示例 JavaScript .
importollama from"ollama"; constresponse = await ollama.chat({ model:"gpt-oss:120b-cloud", messages: [{ role:"user", content:"天空为什么是蓝色的?"}], }); console.log(response.message.content);Python .
importollama response = ollama.chat( model='gpt-oss:120b-cloud', messages=[{'role':'user','content':'天空为什么是蓝色的?'}] ) print(response['message']['content'])cURL .
curl http://localhost:11434/api/chat -d '{ "model":"gpt-oss:120b-cloud", "messages": [{ "role":"user", "content":"天空为什么是蓝色的?" }], "stream":false }'三、总结 Ollama v0.12.0 的发布,标志着该平台从本地推理走向了云端与本地融合 的新阶段。这不仅解决了本地硬件性能不足的问题,还统一了 API 调用方式,使得开发者能够像使用本地模型一样,轻松调用超大规模云端模型。