ollama v0.12.0 发布：引入云端大模型预览，支持本地与云端无缝融合

显示全部楼层

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;color: rgb(63, 63, 63);">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">2025年9月18日，Ollama 发布了ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">v0.12.0版本更新，本次更新带来了一个重量级的新特性——ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">云端模型（Cloud Models）预览功能，使开发者不仅能在本地运行模型，还能直接调用云端算力运行超大模型，实现本地与云端的无缝协同。同时，本版本也对多种模型架构的支持、GPU 兼容性以及 API 行为做了重要优化。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding-left: 8px;color: rgb(63, 63, 63);">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">一、核心更新亮点

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(15, 76, 129);">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">1. 云端大模型（Cloud Models）预览

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">在 v0.12.0 中，Ollama 首次提供了云端推理能力，开发者可以运行体量更大的模型，而无需担心本地机器显存容量不足。云端模型通过ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">数据中心级别硬件提供推理计算，同时保持了 Ollama 一贯的隐私与安全政策——不保留用户数据。

通过云端模式，你可以直接调用如qwen3-coder:480b-cloud、gpt-oss:120b-cloud、DeepSeek-v3.1:671b-cloud等超大模型，并与本地工具链无缝集成。

示例运行命令：
.

ollamarunqwen3-coder:480b-cloud

当前可用的云端模型包括：

•qwen3-coder:480b-cloud（阿里巴巴长上下文编码及智能体任务优化模型）
•gpt-oss:120b-cloud（OpenAI 自研推理与智能体任务模型）
•gpt-oss:20b-cloud
•deepseek-v3.1:671b-cloud（混合推理模式模型，支持思维链与非思维链模式）

2. 新增模型架构支持

•BERT 系列模型现已在 Ollama 引擎上运行，更适合各种文本分类、检索与 NLU 场景。
•Qwen 3 系列模型也已集成至 Ollama 引擎，可在本地和云端流畅运行。

3. GPU 与性能优化

• 修复了旧款 NVIDIA GPU 在新驱动环境下无法被检测的问题。
• 修复了多版本 CUDA 环境下的兼容性问题（Multi-CUDA version skew）。
• 优化了模型导入流程，避免了ollama create导入失败的 bug。
• 构建系统优化，防止并行构建导致内存或线程资源耗尽。

4. API 行为改进

• 针对/api/generate接口，如果提示中包含初始<think>标记，将不会进行重复解析，避免响应异常。
• API 与 OpenAI 接口现已完全兼容，可直接用 OpenAI SDK 方式调用。
• 新增远程代理（Remote Proxy）支持，可更方便部署在跨网络环境。

二、使用方法

1. 安装或升级

下载最新 v0.12.0 版本后，即可使用云端功能。

2. 签到认证

云端推理需要在 Ollama 平台进行账号登录：
.

ollamasignin

退出登录：
.

ollamasignout

3. 运行云端模型

CLI 方式运行：
.

ollamarungpt-oss:120b-cloud

查看已拉取的模型列表：
.

ollamals

输出示例：
.

NAME           ID      SIZE    MODIFIED
gpt-oss:120b-cloud    569662207105 -     5seconds ago
deepseek-v3.1:671-cloud  d3749919e45f -     2days ago
qwen3-coder:480b-cloud  11483b8f8765 -     2days ago

4. API 调用示例

JavaScript
.

importollama from"ollama";

constresponse = await ollama.chat({
 model:"gpt-oss:120b-cloud",
 messages: [{ role:"user", content:"天空为什么是蓝色的？"}],
});
console.log(response.message.content);

Python
.

importollama

response = ollama.chat(
 model='gpt-oss:120b-cloud',
 messages=[{'role':'user','content':'天空为什么是蓝色的？'}]
)
print(response['message']['content'])

cURL
.

curl http://localhost:11434/api/chat -d '{
"model":"gpt-oss:120b-cloud",
"messages": [{
 "role":"user",
 "content":"天空为什么是蓝色的？"
 }],
"stream":false
}'

三、总结

Ollama v0.12.0 的发布，标志着该平台从本地推理走向了云端与本地融合的新阶段。这不仅解决了本地硬件性能不足的问题，还统一了 API 调用方式，使得开发者能够像使用本地模型一样，轻松调用超大规模云端模型。