链载Ai

标题: ollama v0.13.4 发布——全新模型与性能优化详解 [打印本页]

作者: 链载Ai    时间: 3 小时前
标题: ollama v0.13.4 发布——全新模型与性能优化详解

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;color: rgb(63, 63, 63);">在这里插入图片描述ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;margin: 0.1em auto 0.5em;border-radius: 4px;" title="null"/>

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">2025年12月13日,Ollama v0.13.4版本预发布,随后于2025年12月16日正式发布。本次更新是一次重要的版本迭代,包含新模型的推出、引擎默认设置的调整、Flash Attention机制的自动化启用,以及一系列对Gemma 3架构模型的修复与增强。以下是详细更新内容。


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding-left: 8px;color: rgb(63, 63, 63);">一、新增模型

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">1. Nemotron 3 Nano
这是一款全新的开放高效智能代理模型,定义了高性能标准,面向智能代理应用场景。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">2. Olmo 3 与 Olmo 3.1
这一系列开放语言模型旨在推动语言模型研究科学化。
其预训练基于ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">Dolma 3 数据集,后训练使用ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">Dolci 数据集,代表了更系统化的语言模型训练流程。


二、主要更新内容


三、代码更新与文档修订

.

cd <tmp-dir>
npm install # JS示例
node file.js 或 python file.py 或 bash file.sh

四、环境配置与引擎优化


五、模型与计算优化

1. Flash Attention 类型系统引入
ml/device.go新增FlashAttentionType枚举类型:

此设计使 Flash Attention 模式控制更细化,支持自动适配硬件。

2. GGML 图计算增强
fs/ggml/ggml.go中,Flash Attention 引入枚举类型接口,支持多种量化缓存类型检测与验证方法,提升兼容性。

3. Llama 引擎增强
llama/llama.go重构了 Flash Attention 参数逻辑——支持自动、启用与禁用三种模式,适配不同模型及硬件环境。

4. LLM 服务逻辑优化
llm/server.go增加了 Flash Attention 用户显式设置检测逻辑,并完善了 KV 缓存量化兼容性处理。当使用量化 KV 缓存类型时必须启用 Flash Attention。
KV 缓存校验机制进一步完善,增加更详细的警告提示与逻辑分支。

5. ML 后端结构改进
ml/backend.goml/backend/ggml/ggml.go中统一 Flash Attention 类型接口,并在注意力计算中使用新的枚举系统,实现高效的多设备内存调度与算子融合优化。


六、Gemma 3 架构修复与改良

model/models/gemma3/model_text.go
对 Gemma 3 的旋转位置嵌入 (RoPE) 算法进行了调整:


七、OpenAI兼容层更新

openai/responses.go
调整了工具调用消息的合并逻辑:

同时新增全面的单元测试openai/responses_test.go,覆盖函数调用与工具输出场景,验证新逻辑稳定性。


八、贡献统计


九、总结

代码地址:github.com/ollama/ollama

ollama v0.13.4 是一次大幅度增强版发布,重点在于:

·






欢迎光临 链载Ai (http://www.lianzai.com/) Powered by Discuz! X3.5