链载Ai

标题: Qwen3 与 ollama 兼容性问题 [打印本页]

作者: 链载Ai 时间: 昨天 18:15
标题: Qwen3 与 ollama 兼容性问题

新模型出来后需要和 Ollama 做适配，比如v0.6.0版本后才开始支持 Gemma3，之前的版本无法运行 Gemma3。同时新版本的 ollama 对 gblic 版本有要求，在 CentOS 7 等版本上无法运行新版本的 ollama。

推荐的运行环境是 Ubuntu 22.04 或 Ubuntu 24.04 等新出的 Linux 发行版，他们自带的 glibc 版本比较高，对新模型和Nvidia驱动的支持比较好。

昨天测试了在 v0.6.0 的 ollama 上跑 qwen3:32b。虽然可以下载模型文件，但跑不了。运行 qwen3:32b 时报错：

Error:unabletoloadmodel

目前最新版的 ollama 版本为 v0.6.6，rc 版是 v0.6.7-rc0

当新版发布时会公布支持的新模型，比如 v0.6.0 时公布支持 gemma3，v0.6.6 公布支持 DeepCoder。

目前 v0.6.7-rc 版暂未公布支持 qwen3，通过测试发现在 v0.6.7 下能把 qwen3:32b 跑起来，但稳定性存在问题。每轮会话结束 qwen3 模型都会自动卸载掉，新会话开始又重新加载模型。在应用侧会表现为响应变慢，每问一次问题都会卡好一会。

建议等新的 ollama 版本官宣支持 qwen3 后再部署，当前稳定性不足无法正常使用 qwen3。

qwen3 各尺寸模型文件大小为：

本地部署可以考虑qwen3:30b-a3b和qwen3:32b，他们大小相似但模型不同，qwen3:32b 属于密集模型，qwen3:32b-a3b 属于混合专家（Moe）模型。qwen3 最强大的模型是142G的 qwen3:235b-a22b，它与qwen3:32b-a3b 同属 Moe 模型。

如果是4卡v100或3060显卡，可以考虑部署 qwen3:32b 和 qwen3:30b-a3b。如果是8卡的A800，可以考虑上 qwen3:235b-a22b。

秀一下昨天刚装好的 A800 的机器：

全文完。

欢迎光临链载Ai (https://www.lianzai.com/)