Unsloth发布Qwen3-VL本地运行和微调指南，修复隐藏bug

显示全部楼层

昨天llamacpp版本Qwen 3 VL系列模型（Ollama同步支持" target="_blank" data-linktype="2">Qwen 3 VL 模型已并入 llama.cpp，ollama同步支持），有网友在使用Qwen3-VL-8B时发现一个问题：第二次对话时llama.cpp总会崩溃。错误信息指向聊天模板的语法问题。

Unsloth团队紧急修复了这个问题，并重新上传了所有GGUF量化文件。现在Qwen3-VL系列模型可以在本地稳定运行，从2B到235B的各种规格都有对应版本。

硬件需求与实际表现

Qwen3-VL-2B：在4GB内存设备上运行，速度约40 token/秒
Qwen3-VL-235B：需要128GB统一内存，采用动态4位量化
中间规格：8B、32B等模型在不同配置下都有相应优化

有用户反馈，在RTX 4090（24GB显存）+96GB内存的配置下，235B模型Q2量化版能达到14 token/秒。30B模型在40K上下文长度下，24GB显存设备上可达170 token/秒。

部署步骤

获取最新版llama.cpp，支持CUDA加速
下载模型文件（推荐使用HuggingFace的snapshot_download）
根据模型类型设置参数：Instruct和Thinking版本需要不同配置

关键参数差异：

Instruct版：Temperature=0.7, Top_P=0.8
Thinking版：Temperature=1.0, Top_P=0.95

多模态能力测试

在实际测试中，模型能够同时处理多张图片并理解其关联性。例如，先加载Unsloth的logo图片，再加载一张真实树懒照片，模型能准确指出两者都涉及树懒主题——一个是项目标识，一个是真实动物。

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;">Unsloth在HuggingFace上提供了完整的模型集合，包括GGUF、safetensor和动态量化格式。对于想要微调的用户，他们还提供了免费notebook，声称能减少60%显存使用并提升训练速度。官方还同时提供docker版本的Qwen3-VL部署，使用起来很方便。

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;">

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;">目前来看，Qwen3-VL的本地部署已经相对成熟，特别是Unsloth修复了聊天模板问题后，多轮对话的稳定性明显提升。对于有特定硬件配置的开发者，现在是个不错的测试时机。