用Ollama轻松搞定Llama 3.2 Vision模型本地部署

显示全部楼层

一

Llama3.2 Vision简介

Llama 3.2 Vision是一个多模态大型语言模型（LLMs）的集合，它包括预训练和指令调整的图像推理生成模型，有两种参数规模：11B（110亿参数）和90B（900亿参数）。

Llama 3.2 Vision在视觉识别、图像推理、字幕以及回答有关图像的通用问题方面进行了优化，在常见的行业基准上优于许多可用的开源和封闭多模式模型。

二

在算力魔方4060版上完成部署

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;text-align: left;">算力魔方^®4060版是一款包含4060 8G显卡的迷你主机，运行：

ollamarunllama3.2-vision

完成Llama 3.2 Vision 11B模型下载和部署。

三

Llama 3.2实现图片识别

将图片输入Llama3.2-Vision,然后直接输入问题，即可获得图片信息，如下面视频所示：