DeepSeek等8种大模型本地化部署及其表现

显示全部楼层

01

背景

由于访问过多，目前满血版DeepSeek R1 （深度思考模式）使用经常受限：

付费API的deepseek-reasoner模式也同样受限：

OpenAI开放了免注册的chatbox，但还是有地区使用限制。

本地化部署大模型有多种方式：Ollama和vLLM等。本文主要介绍Ollama的蒸馏模型（Distilled models）部署及其表现。

02

目的

测试本地化部署的LLMs在单细胞注释分析中的表现

03

方法

1. 下载Ollama。直接在官网下载，很方便。

2. 加载模型。

ollamarundeepseek-r1:7b

为了匹配用户的硬件条件，Ollama提供了不同大小的蒸馏模型。7b的蒸馏小模型比较适合大多数个人电脑（16GB内存）。这里的7b表示70亿参数量。模型文件的大小主要受参数量和精度（precision）影响。参数量和精度越高，对硬件的性能要求越大。为了方便做比较，ollama本地化部署模型的参数量和精度分别为7b～9b和4bit。

3. 测试本地化蒸馏模型在单细胞注释中的表现。

#调用本地模型之前运行：ollamaserve

gitclonehttps://github.com/Zhihao-Huang/scPioneercdscPioneerRscript./result/annotation_locally_test.R

04

结果

基于API的满血版大模型的结果：

本地化蒸馏模型的结果：

05

总结

1. 本地化部署的DeepSeek R1的准确率远不如满血版的DeepSeek。API的DeepSeek V3和DeepSeek R1的表现不俗。

2. 本地化模型中，llama3.1:8b的准确率最高；deepseek-r1的两个蒸馏版本70b和7b表现欠佳。

3. 7b+4bit的本地化模型需要5GB内存。CPU型号 Xeon(R) Gold 6238R CPU @ 2.20GHz，用50个逻辑核心数运行，需要1分钟左右。推荐个人电脑使用7b左右的参数量。