MiniCPM 4.0：面壁智能开源的极致高效端侧大模型（小版本、低消耗、220倍极致提速！）

显示全部楼层

传统的大型模型往往需要高昂的计算资源和复杂的部署环境，限制了其在端侧设备上的应用。面壁智能推出的MiniCPM 4.0端侧大模型，以其极致高效的性能和灵活的部署能力，为这一问题提供了全新的解决方案。

一、项目概述

MiniCPM 4.0是面壁智能推出的一款极致高效的端侧大模型，旨在为端侧设备提供高性能、低资源消耗的语言模型解决方案。该模型分为8B和0.5B两种参数规模，其中8B版本采用创新的稀疏架构，能够高效处理长文本任务，而0.5B版本则以低计算资源消耗和高性能著称。MiniCPM 4.0通过自研的CPM.cu推理框架，实现了在极限场景下最高220倍的提速，常规场景下也能达到5倍的速度提升。此外，该模型支持在vLLM、SGLang、LlamaFactory等开源框架上部署，并已适配Intel、高通、MTK、华为昇腾等主流芯片，具备广泛的适用性。

二、技术原理

（一）稀疏注意力机制

MiniCPM 4.0-8B采用创新的可训练稀疏注意力机制（InfLLM v2），在处理长文本时，每个词元仅需与不到5%的其他词元进行相关性计算，极大地降低了长文本处理的计算开销。这种稀疏注意力机制不仅提高了计算效率，还保持了模型的精度。

（二）高效双频换挡机制

MiniCPM 4.0能够根据任务特征自动切换注意力模式。在处理长文本时启用稀疏注意力以降低计算复杂度，而在处理短文本时切换至稠密注意力以确保精度。这种机制使得模型在不同任务场景下都能发挥最佳性能。

（三）极致量化技术

BitCPM是MiniCPM 4.0的量化版本，通过将模型参数压缩为三进制值，实现了90%的位宽减少，同时保持了卓越的性能。这种量化技术不仅减少了模型的存储需求，还进一步提升了推理速度。

（四）高效训练工程

MiniCPM 4.0采用了FP8低精度计算技术，结合多词元预测（Multi-token Prediction）训练策略，进一步提升了训练效率。此外，模型风洞2.0技术通过引入下游任务的Scaling预测方法，能够更精准地搜索并确定最佳的模型训练配置。

三、主要功能

（一）高效推理速度提升

MiniCPM 4.0通过自研的CPM.cu推理框架，在极限场景下实现了最高220倍的提速，常规场景下也能达到5倍的速度提升。这种速度提升使得模型在端侧设备上能够快速响应用户请求，极大地改善了用户体验。

（二）模型瘦身与高效部署

MiniCPM 4.0采用创新的稀疏架构和极致低位宽量化技术，实现了模型体积缩小90%，同时保持了卓越的性能。支持在vLLM、SGLang、LlamaFactory等开源框架上部署，适配多种主流芯片，可在多种端侧设备上流畅运行。

（三）多平台适配

MiniCPM 4.0已适配Intel、高通、MTK、华为昇腾等主流芯片，能够在多种端侧设备上高效运行。这种多平台适配能力使得模型能够广泛应用于不同的硬件环境，满足多样化的应用场景需求。

（四）多种版本选择

MiniCPM 4.0提供8B和0.5B两种参数规模的版本，满足不同场景的需求。8B版本适用于需要处理复杂长文本的任务，而0.5B版本则适合资源受限的设备，能够在低计算资源下实现高性能。

四、评测结果

（一）效率评测

在Jetson AGX Orin和RTX 4090两款典型端侧芯片上，MiniCPM 4.0在长文本处理任务中展现出大幅领先同尺寸模型的处理速度。随着文本长度的增加，MiniCPM 4.0的性能优势愈发显著。在Jetson AGX Orin平台上，相较于Qwen3-8B，MiniCPM 4.0实现了约7倍的生成速度提升。

（二）综合评测

MiniCPM 4.0推出端侧8B、0.5B两种参数规模版本，均在同级别模型中实现了最佳性能表现。在多种评测任务中，MiniCPM 4.0的表现优于或接近其他同参数量级别的模型。

（三）长文本评测

MiniCPM 4.0基于32K长文本进行预训练，并通过YaRN技术实现长度扩展。在128K长文本的大海捞针任务中，MiniCPM 4.0展现出卓越的性能表现，能够高效处理超长文本内容。

（四）量化版本评测

BitCPM4是基于MiniCPM系列模型进行量化感知训练（QAT）后得到的三值量化模型。在训练效率和模型参数效率方面实现了有效的提升，模型使用1.58Bit的位宽达到的性能对标与同参数量级别的全精度模型，模型参数效率高。

五、应用场景

（一）智能辅导系统

MiniCPM 4.0可以作为智能辅导系统的核心，通过自然语言处理技术理解学生的问题并提供详细的解答和解释，帮助学生更好地理解和掌握知识。

（二）病例分析与诊断辅助

MiniCPM 4.0可以辅助医生进行病例分析，通过自然语言处理技术理解病历内容，为医生提供诊断建议和参考信息，提高诊断的准确性和效率。

（三）医学文献检索

MiniCPM 4.0能够帮助医生和研究人员快速检索相关的医学文献和研究成果，提供精准的文献推荐和摘要，节省时间和精力。

（四）智能客服

MiniCPM 4.0可以作为金融客服的核心，快速准确地回答客户的咨询问题，提供个性化的服务和解决方案，提高客户满意度。

（五）游戏剧情生成

MiniCPM 4.0可以根据游戏设定和玩家行为，自动生成丰富多样的游戏剧情和任务，增加游戏的趣味性和可玩性。

六、快速使用

（一）环境准备

1.确保安装了Python 3.8及以上版本。

2.安装必要的依赖库，如`transformers`和`torch`。

pipinstalltransformerspipinstalltorchpipinstallmodelscope

（二）模型下载

从HuggingFace或ModelScope下载MiniCPM 4.0模型文件：

modelscopedownload--modelOpenBMB/MiniCPM4-8BREADME.md--local_dir./dir

（三）transformers推理示例

以下是一个使用HuggingFace推理MiniCPM 4.0的示例代码：

fromtransformersimportAutoModelForCausalLM, AutoTokenizerimporttorchtorch.manual_seed(0)
path ='openbmb/MiniCPM4-8B'device ="cuda"tokenizer = AutoTokenizer.from_pretrained(path)model = AutoModelForCausalLM.from_pretrained(path, torch_dtype=torch.bfloat16, device_map=device, trust_remote_code=True)
# User can directly use the chat interface# responds, history = model.chat(tokenizer, "Write an article about Artificial Intelligence.", temperature=0.7, top_p=0.7)# print(responds)
# User can also use the generate interfacemessages = [  {"role":"user","content":"Write an article about Artificial Intelligence."},]prompt_text = tokenizer.apply_chat_template(  messages,  tokenize=False,  add_generation_prompt=True,)model_inputs = tokenizer([prompt_text], return_tensors="pt").to(device)
model_outputs = model.generate(  **model_inputs,  max_new_tokens=1024,  top_p=0.7,  temperature=0.7)output_token_ids = [  model_outputs[i][len(model_inputs[i]):]foriinrange(len(model_inputs['input_ids']))]
responses = tokenizer.batch_decode(output_token_ids, skip_special_tokens=True)[0]print(responses)

（四）CPM.cu推理

我们推荐使用CPM.cu对MiniCPM4模型进行推理。CPM.cu是面壁开发的一个集合了高效稀疏、投机采样、量化等技术的CUDA推理框架，能够完全发挥MiniCPM4的效率优势。

你可以通过以下脚本安装CPM.cu并进行推理：

gitclonehttps://github.com/OpenBMB/CPM.cu.git--recursivecdCPM.cupython3setup.pyinstall

你可以通过以下命令进行推理并查看模型的运行速度。

python3tests/long_prompt_gen.py#生成prompt.txtpython3tests/test_generate.py--prompt-fileprompt.txt