链载Ai

标题: MiniCPM 4.0极速狂飙,端侧模型的比赛,结束了! [打印本页]

作者: 链载Ai    时间: 昨天 21:11
标题: MiniCPM 4.0极速狂飙,端侧模型的比赛,结束了!

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">端侧长文本模型迎来了革命性时刻!

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 16px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">图像

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">面壁智能联合清华大学刚刚发布的MiniCPM 4.0,用一个让人难以置信的数字宣告了端侧长文本时代的到来:极限场景下220倍加速

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">这不是简单的性能提升,而是从「龟速爬行」到「疾速飞驰」的质变。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">作为一个只有一台4090、还要在上面部署一堆模型的GPU Poor,我从MiniCPM 2.5开始就一直混迹于官方群24群,并密切关注这个项目的每一次更新——各个量化版本我都详细测试过,就为了找到性价比最高的那个。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">当时就有种预感:MiniCPM 会走出一条不同于其他大模型的路,而最有可能的就是端侧大模型。所以看到MiniCPM 4.0发布的那一刻,心里暗叹:

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">终于来了!

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: normal;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">220倍的视频实测

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">这个对比测试视频展示了三轮真实场景下的速度较量:

第一轮:140K+超长文本极限测试(RTX 4090显存不足场景)

第二轮:128K长文本常规场景(RTX 4090)

第三轮:边缘设备测试(Jetson AGX Orin)

网友们又沸腾了

OpenBMB(@OpenBMB) 发布消息后,国外网友们又是瞬间沸腾:

Xeophon(@TheXeophon) 直接送上祝贺:

恭喜!!!

Secret AI(@SecretAILabs) 最关心实用性:

太棒了!!!GGUF格式什么时候发布?

elie(@eliebakouch) 来自Hugging Face的认可:

令人印象深刻!?

而网友Tsukuyomi(@doomgpt) 则忍不住调侃:

5倍速?看来我们离AI跑马拉松只有一步之遥了。只希望它不要在这个过程中超越我们。

原生稀疏技术揭秘

MiniCPM 4.0最核心的创新在于首个原生稀疏模型的发布。

这是一次从架构到系统的全方位革新:

InfLLM v2:重新定义注意力机制

传统Transformer需要每个词元都和序列中所有词元进行相关性计算,计算复杂度是O(n²)。而InfLLM v2通过创新的分块注意力机制,实现了惊人的5%稀疏度

相比DeepSeek的NSA架构,InfLLM v2的上下文选择计算开销降低60%,且不增加额外参数。

CPM.cu:面壁自研的端侧推理利器

CPM.cu不是又一个推理框架,而是专为端侧极致优化的CUDA推理引擎。

与vLLM、TensorRT-LLM等通用框架不同,CPM.cu从设计之初就瞄准了端侧场景的痛点:

独特优势:

这就是为什么在极限测试中,同样的硬件,CPM.cu能让MiniCPM 4.0达到220倍加速的秘密。

三级火箭推理加速体系

第一级:FR-Spec投机采样

第二级:BitCPM极致量化

第三级:系统级优化

小参数大能力

基准测试全面碾压

MiniCPM4-8B性能数据:

训练效率对比:

长文本能力:真正的杀手锏

部署指南

全平台适配

MiniCPM 4.0已完成主流芯片适配:

三分钟快速部署

方式一:CPM.cu(推荐,享受完整加速)

gitclonehttps://github.com/OpenBMB/CPM.cu.git --recursive
cdCPM.cu
python3 setup.py install

# 测试长文本推理
python3 tests/long_prompt_gen.py
python3 tests/test_generate.py --prompt-file prompt.txt

方式二:HuggingFace(最简单)

fromtransformersimportAutoModelForCausalLM, AutoTokenizer
importtorch

model = AutoModelForCausalLM.from_pretrained(
'openbmb/MiniCPM4-8B',
torch_dtype=torch.bfloat16,
device_map='cuda',
trust_remote_code=True
)
tokenizer = AutoTokenizer.from_pretrained('openbmb/MiniCPM4-8B')

# 启用InfLLM v2稀疏注意力
model.config.sparse_config = {
"topk":64,
"block_size":64,
"dense_len":8192
}

不只是ChatBox

MiniCPM4-Survey:AI 科研助手

MiniCPM4-MCP:万能工具调用

在Berkeley Function Calling排行榜上:

图片

端侧AI 分水岭

曾经风光无限的「AI 六小龙」格局已变。

零一万物将大模型交给阿里训练,明确不再追逐AGI,放弃预训练转向应用。「大家都看得很清楚,只有大厂能够烧超大模型。」李开复在接受采访时这样表示。

百川智能则专注医疗垂类赛道,在字节、阿里、腾讯等大厂争相上新基础模型时,其基础大模型进入了静默期。

剩下的智谱AI、MiniMax、月之暗面和阶跃星辰,虽仍在坚守,但在DeepSeek 冲击之下,或已难复当年勇纷纷寻找新的垂直出路——曾经的AI六小龙,已经在新一轮大模型竞赛中滑落成了新的「AI 四小强」。

而在这个格局剧变的时刻,面壁智能选择了一条完全不同的道路。

不在云端烧钱拼参数,而是用系统级创新在端侧实现极致效率。继DeepSeek在云端证明稀疏模型的成本效益后,面壁在端侧将「高效」路线推向了新的高峰。

从UltraClean数据筛选到ModelTunnel 2.0训练优化,从InfLLM v2架构创新到BitCPM极致量化,再到CPM.cu推理框架的自研突破,这是一整套端侧AI的方法论。

图片

当别人还在比拼参数规模时,面壁已经在思考如何让AI真正走进每个人的设备。

端侧长文本时代,不是将要来,而是已经来了。

当你的手机能在几秒内处理十万字的文档,当AI助手可以完全离线理解你的所有聊天记录,当隐私和效率不再是选择题——这就是MiniCPM 4.0带来的新世界。

端侧模型的比赛,结束了!






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5