链载Ai

标题: 面壁开源多模态新旗舰MiniCPM-V 4.5,8B 性能超越 72B,高刷视频理解又准又快 [打印本页]

作者: 链载Ai    时间: 2 小时前
标题: 面壁开源多模态新旗舰MiniCPM-V 4.5,8B 性能超越 72B,高刷视频理解又准又快

ingFang SC", system-ui, -apple-system, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);visibility: visible;">今天,面壁智能正式开源 8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型,成为行业首个具备高刷视频理解能力的多模态模型,看得准、看得快,看得长!高刷视频理解、长视频理解、OCR、文档解析能力同级 SOTA,且性能超过 Qwen2.5-VL 72B,堪称最强端侧多模态模型。

模型链接:

ingFang SC", system-ui, -apple-system, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;visibility: visible;line-height: 1em;box-sizing: border-box !important;overflow-wrap: break-word !important;">

🔗

Github:


ingFang SC", system-ui, -apple-system, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">

https://github.com/OpenBMB/MiniCPM-o

ingFang SC", system-ui, -apple-system, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">

🔗

ModelScope:

ingFang SC", system-ui, -apple-system, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">

https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5

ingFang SC", system-ui, -apple-system, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;visibility: visible;text-align: left;box-sizing: border-box !important;overflow-wrap: break-word !important;">

🔗

Hugging Face:


ingFang SC", system-ui, -apple-system, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;visibility: visible;text-align: left;box-sizing: border-box !important;overflow-wrap: break-word !important;">

https://huggingface.co/openbmb/MiniCPM-V-4_5

ingFang SC", system-ui, -apple-system, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;visibility: visible;text-align: left;box-sizing: border-box !important;overflow-wrap: break-word !important;">



01


模型亮点


ingFang SC", system-ui, -apple-system, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);visibility: visible;line-height: 1.5em;box-sizing: border-box !important;overflow-wrap: break-word !important;">

👍首个「高刷视频理解」多模态模型,兼顾性能与效率:高刷视频理解同级 SOTA 且超过 Qwen2.5-VL 72B越级领先;同等视觉 token 开销下, MiniCPM-V 4.5 可接收 6 倍视频帧数量,达到 96 倍视觉压缩率,是同类模型的 12-24 倍;

🌟 最强多模态 SOTA 模型:图片理解、长视频理解、OCR、文档解析同级 SOTA,且超过 Qwen2.5-VL 72B 达到越级领先

🧑‍💻端侧友好:提供 SOTA 级多模态表现的同时,带来最佳的推理效率,显存占用、平均推理时间等领先优势显著;

🤔支持长思考、短思考可控混合推理,性能好、速度快。

首个高刷视频理解,兼顾性能与效率

看得更清更准,才能减少视觉信息的误差,提升视觉理解与推理准确性。更高刷新率,是画面流畅度的关键。

此前,主流的多模态模型在处理视频理解任务中,因为平衡算力、功耗等因素,通常采取 1 fps 抽帧,即每秒只能截取 1 帧画面进行识别和理解。虽然一定程度上保证了模型推理效率,但也因此缺失了绝大部分视觉信息,降低了多模态大模型对动态世界「精细化」的理解。

MiniCPM-V 4.5 是行业首个具备高刷视频理解能力的多模态模型,通过将模型结构从 2D-Resampler 拓展为 3D-Resampler,进行三维视频片段的高密度压缩,在同等视觉 Token 量开销下的情况下,最大可接收 6 倍视频帧数量,达到 96 倍视觉压缩率,是同类模型的 12-24 倍。

MiniCPM-V 4.5 通过显著增加抽帧频次,从看「PPT」变成理解「动态画面」,瞬间捕捉,洞见细节!面对一闪而过的画面,MiniCPM-V 4.5 要比 Gemini-2.5-Pro、GPT-5、GPT-4o 等代表性云端模型看得更准、更细。

在 MotionBench、FavorBench 两项体现高刷视频理解能力的榜单中,MiniCPM-V 4.5 达到同尺寸 SOTA,且超过 Qwen2.5-VL 72B,实现越级领先水平

图片

最强端侧多模态,图片、视频理解全 SOTA

以小博大,一直是面壁小钢炮 MiniCPM 的模型特色。这一次,MiniCPM-V 4.5 凭借 8B 参数,在图片理解、视频理解、复杂文档识别等多模态能力上再次刷新能力上限。

图片

图片理解性能上,MiniCPM-V 4.5 在 OpenCompass 测评中,领先GPT-4o、GPT-4.1、Gemini-2.0-Pro 等众多闭源模型 ,甚至超过 Qwen2.5-VL 72B,实现越级领先。

图片

视频理解性能上,MiniCPM-V 4.5 在 LVBench、MLVU、Video-MME、LongVideoBench 等榜单中,均达到同级最佳水平。

图片

在复杂文档识别任务中,MiniCPM-V 4.5 在 OmniDocBench 榜单的 OverallEdit、TextEdit、TableEdit 三项指标上,均取得了通用多模态模型同级别的 SOTA 表现。

图片

此外,MiniCPM-V 4.5 同时支持常规模式和深度思考模式,实现了性能与响应速度的有效平衡,常规模式在绝大部分场景下提供出色的多模态理解能力,深度思考模式则专注于应对复杂与复合型推理任务。

极致推理性价比,端侧应用优选

在端侧 AI 应用持续升温的当下,模型能力再强,如果无法在端侧设备上稳定、流畅运行,一切都是空谈。

面壁小钢炮 MiniCPM 不断提升模型的「能力密度」,也一直致力于追求大模型的极致「能效比」,通过更低的显存占用、更快的响应速度,确保在提供 SOTA 级多模态表现的同时,也实现最佳的推理效率和最低的推理开销。

在视频理解榜单 VideoMME、以及单图OpenCompass测试中,MiniCPM-V 4.5达到同级SOTA水平,显存占用、平均推理时间等方面领先优势显著

其中,在覆盖短、中、长三种类型的视频理解评测集 Video-MME 上,MiniCPM-V 4.5 采用 3 帧打包策略进行推理,时间开销(未计算模型抽帧时间)仅为同级模型的 1/10 。

图片
02


技术解析


MiniCPM-V 4.5 作为多模态模型的新旗舰,之所以具备「高刷」视频理解能力、并取得图片理解、OCR、长视频理解等 SOTA ,主要得益于在模型结构、训练范式等领域的创新。

03


社区推理&微调实践


模型推理

importtorchfromPILimportImagefrommodelscopeimportAutoModel,AutoTokenizertorch.manual_seed(100)model=AutoModel.from_pretrained('OpenBMB/MiniCPM-V-4_5',trust_remote_code=True,#oropenbmb/MiniCPM-o-2_6attn_implementation='sdpa',torch_dtype=torch.bfloat16)#sdpaorflash_attention_2,noeagermodel=model.eval().cuda()tokenizer=AutoTokenizer.from_pretrained('OpenBMB/MiniCPM-V-4_5',trust_remote_code=True)#oropenbmb/MiniCPM-o-2_6image=Image.open('./assets/minicpmo2_6/show_demo.jpg').convert('RGB')enable_thinking=False#If`enable_thinking=True`,thethinkingmodeisenabled.#Firstroundchatquestion="Whatisthelandforminthepicture?"msgs=[{'role':'user','content':[image,question]}]answer=model.chat(msgs=msgs,tokenizer=tokenizer,enable_thinking=enable_thinking)print(answer)#Secondroundchat,passhistorycontextofmulti-turnconversationmsgs.append({"role":"assistant","content":[answer]})msgs.append({"role":"user","content":["WhatshouldIpayattentiontowhentravelinghere?"]})answer=model.chat(msgs=msgs,tokenizer=tokenizer)print(answer)
显存占用:


模型微调

ms-swift已经支持对MiniCPM-V-4_5模型进行训练。ms-swift是魔搭社区官方提供的大模型与多模态大模型训练部署框架。

ms-swift开源地址:

https://github.com/modelscope/ms-swift

下面展示可运行的微调demo,并给出自定义数据集的格式。

在开始微调之前,请确保您的环境已准备妥当。

#pipinstallgit+https://github.com/modelscope/ms-swift.gitgitclonehttps://github.com/modelscope/ms-swift.gitcdms-swiftpipinstall-e.pipinstallgit+https://github.com/huggingface/transformers.git

如果您需要自定义数据集微调模型,你可以将数据准备成以下格式。

{"messages":[{"role":"user","content":"<image><image>Whatisthedifferencebetweenthetwoimages?"},{"role":"assistant","content":"Thefirstoneisakitten,andthesecondoneisapuppy."}],"images":["/xxx/x.jpg","/xxx/x.png"]}

训练脚本:

#20GCUDA_VISIBLE_DEVICES=0\swiftsft\--modelOpenBMB/MiniCPM-V-4_5\--dataset'AI-ModelScope/LaTeX_OCR:human_handwrite#20000'\--split_dataset_ratio0.01\--train_typelora\--torch_dtypebfloat16\--num_train_epochs1\--per_device_train_batch_size1\--per_device_eval_batch_size1\--learning_rate1e-4\--lora_rank8\--lora_alpha32\--target_modulesall-linear\--freeze_vittrue\--gradient_accumulation_steps16\--eval_steps50\--save_steps50\--save_total_limit2\--logging_steps5\--max_length2048\--output_diroutput\--warmup_ratio0.05\--dataloader_num_workers4
显存占用


训练完成后,使用以下命令进行推理:

CUDA_VISIBLE_DEVICES=0\swiftinfer\--adaptersoutput/vx-xxx/checkpoint-xxx\--streamtrue\--load_data_argstrue\--max_new_tokens2048
推送模型到ModelScope:
swiftexport\--adaptersoutput/vx-xxx/checkpoint-xxx\--push_to_hubtrue\--hub_model_id'<your-model-id>'\--hub_token'<your-sdk-token>'






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5