链载Ai

标题: 实测Llama 4,究竟是王者归来,还是廉颇老矣? [打印本页]

作者: 链载Ai    时间: 5 小时前
标题: 实测Llama 4,究竟是王者归来,还是廉颇老矣?

引言

东风袅袅泛崇光,香雾空蒙月转廊。小伙伴们好,我是微信公众号<小窗幽记机器学习>的小编卖铁观音的小男孩。Meta AI 近日发布了其最新的 Llama 4 模型系列,开启原生多模态 AI 新纪元。该系列包括Llama 4 ScoutLlama 4 Maverick两款高效模型,以及作为教师模型的Llama 4 Behemoth。这些模型旨在赋能开发者构建更具个性化的多模态体验,并在各自的规模级别上展现出卓越的性能。

简介

相比于之前的模型,Llama 4系列模型是混合专家架构(MoE)的多模态模型,能够支持文本和多模态体验(输入支持文本和图片,但是输出结果尚未支持图片)。截至目前(4月6日)官方开放Llama 4系列的两个高效模型的下载。

1、Llama 4 Scout

2、Llama 4 Maverick

3、Llama 4 Behemoth

更多大模型相关,欢迎关注微信公众号《小窗幽记机器学习》:

核心技术

1. 混合专家架构:

Llama 4 模型是 Meta 首批采用混合专家 (MoE) 架构的模型。在 MoE 模型中,每个输入 token 只会激活模型总参数中的一小部分。这种架构在训练和推理时都更加计算高效,并且在给定的计算预算下,能够产生比密集模型更高质量的结果。

2. 原生多模态集成:

Llama 4 模型系列被设计为原生多模态,通过早期融合 (early fusion)将文本和视觉 tokens 无缝集成到统一的模型骨干中。 这种方法实现了模型在大量未标注的文本、图像和视频数据上的联合预训练。Llama 4 还改进了视觉编码器,该编码器基于 MetaCLIP,但与冻结的 Llama 模型联合训练,以更好地适应 LLM。

3. 先进的预训练技术:

4. 精细的后训练流程:

Llama 4 模型采用了改进的后训练流程,以平衡多模态输入、推理和对话能力。该流程包括:

5. Llama 4 Scout 的独特优势

6. Llama 4 Maverick 的卓越性能

从LiveCodeBench评测结果可以看出,Llama-4-Maverick-17B-128E (402B)代码能力不及DeepSeek-V3-0324。四个多模态测试(Image Reasoning MMLU, MathVista, Image understanding ChartQA, DocVQA)Llama-4-Scout-17B-16E (109B)和 Llama-4-Maverick-17B-128E (402B)都优于 GPT-4o。单纯从榜单来看的话,llama-4 应该是最好的开源多模态大模型。

7. Llama 4 Behemoth:强大的教师模型

8. 大规模模型训练的挑战与应对

训练拥有两万亿参数的模型带来了巨大的挑战,需要对训练流程进行全面革新。为了最大化性能,Llama 4 Behemoth 在后训练中需要剪枝 95% 的 SFT 数据,以确保对质量和效率的关注。 大规模强化学习 (RL) 也需要革新底层 RL 基础设施,Meta 团队优化了 MoE 并行化设计以提高速度,并开发了完全异步的在线 RL 训练框架,实现了约 10 倍的训练效率提升。

9. 安全保障与偏见缓解

Meta 非常重视 Llama 4 模型的安全性和可靠性。

实战

由于Scout和Maverick分别支持10M和1M的上下文,并支持输入图片。下面将基于长文档问答和图片理解任务进行实战评测。

长文档问答

输入文档:是一份产品使用说明书,这里随便选取荣耀70 Pro的用户手册文档荣耀70 Pro 用户手册-(Magic UI 6.1_01,zh-cn).pdf,答案所在原文段落如下:

输入文字:

怎么拍摄带有水印的照片?

Llama-4-Scout

Llama-4-Maverick

Gemini2.5结果

具体使用的模型版本是Gemini 2.5 Pro Preview 03-25,输出结果如下:

图片理解(写朋友圈文案)

输入图片:

输入文字:

基于这张图,帮我写一条朋友圈文案,要求富有诗意和人生哲理,字数<100。

Llama-4-Scout

Llama-4-Maverick

Gemini2.5结果

具体使用的模型版本是Gemini 2.5 Pro Preview 03-25,输出结果如下:

好的,这里有几条供您选择:

选项一:

暮色温柔,繁花依旧。生命纵有黄昏时,亦可向光而行,从容绽放。

选项二:

夕阳熔金,玫瑰盛放。温柔了岁月,惊艳了时光。愿珍惜每一刻美好。

选项三:

落日余晖,花影婆娑。心若有景,何惧日晚风斜?安于当下,静待芬芳。

选项四:

花开向晚霞,温柔落心间。世事皆浮沉,唯美与心安不可负。

选项五:

赏一场落日,看一季花开。人间浪漫,不过是温柔的坚持与热爱。

希望这些文案能触动你!

图片信息抽取

输入图片:

输入文本:

以json格式输出抽取到的文字内容,key值"ocr_res",value值是抽取到的文字结果。

Llama-4-Scout

Llama-4-Maverick

Claude-3.7-Sonnet

Gemini2.5结果

表格问答

输入图片:

输入问题:

从Arena Score上看,Top 5分别是哪5个?

From the Arena Score, what are the top 5 best models?

Llama-4-Scout

Llama-4-Maverick

Qwen2.5VL-7B结果

Gemini2.5结果

根据图片中"Arena Score"这一列的数据,得分最高的 Top 5 模型分别是:

1. **Gemini-2.5-Pro-Exp-03-25** (Arena Score: 1439)
2. **Llama-4-Maverick-03-26-Experimental** (Arena Score: 1417)
3. **ChatGPT-4o-latest (2025-03-26)** (Arena Score: 1410)
4. **Grok-3-Preview-02-24** (Arena Score: 1403)
5. **GPT-4.5-Preview** (Arena Score: 1398)

总结

Llama 4 模型系列的问世标志着 AI 领域的重大突破,其在模型架构、训练方法、多模态能力和安全性方面均展现出卓越水平。该系列引入的混合专家架构大幅提升了模型效率与性能,原生多模态集成为开发更加丰富的 AI 应用创造了条件,而千万级上下文窗口则为长序列数据处理提供了强大支持,这也使得 RAG 技术的应用范围受到一定挤压。

从实际应用效果来看,Llama 4 特别适合超长文档处理场景,如翻译、文档摘要和问答,以及各类多模态任务。不过,在中文环境下,Llama 4 的多模态处理能力仍显不足,比如,表格问答任务里面,同一张图片,使用英文提问的回答效果显著优于中文提问。中文多模态任务中,Llama 4与国产的 Qwen 2.5VL 系列相比有明显差距,因此在中文应用场景中还需进一步微调优化。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5