返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

苹果深夜开源FastVLM:速度飙升85倍,0.5B小模型要逼疯谁?

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 19:25 |阅读模式 打印 上一主题 下一主题

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;text-align: left;text-indent: 0px;text-transform: none;word-spacing: 0px;-webkit-text-stroke-width: 0px;background-color: rgb(255, 255, 255);text-decoration: none;">昨晚刷 Hugging Face 的时候,看到一个熟悉的 logo——苹果又低调开源新模型了,名字叫FastVLM。说实话,现在大模型满天飞,大家的阈值都高了。但苹果这个模型,有点意思,为自家硬件优化。它不跟你卷参数量,上来就甩出一个 0.5B 的迷你版。然后告诉你,它的“首Token响应时间”(Time-to-First-Token)比同尺寸的 LLaVA 快了85 倍

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;text-align: left;text-indent: 0px;text-transform: none;word-spacing: 0px;-webkit-text-stroke-width: 0px;background-color: rgb(255, 255, 255);text-decoration: none;">

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-caps: normal;letter-spacing: normal;text-align: left;text-indent: 0px;text-transform: none;word-spacing: 0px;-webkit-text-stroke-width: 0px;background-color: rgb(255, 255, 255);text-decoration: none;">“快”就一个字,苹果说了 85 遍

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;text-align: left;text-indent: 0px;text-transform: none;word-spacing: 0px;-webkit-text-stroke-width: 0px;background-color: rgb(255, 255, 255);text-decoration: none;">我们先来看最吓人的亮点。根据官方说法,FastVLM-0.5B这个最小的版本,在和社区热门的LLaVA-OneVision-0.5B对比时,实现了:

    ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 16px;font-style: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: auto;text-align: left;text-indent: 0px;text-transform: none;white-space: normal;widows: auto;word-spacing: 0px;-webkit-text-stroke-width: 0px;background-color: rgb(255, 255, 255);text-decoration: none;" class="list-paddingleft-1">
  • 85x 更快的首字响应时间 (Time-to-First-Token, TTFT)

  • 3.4x 更小的视觉编码器 (Vision Encoder)

Accuracy vs latency figure.

官方性能对比图,FastVLM 在延迟上优势明显

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;text-align: left;text-indent: 0px;text-transform: none;word-spacing: 0px;-webkit-text-stroke-width: 0px;background-color: rgb(255, 255, 255);text-decoration: none;">TTFT 这个指标,我个人觉得是评价多模态模型“体验感”的核心。它决定了你把图片扔给模型后,需要等多久才能看到它开始“说话”。漫长的等待会瞬间浇灭所有交互的乐趣。85倍的提速,意味着交互体验从“焦急等待”变成了“即时反馈”,这对于任何需要实时响应的应用场景,比如智能助手、AR眼镜,都是革命性的。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;text-align: left;text-indent: 0px;text-transform: none;word-spacing: 0px;-webkit-text-stroke-width: 0px;background-color: rgb(255, 255, 255);text-decoration: none;">更别提那个小了 3.4 倍的视觉编码器。更小,意味着更低的内存占用,更快的加载速度,以及在端侧设备(懂的都懂,比如未来的 iPhone、Vision Pro)上运行的巨大潜力。这很“苹果”。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-caps: normal;letter-spacing: normal;text-align: left;text-indent: 0px;text-transform: none;word-spacing: 0px;-webkit-text-stroke-width: 0px;background-color: rgb(255, 255, 255);text-decoration: none;">凭啥这么快

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;text-align: left;text-indent: 0px;text-transform: none;word-spacing: 0px;-webkit-text-stroke-width: 0px;background-color: rgb(255, 255, 255);text-decoration: none;">天下没有免费的午餐,这么快的速度背后肯定有黑科技。苹果在论文(CVPR 2025,又是一篇顶会)里介绍了他们的秘密武器:FastViTHD,一个新颖的混合视觉编码器。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-style: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;text-align: left;text-indent: 0px;text-transform: none;word-spacing: 0px;-webkit-text-stroke-width: 0px;background-color: rgb(255, 255, 255);text-decoration: none;">说白了,传统VLM处理高分辨率图片时,会把图片切成一堆小块(patches),然后每个小块都变成一个或多个“视觉token”,一股脑儿全塞给语言模型。图片越清晰,token越多,LLM的计算压力就越大,速度自然就慢下来了。

FastViTHD就像一个聪明的项目经理。它拿到高清图片后,没有直接把成百上千个细节都丢给大老板(LLM),而是先自己“预处理”和“总结”了一番,提取出最关键的视觉信息,生成数量少得多的、高质量的视觉token。

打个比方,LLM是CEO,FastViTHD就是CEO的得力特助。以前的助理是把一千页的原始报告直接拍在CEO桌上,而FastViTHD则是把报告精炼成一页的摘要,还附上了关键数据图表。CEO看一眼就能抓住重点,决策速度自然快得飞起。

这个设计,直接从根源上缓解了LLM处理视觉信息的瓶颈,实现了“又快又好”的编码。

性能跑分

当然,光快没用,还得看效果。苹果给出了从 0.5B 到 7B 三个尺寸的详细评测数据。

BenchmarkFastVLM-0.5BFastVLM-1.5BFastVLM-7B
Ai2D68.077.483.6
ScienceQA85.294.496.7
MMMU33.937.845.4
VQAv276.379.180.8
ChartQA76.080.185.0
TextVQA64.570.474.9
InfoVQA46.459.775.8
DocVQA82.588.393.2
OCRBench63.970.273.1
RealWorldQA56.161.267.2
SeedBench-Img71.074.275.4

咱们就看FastVLM-0.5B这个小家伙。在像 DocVQA(文档问答)、ScienceQA(科学问答)这些需要精细理解的榜单上,它分别拿到了 82.5 和 85.2 的高分。对于一个只有 5 亿参数的模型来说,这个成绩相当扎实了,证明它的“快”并没有以牺牲太多“准”为代价。

更有趣的是,这个架构的扩展性很好。当模型尺寸增加到 7B 时,各项性能都出现了大幅跃升,在多个榜单上已经可以和业界最新的SOTA模型掰手腕了。这说明FastViTHD这个设计不是小模型的“特技”,而是一个普适且高效的架构。

上手体验:代码有点“原生态”

聊了这么多,肯定有同学想赶紧上手试试了。官方提供了两种方式,一种是通过他们自家的库ml-fastvlm(兼容Apple的硬件),另一种是直接用transformers

pythonpredict.py--model-path/path/to/checkpoint-dir\
--image-file/path/to/image.png\
--prompt"Describe the image."

总结

总的来说,FastVLM的发布,我个人感觉是比发布一个几百B的巨无霸模型更让我兴奋。在“越大越好”的肌肉竞赛逐渐进入瓶颈期时,苹果用FastVLM展示了另一条路:极致的效率优化。这和苹果一贯的产品哲学——软硬件深度结合,追求极致能效比——一脉相承。我们可以大胆猜测,这类轻快、高效的模型,就是为未来真正跑在数十亿人手机、手表、眼镜上的AI助理准备的。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ