链载Ai

标题: 微软发布多模态模型Phi-3-vision,仅4.2B,小模型大潜力 [打印本页]

作者: 链载Ai    时间: 1 小时前
标题: 微软发布多模态模型Phi-3-vision,仅4.2B,小模型大潜力

前言

在大型语言模型(LLM)领域,模型参数规模与性能之间一直存在着密切的联系。近年来,虽然参数规模不断攀升,但随之而来的训练成本和推理成本也成为了制约模型发展的瓶颈。为了打破这一困境,微软推出了 Phi-3 模型家族,旨在用更小的模型实现更高的性能。近期,微软在 Build 大会上发布了 Phi-3 家族的新成员——Phi-3-vision,一个仅有 42 亿参数的多模态模型,展现了小模型的巨大潜力。

技术特点

Phi-3-vision是Phi-3家族中的第一个多模态模型,结合了文本和图像视觉功能,以及对现实世界图像进行推理和从图像中提取文本并进行推理的能力。同时还针对图表和图解的理解进行了优化,可用于生成数据洞见和回答问题。Phi-3-vision是在Phi-3-mini的基础模型上构建的,微软继续坚持小型模型大潜力的路线:提供了强大的语言和图像视觉推理性能。

性能表现

Phi-3-vision 的性能表现超乎预期,在通用视觉推理任务、OCR、表格和图表理解任务中超越了像 Claude-3 Haiku 和 Gemini 1.0 Pro V 这样的更大模型。这充分证明了 Phi-3 家族在小模型设计方面的成功,以及在多模态领域的强大实力。

优势:

Phi-3 模型家族:

除了 Phi-3-vision,微软还发布了其他三个 Phi-3 模型:

这些模型均已开源,在 Hugging Face 平台上可以找到所有 Phi-3 模型。

应用场景

Phi-3 模型家族具有广泛的应用场景:

总结

Phi-3-vision 的发布,再次证明了微软在 LLM 领域的技术实力,并展现了小模型在多模态领域的巨大潜力。随着技术的不断发展,相信 Phi-3 模型家族将会在更多领域发挥作用,为人们的生活带来更多便利和乐趣。

模型下载

HuggingFace

https://huggingface.co/microsoft/Phi-3-vision-128k-instruct

AI快站模型免费加速下载

https://aifasthub.com/models/microsoft









欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5