链载Ai

标题: 2024.6 W2 商用LLM API进展简评 [打印本页]

作者: 链载Ai    时间: 2 小时前
标题: 2024.6 W2 商用LLM API进展简评

0、前言

本期已经是“商用LLM API进展扫描”系列的第3篇了,前序文章:

本期主要讨论从2024.4-2024.6的商用LLM API的进展,以实际开放API的能力为准。同上次一样,会忽略一些目前不活跃的玩家。

本系列的目的是为了让已经不关注商用LLM API进展的人能够了解目前进展,以及是我评论整个闭源LLM生态的基础材料。

1、总评

如果说2024Q1是全球第一梯队的集中更新,那么Q2就是第二梯队的集中更新,国内不少玩家终于不再搞纸面PPT PR,而是终于拿出了公开可用的API服务,接受公众的直接评价。

从更新结果上来说,国内的不少玩家交出的答卷也很让人惊讶,颇有与第一梯队一决高下的水平,例如:零一万物、字节豆包模型、百川。

1.1、已经普及的附加功能

随着整个生态的持续迭代,已经有一些附加功能成为标配。所以会在本节对其进行说明,而不在后面一一说明。

首个进入该分类的功能是:

连开源的Llama 3都已经支持system prompt,目前不支持system prompt的只有:Google gemini、Reka、Minimax(minimax有非标准形式的支持)。

后续较快会进入该分类的功能展望:

2、模型推荐

本文并不涉及模型的核心能力比较,而且模型的适用程度的相对排序跟任务场景强相关。但为了照顾读者初步筛选模型的需求,所以会给一个范围较宽的推荐,更接近于“在其中的值得试一试”。

由于目前模型实在太多,且有些模型的能力较为偏颇,所以我给的推荐相对中庸一些,尽量适合于各种场景又不至于列了太多模型。有些供应商没有入选是因为一些非技术问题,例如风控、充值流程等。

会收录一些开源模型,有第三方推理平台提供API服务。

2.1、高难度场景(最强模型)

2.2、中等难度场景(性价比模型)

2.3、长上下文场景

长上下文场景目前没有好的评测,简单的大海捞针已经没有区分度,所以我前面构造了一个加大难度版的大海捞针做了一轮自费评测,该评测能覆盖的问题也仍然很局限。具体见:(如果此文章被删了,请到公众号查看最新版)

2024.6横向对比各家LLM的Long Context (合集 V1.10)

结合我目前看到的各种信息,该场景的推荐名单如下:

32k水平

128k水平


3、海外第一梯队

3.1、OpenAI

https://platform.openai.com/docs/api-reference/

OpenAI在5.13日发布了原生多模态的GPT4o模型,重点在于语音输入和输出的效果显著提升,视频输入部分未来在API上开放的能力尚不清楚。

API特性简述:

GPT-4.5没来,只发布了GPT4o,训练数据截至时间还倒退了一些。OpenAI的研发速度也开始有点跟不上每季度一次的发布。

3.2、Google

https://ai.google.dev/models/gemini

Google在5.14的I/O大会上发布了Gemini 1.5 Flash,并将Gemini 1.5 Pro的context提升到2M token。

API特性简述:

Google的Gemini 1.5 Pro是全球最早发布2M context能力的厂家,也是最先将1M context能力接入到API的厂家。

3.3、Anthropic

https://docs.anthropic.com/claude/reference/messages_post

Anthropic在3月发布了Claude 3系列,其中Opus版本已经基本打平GPT-4,Haiku、Sonnet也具有不错性价比。全线模型未来都会支持1M token context。

本节相对于上次4月进展整理文没有更新。

API特性简述:

最小规模的claude-3-haiku有明显为简单任务进行特化。

3.A、Meta Llama 3

https://ai.meta.com/blog/meta-llama-3/

Llama系列其实并不属于本文的扫描范围,因为Meta并没有官方部署和提供它的API,它支持的语言和附加功能也很少。不过因为它作为开源模型太有代表性,且Meta也一直没有闭源的模型,而是直接拿Llama 3开始构建AI应用,所以也拿来一起比较。

Llama 3是在4.18发布的,没有带来什么架构改变,完全是暴力堆语料和堆算力,能让大家继续抄的地方并不多。后续还计划发布400B版本和多模态版本。


4、海外其他活跃玩家

注意:本节的各厂商并没有好于国内,只是出于跟上一节连续所以放在这里。

4.1、Mistral

https://docs.mistral.ai/api/

Mistral最近动作不多,仅增加了微调服务。

API特性简述:


4.2、cohere Command

https://docs.cohere.com/reference/about

cohere在2024.4月发布了Command R+模型,同时有开源(104B)。

API特性简述:

cohere更侧重RAG方向,也有提供少有的rerank模型。

4.3、Reka

https://docs.reka.ai/api-reference/chat/create

Reka在2024.4.15发布了Reka Core模型,支持多模态(图像、视频、音频)输入。Reka Core的在ChatBot Arena排行榜上与Claude 3 Sonnet接近。

API特性简述:

海外的新玩家,战略上更侧重多模态输入。Reka给人感觉还有点早期,6月才支持了stream返回。

5、国内第一梯队

5.1、智谱 GLM

https://open.bigmodel.cn/dev/api#language

智谱在6.5发布了新一批模型,新增了glm-4-flash、glm-4-air这样的高性价比版本。

API特性简述:

5.2、零一万物 Yi

https://platform.lingyiwanwu.com/

零一万物在2024.5.13更新了新一代模型,Yi-Large在Chatbot Arena榜单上排名很高。

https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

API特性简述:

零一万物一跃而起。

5.3、阿里巴巴 Qwen

https://help.aliyun.com/zh/dashscope/developer-reference/api-details

虽然qwen在6月更新了qwen2系列开源模型,但闭源模型方面没有可感知的更新。

API特性简述:

qwen的long context已经是相对弱项了。

5.4、字节跳动 Doubao

https://www.volcengine.com/docs/82379/1159177

字节在5.15的发布会上才首次宣传新的Doubao系列模型,替换了之前的Skylark系列,并终于在6.5日向个人开发者开放API。

Doubao-pro的效果是不错的,再结合其较低的定价,已经成为值得考虑的候选。

5.5、百度 ERNIE

https://cloud.baidu.com/doc/WENXINWORKSHOP/s/clntwmv7t

自从百度在2023年10月发布了ERNIE 4.0之后,就再无大的动静。从文档上来看还有新的ERNIE Speed系列模型推出,也实现了128k context,但再无可感知的更新。

API特性简述:

百度开始提供LLM API层面的memory能力,除此以外仍然在沉寂。

6、国内其他的活跃的玩家

本节的各玩家总体来说最近动作不断,而且各家的最新模型缺乏第三方使用评价,所以很难排序。

6.1、Moonshot

https://platform.moonshot.cn/docs

Moonshot在10月首发,内测了很久后终于在2024.2公开了API。在3月发布了1M context的chatbot内测,没有发布到API的时间消息。

6.2、百川智能 Baichuan

https://platform.baichuan-ai.com/docs/api

百川智能在5.22发布了Baichuan4,同时放出Baichuan4和Baichuan3-Turbo的API,以及终于开启了API个人用户支持。

百川经过一段时间的蛰伏之后,终于发布了新版本并开放了API。

6.3、Minimax abab

https://api.minimax.chat/document/guides/chat-model/pro/api?id=6569c85948bc7b684b30377e

Minimax在4.17日发布了abab 6.5系列,最强模型abab6.5-chat的context长度上退步了。

Minimax是从特化角色扮演类场景切入的,Minimax在产品化上的投入大概比它基础LLM要更大。

目前来看long context也是Minimax的弱项。

现在Minimax是唯一即没有官方SDK、也不支持OpenAI协议的LLM供应商。

6.4、阶跃星辰 Step

https://platform.stepfun.com/docs/api-reference/chat/chat-completion-create

阶跃星辰2024年3月首次公开宣传。

6.5、深度求索 DeepSeek

https://platform.deepseek.com/docs

深度求索在5.8日更新了DeepSeek V2模型,并开源。


6.6、商汤 SenseChat

https://platform.sensenova.cn/doc?path=%2Fmodel%2Fllm%2FGeneralLLM.md

商汤在4.23发布了SenseNova 5.0模型。

商汤也终于正式上了牌桌。(不过API线上支付都不支持chrome浏览器。)

6.7、腾讯 hunyuan

https://cloud.tencent.com/document/product/1729/104753

腾讯在4月更新了自己的LLM,API接口更符合一般习惯,以及在5月开始支持256k context。

一直以来腾讯的混元是一个被用户忽视的对象,目前hunyuan-pro已经算是能够一个看得过去的成绩出现在排行榜里了。过去半年中混元的进步速度还是比较快的。


6.8、讯飞 Spark

https://www.xfyun.cn/doc/spark/Web.html

本节距离本系列上期更新没有实质变化。

值得一提的是:讯飞终于提供了官方Python SDK。


7、功能维度总结

7.1、Tools(原Function Calling)

Tools虽然可以用prompt进行模拟,但考虑到各种情况结果的处理和目前应用开发者的普遍能力情况,我建议应用开发者还是使用支持tools的模型或至少支持json mode输出的模型。

目前来看,全球范围内第一梯队的各家都已经标配该功能,该功能的必要性已经是共识。

7.2、Long Context

足够大的context window是不少场景的刚需,如果只有2-4k context的LLM,不少任务要做的非常复杂甚至无法实现。

从各家情况来看,32k context已经接近于全员标配,最终大家都会上到支持至少128k。

有一些玩家已经开启了超长context能力的竞争(>1M token),这方面的应用价值和成本还有待观察。

7.3、Finetune as a Service

官方提供微调服务已经在逐步普及,不过目前大多只支持最小规模的模型微调,在可选的模型规模方面还没有达到能够替换开源模型的微调。

7.4、搜索与RAG

越来越多的LLM供应商都开始提供RAG和实时搜索tool。

7.5、角色扮演模型

国内LLM供应商大多提供了角色扮演的特化模型,海外这方面还很少见。

7.6、VL模型

支持文字和图片输入的VL模型能力也在逐步趋向于各家标配的feature。

7.7、多步推理和决策能力的改进

目前在各家LLM供应商侧还看不到任何征兆。LLM API之上的Agent框架中,也没有任何有希望落地的方案。

总体而言就是还不要指望。

8、个人评论

直到本期,终于各家LLM供应商都能够推出公开的API供一般用户使用,在我看来至此绝大部分玩家才终于都上到牌桌之上。

本次的一个特点是一些玩家的新模型效果提升很大,在各家最强能力模型效果趋近的基础上,各家开始卷性价比了。这次看到了不少性价比颇为不错的模型候选,从应用层的角度来说,这个季度的新模型简直是狂欢。

LLAMA 3没有带来什么架构上的变化,意料之外,情理之中。后面还要看LLAMA是否能拿出一个VL模型的样板教材。

GPT-4.5仍然没有消息,越来越多的人开始接受GPT-4.5不会发布的预期。GPT-5呢?我个人对于GPT-5的能力提升没有太大的期望。

8.1、关于价格战

Q2引起很大传播的一个事情是LLM的价格战,搞得好像所有模型都几乎不要钱了一样。但实际上并不是,只是各家都拿出了最低端的模型来打低价而已,而且还可以用补贴换数据,未必是亏的。

实际上只有几个模型才可能算是超高性价比,例如:

但他们相对于海外三巨头的gemini 1.5 flash、claude-3-haiku又如何呢?

在这轮价格战噱头中,我目前高看的只有深度求索和字节跳动的推理工程优化能力,deepseek-chat是一个236B的MoE模型,Doubao-pro的规模未知但应该也不太小,能把这些模型做到1RMB/M token输入,2RMB/M token输出说明推理工程优化的能力是真的强。

虽然这轮价格战大多是噱头,但作为各家开始卷性价比的起点还是没问题的,各家终于开始或主动或被动的开始重视成本优化了,这对于这之上的应用层是真的利好。

为了方便大家比较,这里特地做了一个价格表,并附带了几个我认为重要的功能维度。

交流与合作

如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请私信联系,见 联系方式。

本文于2024.6.10首发于微信公众号与知乎。

知乎链接 https://zhuanlan.zhihu.com/p/702611918






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5