微信扫码
与创始人交个朋友
我要投稿
本期已经是“商用LLM API进展扫描”系列的第3篇了,前序文章:
本期主要讨论从2024.4-2024.6的商用LLM API的进展,以实际开放API的能力为准。同上次一样,会忽略一些目前不活跃的玩家。
本系列的目的是为了让已经不关注商用LLM API进展的人能够了解目前进展,以及是我评论整个闭源LLM生态的基础材料。
如果说2024Q1是全球第一梯队的集中更新,那么Q2就是第二梯队的集中更新,国内不少玩家终于不再搞纸面PPT PR,而是终于拿出了公开可用的API服务,接受公众的直接评价。
从更新结果上来说,国内的不少玩家交出的答卷也很让人惊讶,颇有与第一梯队一决高下的水平,例如:零一万物、字节豆包模型、百川。
随着整个生态的持续迭代,已经有一些附加功能成为标配。所以会在本节对其进行说明,而不在后面一一说明。
首个进入该分类的功能是:
System prompt
连开源的Llama 3都已经支持system prompt,目前不支持system prompt的只有:Google gemini、Reka、Minimax(minimax有非标准形式的支持)。
后续较快会进入该分类的功能展望:
Json mode
Tools(原Function calling)
32k context
实时搜索tool
本文并不涉及模型的核心能力比较,而且模型的适用程度的相对排序跟任务场景强相关。但为了照顾读者初步筛选模型的需求,所以会给一个范围较宽的推荐,更接近于“在其中的值得试一试”。
由于目前模型实在太多,且有些模型的能力较为偏颇,所以我给的推荐相对中庸一些,尽量适合于各种场景又不至于列了太多模型。有些供应商没有入选是因为一些非技术问题,例如风控、充值流程等。
会收录一些开源模型,有第三方推理平台提供API服务。
OpenAI的GPT-4o
Google的Gemini 1.5 Pro
Anthropic的claude-3-opus、claude-3-sonnet
智谱的glm-4-0520
零一万物的yi-large、yi-large-turbo
阿里巴巴的qwen-max、开源的qwen2-72B
百川智能的Baichuan4
Meta的Llama 3 70B(纯英文场景)
百度的ERNIE 4.0
Mistral的Mistral Large
Minimax的abab6.5-chat
OpenAI的GPT-4o
Google的Gemini 1.5 Pro、Gemini 1.5 Flash
Anthropic的claude-3-sonnet、claude-3-haiku
智谱的glm-4-air/airx
零一万物的yi-large-turbo、yi-medium
字节跳动的Doubao-pro
阿里巴巴的开源的qwen2-72B、qwen2-57B-A14B
百川智能的Baichuan3-Turbo
深度求索的deepseek-chat
Minimax的abab6.5s-chat
Meta的Llama 3 70B(纯英文场景)
月之暗面的moonshot-v1
百度的ERNIE-3.5、ERNIE-Speed
长上下文场景目前没有好的评测,简单的大海捞针已经没有区分度,所以我前面构造了一个加大难度版的大海捞针做了一轮自费评测,该评测能覆盖的问题也仍然很局限。具体见:(如果此文章被删了,请到公众号查看最新版)
2024.6横向对比各家LLM的Long Context (合集 V1.10)
结合我目前看到的各种信息,该场景的推荐名单如下:
32k水平:
Google的Gemini 1.5 Pro、Gemini 1.5 Flash
Anthropic的claude-3-haiku、claude-3-sonnet、claude-3-opus
OpenAI的GPT-4o
字节跳动的Doubao-pro
智谱的glm-4-flash、glm-4-air/airx、glm-4-0520(速度较慢)
零一万物的yi-large、yi-medium-200k
Minimax的abab6.5s-chat
深度求索的deepseek-chat
月之暗面的moonshot-v1
阶跃星辰的step-1(速度较慢)
阿里巴巴的开源的qwen2-72B、qwen2-57B-A14B
百川智能的Baichuan3-Turbo-128k、Baichuan4(速度较慢)
Mistral的mistral-medium、mistral-large
128k水平:
Google的Gemini 1.5 Pro、Gemini 1.5 Flash
Anthropic的claude-3-haiku、claude-3-sonnet、claude-3-opus(速度较慢且贵)
OpenAI的GPT-4o
字节跳动的Doubao-pro
智谱的glm-4-flash、glm-4-air/airx、glm-4-0520(速度极慢)
零一万物的yi-medium-200k
月之暗面的moonshot-v1
百川智能的Baichuan3-Turbo-128k
阶跃星辰的step-1(速度较慢)
阿里巴巴的开源的qwen2-72B(效果未知)
深度求索的deepseek-chat(效果未知)
https://platform.openai.com/docs/api-reference/
OpenAI在5.13日发布了原生多模态的GPT4o模型,重点在于语音输入和输出的效果显著提升,视频输入部分未来在API上开放的能力尚不清楚。
API特性简述:
模型梯队:gpt-3.5-turbo、gpt-4o、(gpt-4-turbo已经过时)
VL模型:gpt-4o
语音识别模型:whisper-1;语音合成模型:tts-1、tts-1-hd。这两者未来会被gpt-4o替换,但目前尚未开放API。
Tools、json mode、logit_bias、logprobs
gpt-4o是128k context,gpt-3.5-turbo是16k context
微调API支持的模型:gpt-3.5-turbo
Assistants API https://platform.openai.com/docs/api-reference/assistants
GPT-4.5没来,只发布了GPT4o,训练数据截至时间还倒退了一些。OpenAI的研发速度也开始有点跟不上每季度一次的发布。
https://ai.google.dev/models/gemini
Google在5.14的I/O大会上发布了Gemini 1.5 Flash,并将Gemini 1.5 Pro的context提升到2M token。
API特性简述:
模型梯队:(gemini-1.0-pro已经过时)、gemini-1.5-flash、gemini-1.5-pro
VL模型:gemini-1.0-pro-vision、gemini-1.5-flash、gemini-1.5-pro
Tools(仍在beta阶段,gemini-1.0-pro和gemini-1.5-pro支持),json mode,不支持system prompt
gemini-1.5-flash提供1M+8k输出 context、gemini-1.5-pro提供2M+8k输出 context(目前API文档上仍然只写了1M)
微调API支持的模型:gemini-1.0-pro
知识库API:
Corpus https://ai.google.dev/api/rest/v1beta/corpora
Google的Gemini 1.5 Pro是全球最早发布2M context能力的厂家,也是最先将1M context能力接入到API的厂家。
https://docs.anthropic.com/claude/reference/messages_post
Anthropic在3月发布了Claude 3系列,其中Opus版本已经基本打平GPT-4,Haiku、Sonnet也具有不错性价比。全线模型未来都会支持1M token context。
本节相对于上次4月进展整理文没有更新。
API特性简述:
模型梯队:claude-3-haiku、claude-3-sonnet、claude-3-opus
VL模型:claude-3-sonnet、claude-3-opus支持图像输入
Tools、(通过tools模拟json mode)
claude-3系列目前提供200k context,输出最大4k,未来会扩展到1M context
最小规模的claude-3-haiku有明显为简单任务进行特化。
https://ai.meta.com/blog/meta-llama-3/
Llama系列其实并不属于本文的扫描范围,因为Meta并没有官方部署和提供它的API,它支持的语言和附加功能也很少。不过因为它作为开源模型太有代表性,且Meta也一直没有闭源的模型,而是直接拿Llama 3开始构建AI应用,所以也拿来一起比较。
Llama 3是在4.18发布的,没有带来什么架构改变,完全是暴力堆语料和堆算力,能让大家继续抄的地方并不多。后续还计划发布400B版本和多模态版本。
模型梯队:Llama 3 8B、Llama 3 70B
8k context
Llama 3 系列仍然主要只支持英文,与其他模型不同。
注意:本节的各厂商并没有好于国内,只是出于跟上一节连续所以放在这里。
https://docs.mistral.ai/api/
Mistral最近动作不多,仅增加了微调服务。
API特性简述:
模型梯队:mistral-small、mistral-medium、mistral-large
Tools、json mode
context是32k
微调API支持的模型:open-mistral-7b、mistral-small-latest
https://docs.cohere.com/reference/about
cohere在2024.4月发布了Command R+模型,同时有开源(104B)。
API特性简述:
模型梯队:command-light、command、command-r、command-r-plus
Tools、知识库RAG
command-r、command-r-plus支持128k context
微调API:支持对话、文本分类、rerank的微调,但不确定具体模型规格。
cohere更侧重RAG方向,也有提供少有的rerank模型。
https://docs.reka.ai/api-reference/chat/create
Reka在2024.4.15发布了Reka Core模型,支持多模态(图像、视频、音频)输入。Reka Core的在ChatBot Arena排行榜上与Claude 3 Sonnet接近。
API特性简述:
模型梯队:Reka Edge、Reka Flash、Reka Core
VL模型:Reka Core
其他feature:知识库RAG、搜索plugin、不支持system prompt
Reka Core支持128k context
海外的新玩家,战略上更侧重多模态输入。Reka给人感觉还有点早期,6月才支持了stream返回。
https://open.bigmodel.cn/dev/api#language
智谱在6.5发布了新一批模型,新增了glm-4-flash、glm-4-air这样的高性价比版本。
API特性简述:
模型梯队:glm-4-flash、glm-4-air/airx、glm-4-0520。
VL模型:glm-4v
Tools、RAG、web search插件、支持OpenAI协议
全线模型支持128k context
角色扮演模型:CharGLM-3
微调API:chatglm3-6b
https://platform.lingyiwanwu.com/
零一万物在2024.5.13更新了新一代模型,Yi-Large在Chatbot Arena榜单上排名很高。
https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
API特性简述:
模型梯队:Yi-Spark、Yi-Medium、Yi-Large-Turbo、Yi-Large(特化的Yi-Large-RAG)
VL模型:Yi-Vision
模型默认context是16k,vison模型是4k。yi-large支持32k,还有yi-medium-200k的特化版本
支持OpenAI协议
零一万物一跃而起。
https://help.aliyun.com/zh/dashscope/developer-reference/api-details
虽然qwen在6月更新了qwen2系列开源模型,但闭源模型方面没有可感知的更新。
API特性简述:
模型梯队:qwen-turbo、qwen-plus、qwen-max
VL模型:qwen-vl-plus、qwen-vl-max
语音识别模型:qwen-audio-turbo
Tools、支持实时搜索
默认是6k+2k输出 context,并提供30-32k左右的长上下文特化版本。
官方在主模型序列之外还有个qwen-long,测试结果应该是一个RAG方案。
微调API:提供qwen-turbo和一些开源模型的微调
qwen的long context已经是相对弱项了。
https://www.volcengine.com/docs/82379/1159177
字节在5.15的发布会上才首次宣传新的Doubao系列模型,替换了之前的Skylark系列,并终于在6.5日向个人开发者开放API。
模型梯队:Doubao-lite、Doubao-pro(特化版本pro-character、pro-functioncall)。
模型分为128k、32k、4k几个版本。
Tools,logprobs
火山引擎上有独立的语音合成和语音识别服务。https://www.volcengine.com/docs/6561/0
微调API支持的模型:支持,具体不模型版本清楚。
Doubao-pro的效果是不错的,再结合其较低的定价,已经成为值得考虑的候选。
https://cloud.baidu.com/doc/WENXINWORKSHOP/s/clntwmv7t
自从百度在2023年10月发布了ERNIE 4.0之后,就再无大的动静。从文档上来看还有新的ERNIE Speed系列模型推出,也实现了128k context,但再无可感知的更新。
API特性简述:
模型梯队:ERNIE 3.5、ERNIE 4.0、ERNIE Speed、ERNIE Lite、ERNIE Tiny等,定位上感觉有些混乱。
ERNIE 4.0、3.5支持:支持实时搜索(带citation),json mode、memory功能。
ERNIE 4.0支持5k+2k输出 context,ERNIE Speed和ERNIE 3.5有128k特化版。
微调API:提供ERNIE-Speed、ERNIE-Lite、ERNIE-Tiny系列和一些开源模型的微调
百度开始提供LLM API层面的memory能力,除此以外仍然在沉寂。
本节的各玩家总体来说最近动作不断,而且各家的最新模型缺乏第三方使用评价,所以很难排序。
https://platform.moonshot.cn/docs
Moonshot在10月首发,内测了很久后终于在2024.2公开了API。在3月发布了1M context的chatbot内测,没有发布到API的时间消息。
模型梯队:v1
支持128k context,还有单独的8k、32k版本。
Tools、和文件RAG,Partial Mode、支持OpenAI协议
https://platform.baichuan-ai.com/docs/api
百川智能在5.22发布了Baichuan4,同时放出Baichuan4和Baichuan3-Turbo的API,以及终于开启了API个人用户支持。
模型梯队:Baichuan3-Turbo、Baichuan3-Turbo、Baichuan4。长上下文特化版本Baichuan3-Turbo-128k
Tools、json mode、实时搜索,知识库检索(带citation)
Baichuan3以后各模型基础是32k,有128k特化版本。
通过特化的Baichuan-NPC-*模型支持角色扮演
支持Assistants API
百川经过一段时间的蛰伏之后,终于发布了新版本并开放了API。
https://api.minimax.chat/document/guides/chat-model/pro/api?id=6569c85948bc7b684b30377e
Minimax在4.17日发布了abab 6.5系列,最强模型abab6.5-chat的context长度上退步了。
模型梯队:abab5.5s-chat、abab5.5-chat、abab6.5s-chat、abab6.5-chat
语音合成:T2A、T2A Pro、T2A Large、T2A Stream
角色扮演的细节指定,Tools,支持实时搜索,json mode,知识库检索、raw_glyph 输出格式控制。
abab6.5s-chat支持245k context、abab6.5-chat支持8k context
类似OpenAI的Assistants API
微调API支持的模型:似乎是abab5.5s-chat
Minimax是从特化角色扮演类场景切入的,Minimax在产品化上的投入大概比它基础LLM要更大。
目前来看long context也是Minimax的弱项。
现在Minimax是唯一即没有官方SDK、也不支持OpenAI协议的LLM供应商。
https://platform.stepfun.com/docs/api-reference/chat/chat-completion-create
阶跃星辰2024年3月首次公开宣传。
模型梯队:step-1
VL模型:step-1v-8k和step-1v-32k
step-1支持256k、128k、32k、8k几个context版本。
支持OpenAI协议
https://platform.deepseek.com/docs
深度求索在5.8日更新了DeepSeek V2模型,并开源。
模型梯队:deepseek-chat(有单独的code模型)
32k context
支持OpenAI协议
https://platform.sensenova.cn/doc?path=%2Fmodel%2Fllm%2FGeneralLLM.md
商汤在4.23发布了SenseNova 5.0模型。
模型梯队:SenseChat-Turbo、SenseChat、SenseChat-5
VL模型:SenseChat-Vision(未公开可用)
Tools、知识库RAG
SenseChat-5支持128k context,输出4k;SenseChat有4k/32k/128k版本;SenseChat-Turbo是32k
角色扮演模型:SenseChat-Character
微调API:支持,模型未知。
商汤也终于正式上了牌桌。(不过API线上支付都不支持chrome浏览器。)
https://cloud.tencent.com/document/product/1729/104753
腾讯在4月更新了自己的LLM,API接口更符合一般习惯,以及在5月开始支持256k context。
一直以来腾讯的混元是一个被用户忽视的对象,目前hunyuan-pro已经算是能够一个看得过去的成绩出现在排行榜里了。过去半年中混元的进步速度还是比较快的。
模型梯队:hunyuan-lite、hunyuan-standard、hunyuan-pro
实时搜索
默认支持32k context,lite和hunyuan-standard-128k支持128k。
https://www.xfyun.cn/doc/spark/Web.html
本节距离本系列上期更新没有实质变化。
值得一提的是:讯飞终于提供了官方Python SDK。
模型梯队,V1.5、V3.0、V3.5,但价格上V3.0-V3.5定价是一样的。
VL模型:疑似V3.0及以后的模型都支持图像输入。
V3.0-V3.5:8k context window,支持一些固定种类的实时信息插件
V3.0开始支持Tools(但官方文档建议在3.5版本上使用Tools)
V3.5支持system prompt
有独立的语音合成和语音识别服务。
微调API支持的模型:V1.5和V3.0
Tools虽然可以用prompt进行模拟,但考虑到各种情况结果的处理和目前应用开发者的普遍能力情况,我建议应用开发者还是使用支持tools的模型或至少支持json mode输出的模型。
目前来看,全球范围内第一梯队的各家都已经标配该功能,该功能的必要性已经是共识。
足够大的context window是不少场景的刚需,如果只有2-4k context的LLM,不少任务要做的非常复杂甚至无法实现。
从各家情况来看,32k context已经接近于全员标配,最终大家都会上到支持至少128k。
有一些玩家已经开启了超长context能力的竞争(>1M token),这方面的应用价值和成本还有待观察。
官方提供微调服务已经在逐步普及,不过目前大多只支持最小规模的模型微调,在可选的模型规模方面还没有达到能够替换开源模型的微调。
越来越多的LLM供应商都开始提供RAG和实时搜索tool。
国内LLM供应商大多提供了角色扮演的特化模型,海外这方面还很少见。
支持文字和图片输入的VL模型能力也在逐步趋向于各家标配的feature。
目前在各家LLM供应商侧还看不到任何征兆。LLM API之上的Agent框架中,也没有任何有希望落地的方案。
总体而言就是还不要指望。
直到本期,终于各家LLM供应商都能够推出公开的API供一般用户使用,在我看来至此绝大部分玩家才终于都上到牌桌之上。
本次的一个特点是一些玩家的新模型效果提升很大,在各家最强能力模型效果趋近的基础上,各家开始卷性价比了。这次看到了不少性价比颇为不错的模型候选,从应用层的角度来说,这个季度的新模型简直是狂欢。
LLAMA 3没有带来什么架构上的变化,意料之外,情理之中。后面还要看LLAMA是否能拿出一个VL模型的样板教材。
GPT-4.5仍然没有消息,越来越多的人开始接受GPT-4.5不会发布的预期。GPT-5呢?我个人对于GPT-5的能力提升没有太大的期望。
Q2引起很大传播的一个事情是LLM的价格战,搞得好像所有模型都几乎不要钱了一样。但实际上并不是,只是各家都拿出了最低端的模型来打低价而已,而且还可以用补贴换数据,未必是亏的。
实际上只有几个模型才可能算是超高性价比,例如:
深度求索的deepseek-chat
字节跳动的Doubao-pro
智谱的glm-4-air(效果待进一步评估)
零一万物的yi-spark(效果待进一步评估)
但他们相对于海外三巨头的gemini 1.5 flash、claude-3-haiku又如何呢?
在这轮价格战噱头中,我目前高看的只有深度求索和字节跳动的推理工程优化能力,deepseek-chat是一个236B的MoE模型,Doubao-pro的规模未知但应该也不太小,能把这些模型做到1RMB/M token输入,2RMB/M token输出说明推理工程优化的能力是真的强。
虽然这轮价格战大多是噱头,但作为各家开始卷性价比的起点还是没问题的,各家终于开始或主动或被动的开始重视成本优化了,这对于这之上的应用层是真的利好。
为了方便大家比较,这里特地做了一个价格表,并附带了几个我认为重要的功能维度。
如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请私信联系,见 联系方式。
本文于2024.6.10首发于微信公众号与知乎。
知乎链接 https://zhuanlan.zhihu.com/p/702611918
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-13
2024-03-30
2024-05-28
2024-05-10
2024-04-26
2024-04-12
2024-04-25
2024-05-06
2024-07-25
2024-05-14