AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


2024.6 W2 商用LLM API进展简评
发布日期:2024-06-19 12:18:01 浏览次数: 2023


0、前言

本期已经是“商用LLM API进展扫描”系列的第3篇了,前序文章:

本期主要讨论从2024.4-2024.6的商用LLM API的进展,以实际开放API的能力为准。同上次一样,会忽略一些目前不活跃的玩家。

本系列的目的是为了让已经不关注商用LLM API进展的人能够了解目前进展,以及是我评论整个闭源LLM生态的基础材料。

1、总评

如果说2024Q1是全球第一梯队的集中更新,那么Q2就是第二梯队的集中更新,国内不少玩家终于不再搞纸面PPT PR,而是终于拿出了公开可用的API服务,接受公众的直接评价。

从更新结果上来说,国内的不少玩家交出的答卷也很让人惊讶,颇有与第一梯队一决高下的水平,例如:零一万物、字节豆包模型、百川。

1.1、已经普及的附加功能

随着整个生态的持续迭代,已经有一些附加功能成为标配。所以会在本节对其进行说明,而不在后面一一说明。

首个进入该分类的功能是:

  • System prompt

连开源的Llama 3都已经支持system prompt,目前不支持system prompt的只有:Google gemini、Reka、Minimax(minimax有非标准形式的支持)。

后续较快会进入该分类的功能展望:

  • Json mode

  • Tools(原Function calling)

  • 32k context

  • 实时搜索tool

2、模型推荐

本文并不涉及模型的核心能力比较,而且模型的适用程度的相对排序跟任务场景强相关。但为了照顾读者初步筛选模型的需求,所以会给一个范围较宽的推荐,更接近于“在其中的值得试一试”。

由于目前模型实在太多,且有些模型的能力较为偏颇,所以我给的推荐相对中庸一些,尽量适合于各种场景又不至于列了太多模型。有些供应商没有入选是因为一些非技术问题,例如风控、充值流程等。

会收录一些开源模型,有第三方推理平台提供API服务。

2.1、高难度场景(最强模型)

  • OpenAI的GPT-4o

  • Google的Gemini 1.5 Pro

  • Anthropic的claude-3-opus、claude-3-sonnet

  • 智谱的glm-4-0520

  • 零一万物的yi-large、yi-large-turbo

  • 阿里巴巴的qwen-max、开源的qwen2-72B

  • 百川智能的Baichuan4

  • Meta的Llama 3 70B(纯英文场景)

  • 百度的ERNIE 4.0

  • Mistral的Mistral Large

  • Minimax的abab6.5-chat

2.2、中等难度场景(性价比模型)

  • OpenAI的GPT-4o

  • Google的Gemini 1.5 Pro、Gemini 1.5 Flash

  • Anthropic的claude-3-sonnet、claude-3-haiku

  • 智谱的glm-4-air/airx

  • 零一万物的yi-large-turbo、yi-medium

  • 字节跳动的Doubao-pro

  • 阿里巴巴的开源的qwen2-72B、qwen2-57B-A14B

  • 百川智能的Baichuan3-Turbo

  • 深度求索的deepseek-chat

  • Minimax的abab6.5s-chat

  • Meta的Llama 3 70B(纯英文场景)

  • 月之暗面的moonshot-v1

  • 百度的ERNIE-3.5、ERNIE-Speed

2.3、长上下文场景

长上下文场景目前没有好的评测,简单的大海捞针已经没有区分度,所以我前面构造了一个加大难度版的大海捞针做了一轮自费评测,该评测能覆盖的问题也仍然很局限。具体见:(如果此文章被删了,请到公众号查看最新版)

2024.6横向对比各家LLM的Long Context (合集 V1.10)

结合我目前看到的各种信息,该场景的推荐名单如下:

32k水平

  • Google的Gemini 1.5 Pro、Gemini 1.5 Flash

  • Anthropic的claude-3-haiku、claude-3-sonnet、claude-3-opus

  • OpenAI的GPT-4o

  • 字节跳动的Doubao-pro

  • 智谱的glm-4-flash、glm-4-air/airx、glm-4-0520(速度较慢)

  • 零一万物的yi-large、yi-medium-200k

  • Minimax的abab6.5s-chat

  • 深度求索的deepseek-chat

  • 月之暗面的moonshot-v1

  • 阶跃星辰的step-1(速度较慢)

  • 阿里巴巴的开源的qwen2-72B、qwen2-57B-A14B

  • 百川智能的Baichuan3-Turbo-128k、Baichuan4(速度较慢)

  • Mistral的mistral-medium、mistral-large

128k水平

  • Google的Gemini 1.5 Pro、Gemini 1.5 Flash

  • Anthropic的claude-3-haiku、claude-3-sonnet、claude-3-opus(速度较慢且贵)

  • OpenAI的GPT-4o

  • 字节跳动的Doubao-pro

  • 智谱的glm-4-flash、glm-4-air/airx、glm-4-0520(速度极慢)

  • 零一万物的yi-medium-200k

  • 月之暗面的moonshot-v1

  • 百川智能的Baichuan3-Turbo-128k

  • 阶跃星辰的step-1(速度较慢)

  • 阿里巴巴的开源的qwen2-72B(效果未知)

  • 深度求索的deepseek-chat(效果未知)


3、海外第一梯队

3.1、OpenAI

https://platform.openai.com/docs/api-reference/

OpenAI在5.13日发布了原生多模态的GPT4o模型,重点在于语音输入和输出的效果显著提升,视频输入部分未来在API上开放的能力尚不清楚。

API特性简述:

  • 模型梯队:gpt-3.5-turbo、gpt-4o、(gpt-4-turbo已经过时)

  • VL模型:gpt-4o

  • 语音识别模型:whisper-1;语音合成模型:tts-1、tts-1-hd。这两者未来会被gpt-4o替换,但目前尚未开放API。

  • Tools、json mode、logit_bias、logprobs

  • gpt-4o是128k context,gpt-3.5-turbo是16k context

  • 微调API支持的模型:gpt-3.5-turbo

  • Assistants API  https://platform.openai.com/docs/api-reference/assistants

GPT-4.5没来,只发布了GPT4o,训练数据截至时间还倒退了一些。OpenAI的研发速度也开始有点跟不上每季度一次的发布。

3.2、Google

https://ai.google.dev/models/gemini

Google在5.14的I/O大会上发布了Gemini 1.5 Flash,并将Gemini 1.5 Pro的context提升到2M token。

API特性简述:

  • 模型梯队:(gemini-1.0-pro已经过时)、gemini-1.5-flash、gemini-1.5-pro

  • VL模型:gemini-1.0-pro-vision、gemini-1.5-flash、gemini-1.5-pro

  • Tools(仍在beta阶段,gemini-1.0-pro和gemini-1.5-pro支持),json mode,不支持system prompt

  • gemini-1.5-flash提供1M+8k输出 context、gemini-1.5-pro提供2M+8k输出 context(目前API文档上仍然只写了1M)

  • 微调API支持的模型:gemini-1.0-pro

  • 知识库API:

    • Corpus https://ai.google.dev/api/rest/v1beta/corpora

Google的Gemini 1.5 Pro是全球最早发布2M context能力的厂家,也是最先将1M context能力接入到API的厂家。

3.3、Anthropic

https://docs.anthropic.com/claude/reference/messages_post

Anthropic在3月发布了Claude 3系列,其中Opus版本已经基本打平GPT-4,Haiku、Sonnet也具有不错性价比。全线模型未来都会支持1M token context。

本节相对于上次4月进展整理文没有更新。

API特性简述:

  • 模型梯队:claude-3-haiku、claude-3-sonnet、claude-3-opus

  • VL模型:claude-3-sonnet、claude-3-opus支持图像输入

  • Tools、(通过tools模拟json mode)

  • claude-3系列目前提供200k context,输出最大4k,未来会扩展到1M context

最小规模的claude-3-haiku有明显为简单任务进行特化。

3.A、Meta Llama 3

https://ai.meta.com/blog/meta-llama-3/

Llama系列其实并不属于本文的扫描范围,因为Meta并没有官方部署和提供它的API,它支持的语言和附加功能也很少。不过因为它作为开源模型太有代表性,且Meta也一直没有闭源的模型,而是直接拿Llama 3开始构建AI应用,所以也拿来一起比较。

Llama 3是在4.18发布的,没有带来什么架构改变,完全是暴力堆语料和堆算力,能让大家继续抄的地方并不多。后续还计划发布400B版本和多模态版本。

  • 模型梯队:Llama 3 8B、Llama 3 70B

  • 8k context

  • Llama 3 系列仍然主要只支持英文,与其他模型不同。


4、海外其他活跃玩家

注意:本节的各厂商并没有好于国内,只是出于跟上一节连续所以放在这里。

4.1、Mistral

https://docs.mistral.ai/api/

Mistral最近动作不多,仅增加了微调服务。

API特性简述:

  • 模型梯队:mistral-small、mistral-medium、mistral-large

  • Tools、json mode

  • context是32k

  • 微调API支持的模型:open-mistral-7b、mistral-small-latest


4.2、cohere Command

https://docs.cohere.com/reference/about

cohere在2024.4月发布了Command R+模型,同时有开源(104B)。

API特性简述:

  • 模型梯队:command-light、command、command-r、command-r-plus

  • Tools、知识库RAG

  • command-r、command-r-plus支持128k context

  • 微调API:支持对话、文本分类、rerank的微调,但不确定具体模型规格。

cohere更侧重RAG方向,也有提供少有的rerank模型。

4.3、Reka

https://docs.reka.ai/api-reference/chat/create

Reka在2024.4.15发布了Reka Core模型,支持多模态(图像、视频、音频)输入。Reka Core的在ChatBot Arena排行榜上与Claude 3 Sonnet接近。

API特性简述:

  • 模型梯队:Reka Edge、Reka Flash、Reka Core

  • VL模型:Reka Core

  • 其他feature:知识库RAG、搜索plugin、不支持system prompt

  • Reka Core支持128k context

海外的新玩家,战略上更侧重多模态输入。Reka给人感觉还有点早期,6月才支持了stream返回。

5、国内第一梯队

5.1、智谱 GLM

https://open.bigmodel.cn/dev/api#language

智谱在6.5发布了新一批模型,新增了glm-4-flash、glm-4-air这样的高性价比版本。

API特性简述:

  • 模型梯队:glm-4-flash、glm-4-air/airx、glm-4-0520。

  • VL模型:glm-4v

  • Tools、RAG、web search插件、支持OpenAI协议

  • 全线模型支持128k context

  • 角色扮演模型:CharGLM-3

  • 微调API:chatglm3-6b

5.2、零一万物 Yi

https://platform.lingyiwanwu.com/

零一万物在2024.5.13更新了新一代模型,Yi-Large在Chatbot Arena榜单上排名很高。

https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

API特性简述:

  • 模型梯队:Yi-Spark、Yi-Medium、Yi-Large-Turbo、Yi-Large(特化的Yi-Large-RAG)

  • VL模型:Yi-Vision

  • 模型默认context是16k,vison模型是4k。yi-large支持32k,还有yi-medium-200k的特化版本

  • 支持OpenAI协议

零一万物一跃而起。

5.3、阿里巴巴 Qwen

https://help.aliyun.com/zh/dashscope/developer-reference/api-details

虽然qwen在6月更新了qwen2系列开源模型,但闭源模型方面没有可感知的更新。

API特性简述:

  • 模型梯队:qwen-turbo、qwen-plus、qwen-max

  • VL模型:qwen-vl-plus、qwen-vl-max

  • 语音识别模型:qwen-audio-turbo

  • Tools、支持实时搜索

  • 默认是6k+2k输出 context,并提供30-32k左右的长上下文特化版本。

  • 官方在主模型序列之外还有个qwen-long,测试结果应该是一个RAG方案。

  • 微调API:提供qwen-turbo和一些开源模型的微调

qwen的long context已经是相对弱项了。

5.4、字节跳动 Doubao

https://www.volcengine.com/docs/82379/1159177

字节在5.15的发布会上才首次宣传新的Doubao系列模型,替换了之前的Skylark系列,并终于在6.5日向个人开发者开放API。

  • 模型梯队:Doubao-lite、Doubao-pro(特化版本pro-character、pro-functioncall)。

  • 模型分为128k、32k、4k几个版本。

  • Tools,logprobs

  • 火山引擎上有独立的语音合成和语音识别服务。https://www.volcengine.com/docs/6561/0

  • 微调API支持的模型:支持,具体不模型版本清楚。

Doubao-pro的效果是不错的,再结合其较低的定价,已经成为值得考虑的候选。

5.5、百度 ERNIE

https://cloud.baidu.com/doc/WENXINWORKSHOP/s/clntwmv7t

自从百度在2023年10月发布了ERNIE 4.0之后,就再无大的动静。从文档上来看还有新的ERNIE Speed系列模型推出,也实现了128k context,但再无可感知的更新。

API特性简述:

  • 模型梯队:ERNIE 3.5、ERNIE 4.0、ERNIE Speed、ERNIE Lite、ERNIE Tiny等,定位上感觉有些混乱。

  • ERNIE 4.0、3.5支持:支持实时搜索(带citation),json mode、memory功能。

  • ERNIE 4.0支持5k+2k输出 context,ERNIE Speed和ERNIE 3.5有128k特化版。

  • 微调API:提供ERNIE-Speed、ERNIE-Lite、ERNIE-Tiny系列和一些开源模型的微调

百度开始提供LLM API层面的memory能力,除此以外仍然在沉寂。

6、国内其他的活跃的玩家

本节的各玩家总体来说最近动作不断,而且各家的最新模型缺乏第三方使用评价,所以很难排序。

6.1、Moonshot

https://platform.moonshot.cn/docs

Moonshot在10月首发,内测了很久后终于在2024.2公开了API。在3月发布了1M context的chatbot内测,没有发布到API的时间消息。

  • 模型梯队:v1

  • 支持128k context,还有单独的8k、32k版本。

  • Tools、和文件RAG,Partial Mode、支持OpenAI协议

6.2、百川智能 Baichuan

https://platform.baichuan-ai.com/docs/api

百川智能在5.22发布了Baichuan4,同时放出Baichuan4和Baichuan3-Turbo的API,以及终于开启了API个人用户支持。

  • 模型梯队:Baichuan3-Turbo、Baichuan3-Turbo、Baichuan4。长上下文特化版本Baichuan3-Turbo-128k

  • Tools、json mode、实时搜索,知识库检索(带citation)

  • Baichuan3以后各模型基础是32k,有128k特化版本。

  • 通过特化的Baichuan-NPC-*模型支持角色扮演

  • 支持Assistants API

百川经过一段时间的蛰伏之后,终于发布了新版本并开放了API。

6.3、Minimax abab

https://api.minimax.chat/document/guides/chat-model/pro/api?id=6569c85948bc7b684b30377e

Minimax在4.17日发布了abab 6.5系列,最强模型abab6.5-chat的context长度上退步了。

  • 模型梯队:abab5.5s-chat、abab5.5-chat、abab6.5s-chat、abab6.5-chat

  • 语音合成:T2A、T2A Pro、T2A Large、T2A Stream

  • 角色扮演的细节指定,Tools,支持实时搜索,json mode,知识库检索、raw_glyph 输出格式控制。

  • abab6.5s-chat支持245k context、abab6.5-chat支持8k context

  • 类似OpenAI的Assistants API

  • 微调API支持的模型:似乎是abab5.5s-chat

Minimax是从特化角色扮演类场景切入的,Minimax在产品化上的投入大概比它基础LLM要更大。

目前来看long context也是Minimax的弱项。

现在Minimax是唯一即没有官方SDK、也不支持OpenAI协议的LLM供应商。

6.4、阶跃星辰 Step

https://platform.stepfun.com/docs/api-reference/chat/chat-completion-create

阶跃星辰2024年3月首次公开宣传。

  • 模型梯队:step-1

  • VL模型:step-1v-8k和step-1v-32k

  • step-1支持256k、128k、32k、8k几个context版本。

  • 支持OpenAI协议

6.5、深度求索 DeepSeek

https://platform.deepseek.com/docs

深度求索在5.8日更新了DeepSeek V2模型,并开源。

  • 模型梯队:deepseek-chat(有单独的code模型)

  • 32k context

  • 支持OpenAI协议


6.6、商汤 SenseChat

https://platform.sensenova.cn/doc?path=%2Fmodel%2Fllm%2FGeneralLLM.md

商汤在4.23发布了SenseNova 5.0模型。

  • 模型梯队:SenseChat-Turbo、SenseChat、SenseChat-5

  • VL模型:SenseChat-Vision(未公开可用)

  • Tools、知识库RAG

  • SenseChat-5支持128k context,输出4k;SenseChat有4k/32k/128k版本;SenseChat-Turbo是32k

  • 角色扮演模型:SenseChat-Character

  • 微调API:支持,模型未知。

商汤也终于正式上了牌桌。(不过API线上支付都不支持chrome浏览器。)

6.7、腾讯 hunyuan

https://cloud.tencent.com/document/product/1729/104753

腾讯在4月更新了自己的LLM,API接口更符合一般习惯,以及在5月开始支持256k context。

一直以来腾讯的混元是一个被用户忽视的对象,目前hunyuan-pro已经算是能够一个看得过去的成绩出现在排行榜里了。过去半年中混元的进步速度还是比较快的。

  • 模型梯队:hunyuan-lite、hunyuan-standard、hunyuan-pro

  • 实时搜索

  • 默认支持32k context,lite和hunyuan-standard-128k支持128k。


6.8、讯飞 Spark

https://www.xfyun.cn/doc/spark/Web.html

本节距离本系列上期更新没有实质变化。

值得一提的是:讯飞终于提供了官方Python SDK。

  • 模型梯队,V1.5、V3.0、V3.5,但价格上V3.0-V3.5定价是一样的。

  • VL模型:疑似V3.0及以后的模型都支持图像输入。

  • V3.0-V3.5:8k context window,支持一些固定种类的实时信息插件

  • V3.0开始支持Tools(但官方文档建议在3.5版本上使用Tools)

  • V3.5支持system prompt

  • 有独立的语音合成和语音识别服务。

  • 微调API支持的模型:V1.5和V3.0


7、功能维度总结

7.1、Tools(原Function Calling)

Tools虽然可以用prompt进行模拟,但考虑到各种情况结果的处理和目前应用开发者的普遍能力情况,我建议应用开发者还是使用支持tools的模型或至少支持json mode输出的模型。

目前来看,全球范围内第一梯队的各家都已经标配该功能,该功能的必要性已经是共识。

7.2、Long Context

足够大的context window是不少场景的刚需,如果只有2-4k context的LLM,不少任务要做的非常复杂甚至无法实现。

从各家情况来看,32k context已经接近于全员标配,最终大家都会上到支持至少128k。

有一些玩家已经开启了超长context能力的竞争(>1M token),这方面的应用价值和成本还有待观察。

7.3、Finetune as a Service

官方提供微调服务已经在逐步普及,不过目前大多只支持最小规模的模型微调,在可选的模型规模方面还没有达到能够替换开源模型的微调。

7.4、搜索与RAG

越来越多的LLM供应商都开始提供RAG和实时搜索tool。

7.5、角色扮演模型

国内LLM供应商大多提供了角色扮演的特化模型,海外这方面还很少见。

7.6、VL模型

支持文字和图片输入的VL模型能力也在逐步趋向于各家标配的feature。

7.7、多步推理和决策能力的改进

目前在各家LLM供应商侧还看不到任何征兆。LLM API之上的Agent框架中,也没有任何有希望落地的方案。

总体而言就是还不要指望。

8、个人评论

直到本期,终于各家LLM供应商都能够推出公开的API供一般用户使用,在我看来至此绝大部分玩家才终于都上到牌桌之上。

本次的一个特点是一些玩家的新模型效果提升很大,在各家最强能力模型效果趋近的基础上,各家开始卷性价比了。这次看到了不少性价比颇为不错的模型候选,从应用层的角度来说,这个季度的新模型简直是狂欢。

LLAMA 3没有带来什么架构上的变化,意料之外,情理之中。后面还要看LLAMA是否能拿出一个VL模型的样板教材。

GPT-4.5仍然没有消息,越来越多的人开始接受GPT-4.5不会发布的预期。GPT-5呢?我个人对于GPT-5的能力提升没有太大的期望。

8.1、关于价格战

Q2引起很大传播的一个事情是LLM的价格战,搞得好像所有模型都几乎不要钱了一样。但实际上并不是,只是各家都拿出了最低端的模型来打低价而已,而且还可以用补贴换数据,未必是亏的。

实际上只有几个模型才可能算是超高性价比,例如:

  • 深度求索的deepseek-chat

  • 字节跳动的Doubao-pro

  • 智谱的glm-4-air(效果待进一步评估)

  • 零一万物的yi-spark(效果待进一步评估)

但他们相对于海外三巨头的gemini 1.5 flash、claude-3-haiku又如何呢?

在这轮价格战噱头中,我目前高看的只有深度求索和字节跳动的推理工程优化能力,deepseek-chat是一个236B的MoE模型,Doubao-pro的规模未知但应该也不太小,能把这些模型做到1RMB/M token输入,2RMB/M token输出说明推理工程优化的能力是真的强。

虽然这轮价格战大多是噱头,但作为各家开始卷性价比的起点还是没问题的,各家终于开始或主动或被动的开始重视成本优化了,这对于这之上的应用层是真的利好。

为了方便大家比较,这里特地做了一个价格表,并附带了几个我认为重要的功能维度。

交流与合作

如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请私信联系,见 联系方式

本文于2024.6.10首发于微信公众号与知乎。

知乎链接 https://zhuanlan.zhihu.com/p/702611918


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询