AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Mistral AI: OpenAI 的竞对或跟随者?
发布日期:2024-06-04 19:51:02 浏览次数: 1963



2024 年 2 月,Mistral AI 发布了旗舰级大模型 Mistral Large,并且推出对标 ChatGPT 的对话产品:Le Chat,直接对标 OpenAI 的 GPT-4;几周前,Mistral AI 发布了其新一代开源语言模型 Mixtral 8x22B,声称实现了最高的开源性能和效率。

就在 Mistral Large 发布前几个小时,全球市值第一的微软宣布与 Mistral AI 达成深度合作。

未来,Mistral AI 将获得 OpenAI 同等待遇,直接将模型资源放在微软云当中售卖,成为第二家在微软 Azure 云平台上提供商业 AI 模型的公司。

Mistral AI,这家成立不久却迅速崭露头角的初创公司,已经以其在人工智能领域的突破性进展引起了全球的关注,法国总统马克龙直接将其称为“法国的OpenAI”。 

自成立以来,Mistral AI 便被认为是 OpenAI 有力的竞争对手,并一直坚定站在 OpenAI 的反面——OpenAI 闭源,Mistral AI 开源;OpenAI 走“大数据+大算力+大规模参数”的路径,Mistral AI 则在7B规模下带动“小模型”热潮。

1. Mistral AI的成立背景

Mistral AI是一家法国人工智能初创企业,Mistral AI在2023年初于法国巴黎成立,是由三名曾在美国AI领域公司工作的研究人员共同创立,包括曾在谷歌的DeepMind工作的公司CEO Arthur Mensch,曾在Meta(Facebook的母公司)工作参与了LLaMA的开发的公司CTO Timothée Lacroix和公司CSO  Guillaume Lample。

三位联合创始人从学生时代就相互认识,在他们看到生成式人工智能领域的快速发展后,意识到欧洲也需要有自己的生成式人工智能,于是在法国创立Mistral AI。

Mistral AI最大的特点是发布产品非常透明和开放,其友好的开源协议和透明的技术分享得到AI行业认可。

2. 创始团队成员背景


Mistral AI的主要成员来自DeepMind和Meta公司,在加入MistralAI之前就从事大模型相关的工作,下面是他们的重点成员介绍:



Arthur Mensch——联合创始人兼首席执行官


Arthur Mensch 是 Mistral AI 的联合创始人兼首席执行官。Mensch拥有机器学习和功能性磁共振成像专业的博士学位,之后在数学专业做了两年博士后研究。


于2020年加入谷歌的DeepMind团队,担任深度学习和大型语言建模的研究科学家。之后迅速晋升为DeepMind的高级研究科学家,是多个重要项目的主要贡献者,包括 Retro、Gopher、Flamingo 和 Chinchilla 项目等 。

Timothée Lacroix——联合创始人兼首席技术官


Timothée Lacroix是 Mistral AI 的联合创始人兼首席技术官。2015年,Lacroix从巴黎高等师范学院毕业,加入Facebook(现在的Meta),担任研究工程师,在纽约的人工智能研究实验室工作8年。


在Meta工作期间,Lacroix攻读了博士学位,并与联合创始人Guillaume Lample一起对大型语言模型(如LlaMA)进行了研究。作为Mistral Al公司的首席技术官,Lacroix负责监督公司人工智能模型和产品的技术方向和开发。

Guillaume Lample——联合创始人兼首席科学家


Timothée Lacroix是 Mistral AI 的联合创始人兼首席科学家。Lacroix在Meta工作6年,在Meta的工作重点是开发高级语言模型和人工智能架构,曾领导了 Meta 大型语言模型 LLaMA 的开发工作。作为首席科学家,他负责监督Mistral AI的技术方向和研究工作,重点是推进开源AI模型和架构。


3. Mistral AI的主要观点


  • Mistral AI认为,生成式人工智能,尤其是大型语言模型,正在通过基于人类指令生成人类质量的文本、内容和命令,彻底改变内容创建、知识检索和问题解决。


在未来几年,生成式人工智能将彻底重新定义我们的文化和生活,以及我们与机器和同伴互动的方式。


  • Mistral AI认为对生成式 AI 采取开源态度是必要的。社区支持的模型开发是对抗影响我们未来的技术中的审查和偏见的最可靠途径。


公司确信,应用制造商需要创造差异化,也需要深入掌握技术。而做到这一点的唯一途径就是能够访问整个堆栈。发起这场运动的方法就是让人们相信,我们的开源模式可以让他们创建更便宜、更快速、更好的应用程序,这就是Mistral AI的起点。

Mistral AI坚信,通过训练自己的模型、公开发布模型并促进社区贡献,可以为新兴的 AI 寡头垄断建立一个可靠的替代方案。开源模型将在即将到来的 AI 革命中发挥关键作用。

  • Mistral AI创始人认为人类在人工智能的进程中仍然非常重要,我们应该将生成式人工智能工具视为提高生产力和创造力的一种方式。

  • Mistral AI语言问题一定程度上阻碍了欧洲生成式人工智能的发展,Mistral AI关注到了这个问题并致力于解决这个问题。


但是我们也关注到Mistral AI于2024年2月从其网站上删除“承诺开放模型”,其创始人在访谈中表示,这样有机会通过一些商业模式来发展公司业务,此外,这是巩固与云提供商(Azure)的战略关系的好方法。

同时,Mistral AI的旗舰模型Mistral Large选择了封闭模型的路线,这是否意味着开源路线的变更,目前犹未可知。

4. Mistral AI的主要产品


Mistral AI发布的大模型分为开源模型(Apache 2.0许可证,开源可商用)、编程模型Codestral 22B(Mistral AI 非生产许可证,开源不商用)和旗舰模型Mistral Large(不开源)。


开源模型


Mistral 7B


2023年9月27日,Mistral AI采用直接在推特官方号发布下载链接的形式,发布了他们的第一个大模型Mistral 7B。



Mistral 7B在当时是最好的70亿参数规模的大模型。


Mistral 7B的参数是73亿,在所有的评测基准上都超过了LLaMA2 13B模型,在许多基准测试中均优于 Llama 1 34B模型,同时它的代码能力接近CodeLlama 7B,表现十分亮眼。最重要的是,这个模型以Apache 2.0协议开源,可以不受限制地使用,意味着商用非常友好。



Mistral 7B打响了Mistral AI在开源模型领域的名声。


Mixtral 8x7B


2023年12月8日,Mistral AI继续采用之前的方式,开源发布了第二款模型Mistral 8x7B。



Mixtral 8x7B,是一款具有开放权重的高质量稀疏混合专家模型 (SMoE)。


Mixtral 8x7B基于Transformer架构,支持上下文长度达到32k token,并且前馈块被Mixture-of-Expert(MoE,专家混合模型,一种机器学习领域的模型架构)层取代,展现出了强大的计算和存储能力、灵活的任务适应性。


在大多数基准测试中的表现Mixtral 8x7B都优于 Llama 2 70B,推理速度提高了 6 倍。它是当时成本/性能权衡方面最好的模型。特别是,它在大多数标准基准测试中与 GPT3.5 相当或优于 GPT3.5。


Mixtral 8x22B


2024年4月10日,Mistral AI开源发布了第三款开源模型Mixtral 8x22B。



Mixtral 8x22B同样是稀疏混合专家 (SMoE) 模型,精通英语、法语、意大利语、德语和西班牙语,具有64K 标记上下文窗口。Mixtral 8x22B仅使用 141B 中的 39B 个活动参数,以它的大小提供无与伦比的成本效益。


根据社区评测,Mistral 8X22B在多项基准测试中均优于GPT-3.5和Llama 2,其在文本生成、问答理解等方面都展现出了出色的能力。


此外,Mixtral 8x22B拥有1760亿参数,是当时开源界最大规模的语言模型之一,仅次于xAI推出的Grok-1。


不过可惜的是,开源大模型最具代表性的产品Llama 3于4月18日开源,Mixtral 8x22B受到的关注度相对不高。


编程模型Codestral 22B


2024年5月29日,Mistral AI推出他们的第一个代码模型Codestral。Codestral 是一个开放式生成式 AI 模型,专门为代码生成任务而设计。它帮助开发人员通过共享指令和完成 API 端点编写和与代码交互。由于它精通代码和英语,因此可用于为软件开发人员设计高级 AI 应用程序。


Codestral 经过了 80 多种编程语言的多样化数据集训练,包括最流行的语言,例如 Python、Java、C、C++、JavaScript 和 Bash。它在 Swift 和 Fortran 等更具体的语言上也表现良好。这种广泛的语言基础确保 Codestral 能够在各种编码环境和项目中为开发人员提供帮助。


Codestral为开发人员节省了时间和精力:它可以完成编码功能、编写测试并使用中间填充机制完成任何部分代码。与 Codestral 交互将有助于提高开发人员的编码水平并降低出现错误和错误的风险。


作为 22B 模型,与之前用于编码的模型相比,Codestral 在代码生成的性能/延迟空间方面设立了新标准,Codestral实现了32K的长上下文窗口,是Llama 3 70B的四倍。



Codestral 可以在HuggingFace上下载,不过它采用了新的开源协议“Mistral AI 非生产许可证”,允许开发人员用于非商业目的并支持研究工作,不再支持商业用途。


在用户实测中看到,Codestral的代码生成速度非常快,而且响应延迟也很短。


有人给了GPT-4o和Codestral相同的任务,让它们用Go语言实现基本的发布/订阅系统。虽然两个模型的响应延迟都很短,但Codestral写完的时候,GPT-4o刚写到一半,被Codestral“秒杀”。


有开发者认为,虽然Codestral不是最大、最好的代码模型,但因为模型确实包含了更多前沿知识,可以帮助编写最新的AI代码,而ChatGPT和Opus都做不到。


旗舰大模型Mistral Large


产品介绍


2024年2月26日,Mistral AI发布Mistral Large。Mistral Large 是Mistral AI的旗舰文本生成模型,它达到了顶级推理能力,可以用于复杂的多语言推理任务,包括文本理解、转换和代码生成。


Mistral Large在多语言推理任务上展现出了优异的性能,尤其在文本理解、转换和代码生成方面。在多个常用基准测试中,它的表现超越了Claude 2、Gemini Pro、GPT-3.5和Llama 2-70B等模型,仅次于GPT-4。



Mistral Large 具有原生多语言能力。它在法语、德语、西班牙语和意大利语的 HellaSwag、Arc Challenge 和 MMLU 基准测试中的表现远远优于 LLaMA 2 70B。



与市场上其他顶级模型相比,Mistral Large的开发成本相对较低,这使得它在性价比方面具有竞争优势。


此外,Mistral AI与微软的深度合作,使Mistral Large能够通过Azure AI Studio和Azure Machine Learning获得,为用户提供了便捷的接入和使用方式。


同时也推出了轻量级模型Mistral small。


模型定价

开源模型:

在定价上(ToB,每百万tokens)

  • Mistral-7b:$0.25 (input) / $0.25 (output)

  • Mixtral 8x7B:$0.7 (input) / $0.7 (output)

  • Mixtral 8x22B:$2 (input) / $6 (output)

专用模型:

  • mistral-small-2402:$1 (input) / $3 (output)

  • codestral-2405:$1 (input) / $3 (output)

  • mistral-medium-2312(即将弃用)

  • mistral-large-2402:$4 (input) / $12 (output)

Mistral AI是比较重视ToB业务的大模型公司,API服务重视安全、信任和适度,用户数据在静止时(AES256)和传输时(TLS 1.2+)都经过加密。

设计上通过自主部署和云渠道产品,Mistral AI甚至看不到用户的输入数据。最重要的是,Mistral AI作为欧洲AI企业,重视本地化工作,模型精通英语、法语、意大利语、德语和西班牙语。

Mistral AI 知名客户包括Brave(浏览器)、Cloudflare(CDN 加速服务商)、Pretto、Lamini、Arcane、Lindy、Hugging Face、法国巴黎银行、Orange、MongoDB等等。

大模型对比

目前大模型的对比除了发布时公司采用的基准测试外,LMSYS竞技场也成为主要的对比窗口,包括OpenAI、Anthropic、Google、Meta等AI大模型头部企业在模型发布后也会拿出LMSYS Chatboat Arena盲测结果数据作为实际效果展示。

在LMSYS Chatboat Arena最新更新的2024-05-27数据中,综合能力方面,Mistral AI的旗舰大模型mistral-large-2402排名第21位。

在OpenAI、Google、Anthropic、零一万物、Meta、Reka AI、Cohere、通义千问、智谱 AI的主要大模型后列。(月之暗面和文心一言没有参加LMSYS)

编码能力方面,Mistral AI的旗舰大模型mistral-large-2402排名第18位。

法语能力方面,Mistral AI的旗舰大模型mistral-large-2402排名第6位。

从大模型对比来看,Mistral AI的模型能力似乎并不突出,但需要注意到,Mistral AI是唯一能进入大模型前列竞争的欧洲企业,同时也是唯一注重法语、意大利语、德语和西班牙语等欧洲国家语言的前列大模型公司。

Mistral AI的CEO Arthur Mensch在访谈中提过“作为一家欧洲公司,我们意识到了语言问题,这对我们来说非常重要,比美国公司重要得多”,本土语言的大模型也是欧洲资金愿意大额投资Mistral AI的重要原因。

6. 估值及融资情况

Mistral AI已完成多轮融资,历史融资合计超5.35亿欧元,最近一轮估值达到20亿美元。并根据消息,Mistral AI即将达成一轮约6亿美元的融资协议,次轮估值达60亿美元。

种子轮融资:2023年6月,Mistral AI完成种子轮融资,金额为1.05亿元,投前估值1.35亿欧元。

由Lightspeed领投。其他知名投资者包括 Redpoint、Index Ventures、Xavier Niel(法国亿万富翁)、JCDecaux Holding、Rodolphe Saadé、法国的 Motier Ventures、德国的 La Famiglia 和 Headline、意大利的 Exor Ventures、比利时的 Sofina 以及英国的 First Minute Capital 和LocalGlobe。

A轮融资:2023年12月,Mistral AI完成A轮融资,金额为3.85亿欧元,投前估值16亿美元。由Andreessen Horowitz和Lightspeed Venture Partners领投。通过本次投资,公司估值达到20亿美元。

战略融资:2024年2月,Mistral AI完成战略融资,金额为1500万欧元,微软单独投资。

最新融资:Mistral AI即将达成一笔约6亿美元的融资协议,使其估值增加近两倍,达到60亿美元。

7. 小结

Mistral AI这家在巴黎孕育而生的人工智能新星,是一家从创立就被给予厚望的公司,以其开源的7B模型和对小模型优化的独到见解,迅速在AI领域掀起波澜,并在2024年2月不负厚望地推出Mistral Large大模型产品,向OpenAI看齐。

在其发展过程中,开源和小模型,以及多语言是其独特的优势,但是随着其大模型Mistral Large的退出,在大模型产品上,Mistral AI也选择了封闭路线。

从历史上看,开源构成互联网行业的生态,同时开源社区也构成相应的用户转换壁垒,但开源的难以营利性问题同样也难以避免。

那么,未来选择了OpenAI同样路线的Mistral AI,是否还能完全走出差异化路线,或者封闭路线才是大模型商业化的归途?我们拭目以待。

- 完 -

欢迎关注老胡看AI,和您一起看AI



【福利】:关注《老胡看AI》,在后台回复【黄仁勋】,即可获取黄仁勋Computex 2024 演讲英文万字原文。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询