我要投稿

马斯克Grok-2来了，击垮OpenAI？

发布日期：2024-08-18 10:07:52 浏览次数： 6099 作者：AIForge

在今年的三月和四月，xAI 先后发布了Grok-1.5大语言模型以及首个多模态模型Grok-1.5 Vision。

xAI 曾指出，Grok-1.5V在多学科推理、文档理解、科学图表分析、表格处理、屏幕截图解析及照片识别等多个领域，能够与当今领先的多模态模型相媲美。

Grok2.0的核心功能与特点

Grok-2的Beta版于2024年8月16日在新加坡发布。Grok-2被认为是当前最先进的语言模型，具有卓越的推理能力。此次发布包括Grok-2和其小型版本Grok-2 mini，二者现已在?平台向用户开放。这次Grok-2的推出是对前一版本Grok-1.5的重大改进，特别是在对话、编程和推理方面展现出了新的能力。值得一提的是，Grok-2的早期版本以“sus-column-r”的名称参加了LMSYS排行榜测试，结果优于Claude 3.5 Sonnet和GPT-4-Turbo。Grok-2和Grok-2 mini正处于?平台的Beta测试阶段，并将在本月晚些时候通过企业API向更多用户开放。

Grok-2的语言模型与聊天能力方面具有显著优势。其早期版本在LMSYS聊天机器人竞赛中表现优异，Elo评分超过了Claude和GPT-4。在内部测试中，AI导师与该模型进行互动，以评估其执行指令和信息准确度的表现。Grok-2在推理和工具使用上的能力也得到了提升，更加善于识别缺失信息、推断事件顺序以及排除无关信息。

基准测试表现

在基准测试中，Grok-2在推理、阅读理解、数学、科学和编程等多个学术领域表现突出。与Grok-1.5相比，Grok-2及Grok-2 mini在这些测试中取得了明显的提升，展现出与其他前沿模型相媲美的竞争力。特别是在视觉数学推理（MathVista）和基于文档的问答（DocVQA）任务中，Grok-2的表现达到行业领先水平。

用户体验与功能优化

在?平台上的最新Grok体验经过持续优化，现在推出了重新设计的界面和新功能。? Premium和Premium+用户可以使用Grok-2和Grok-2 mini这两款新模型。Grok-2被视为最先进的AI助手，具有强大的文本和视觉理解能力，能够集成?平台的实时信息。而Grok-2 mini则更注重在响应速度与质量之间的平衡。相较于前代产品，Grok-2在各种任务上展现出更高的直观性与可操作性，不论是寻找答案、协作写作，还是解决编程问题，都表现出色。Grok也与Black Forest Labs合作，正与其FLUX.1模型进行实验，以扩展其在?平台的功能。如果您是Premium或Premium+的订阅者，请确保将?应用更新至最新版本，以参与Grok-2的Beta测试。

API平台与开发者资源

本月晚些时候，Grok-2和Grok-2 mini也将通过新的企业API平台面向开发者推出。这个新API平台基于先进的技术架构，支持全球范围内低延迟的多区域推理部署，并提供增强的安全功能，比如多因素认证（例如Yubikey、Apple TouchID或TOTP）。此外，还有丰富的流量统计数据和高级计费分析（包括详细的数据导出）。管理API的推出将允许团队和用户更好地管理与集成现有内部工具和服务。如果希望获取更多动态信息，欢迎订阅我们的新闻简报。

未来展望

Grok-2与Grok-2 mini正在?平台上逐步推出，其应用将包括增强的搜索功能、深入的?帖子见解以及改进的回复机制，这些均由Grok驱动。同时，即将发布的多模态理解功能预览也将成为Grok体验的一部分。自2023年11月推出Grok-1以来，xAI团队以迅猛的速度推动技术发展，Grok-2的引入，使得xAI在AI开发领域占据了领先地位。未来几个月，将会有更多的进展逐步公布。

Grok2.0的发布及用户反馈

马斯克近日在X（推特）上宣布，人工智能初创公司xAI的大语言模型Grok-2将于8 月推出。根据他的说法，清理用于训练大语言模型的互联网数据是一个耗时的过程，但Grok-2在这一方面将有显著的改进。

在?平台上进行的Grok-2 Beta测试取得了良好的效果，预计不久后通过企业API将向更多开发者开放。初步反馈显示，Grok-2在实际应用中的表现和功能引发了用户的积极关注。

随着新的企业API的推出，Grok-2及其迷你版将向更多开发者开放，期待能收集到更多实际使用过程中用户的体验反馈。

开源与闭源的大模型路线之争

在xAI公司宣布开源Grok-1之后，特斯拉的CEO马斯克在大模型市场再度引发关注。

8月11日，他在X平台上透露Grok-2的测试版即将发布。实际上，早在7月份，他就已经确认了Grok-2将在八月上线，并在回应用户询问训练数据时表示该模型将在此方面做出显著提升。

马斯克在今年3月提到，Grok-2将在“所有指标”上超越现有的AI模型。作为由xAI自主训练的混合专家（MoE）模型，Grok自2023年11月发布第一版以来，已经在今年的3月和4月推出了Grok-1.5大语言模型以及首个多模态模型Grok-1.5 Vision，迭代速度颇为迅猛。然而，实现超越现有所有AI大模型的目标，Grok-2将面临许多挑战。

Grok-1采用混合专家系统设计，每个token从8个专家中选出2个进行处理，这使得生成速度更快且推理成本更低。在GSM8K、HumanEval和MMLU等基准测试中，Grok-1的表现超过了Llama-2-70B和GPT-3.5，但依然与顶尖的GPT-4存在明显差距。Grok-1.5在MATH基准测试中取得了50.6%的成绩，在GSM8K上达到了90%的表现，而HumanEval测试得分为74.1%。

Grok-1.5V不仅在多项基准测试中可以与GPT-4V、Claude 3 Sonnet和Claude 3 Opus等顶尖多模态模型媲美，还能处理多种视觉信息，包括文档、图表、屏幕截图和照片，具备理解梗图和编写Python代码的能力。虽然目前xAI和马斯克尚未公开关于Grok-2的详细信息，但根据其迭代趋势，马斯克所说的将“所有指标”提升的目标有可能实现。

在开源与闭源的大模型路线之争中，马斯克始终是一名坚定的开源倡导者。他曾多次公开表达对OpenAI闭源商业模式的反对，并以违反合同为由起诉OpenAI及其CEO Sam Altman，要求恢复开源的开发方向。xAI的成立也在很大程度上旨在防止人工智能领域出现一家公司主导的局面。讽刺的是，OpenAI的“开放”程度相较于xAI并不高。马斯克于是选择开源了3140亿参数的Grok-1，并遵循Apache 2.0许可证，允许用户在个人和商业用途上自由使用、修改和分发该软件。

尽管OpenAI是AI领域的领先者，但要求其开源ChatGPT背后的模型代码并不现实，除非其自愿。然而，无论在国内还是国外，大模型的开源趋势已日益明显。去年7月，Llama2宣布免费商用后，迅速成为全球开发者的首选开源大模型。不久后，谷歌通过发布Gemma开始进入开源领域，凭借70亿参数实力超越了Llama2-13B（130亿参数）。在国内市场，阿里巴巴也宣布开源720亿参数的大语言模型通义千问Qwen-72B，声称其性能超越Llama2-70B，成为最强中文开源模型。

大模型的开源与闭源之争一直是热点话题，行业大佬们各自发表了观点。百度CEO李彦宏代表“闭源派”，他认为在相同参数规模下，开源模型的能力未必能够匹敌闭源模型，且若开源模型要在能力上与闭源模型平行，将需要更大的参数规模，这也会导致推理成本增高和响应速度变慢。

而“伟大的五虎”之一的百川智能CEO王小川则支持开源，他认为开源与闭源并不是对立的关系，两者的结合或许能产生更优解。他预测未来80%的企业将采用开源大模型，因为闭源模型往往在适配产品时存在困难，且成本较高。

李彦宏和王小川的观点各有其合理性，反映出不同的选择。大模型开源或闭源的路线实际上取决于商业模式。闭源大模型在知识产权保护和数据安全合规方面具有优势，但在灵活性和可定制性上可能受限；而开源大模型则体现了互联网商业模式的成熟，尽管其最终目的也是获利，但由于涉及多方参与，更能促进生态的发展，如快速迭代、快速试错、共创共担等。谷歌高级软件工程师Luke Sernau表达得非常精准：开源模式的快速迭代已经对部分闭源模型的生存构成威胁，因为开源方相当于获得了全球范围内的免费劳动力。这正是开源与闭源大模型之争的根本原因：无论是开发者还是用户，往往更倾向于优秀的开源项目，形成的群聚效应远胜于闭源大模型。

写在最后

Grok-2 和 Grok-3 的演进将引发广泛关注。特别是相较于Grok-1.5，Grok-2 在多个维度上展示了明显的进步，增加了优化的语境推理能力与更强的多模态理解功能。这一版本的推出，预计将在许多领域，尤其是与编程及数学任务相关的应用中树立新的标准。在接下来的几个月中，关于其各种应用的进展将陆续发布，我们可以期待其在实际使用中的优势表现。

同时，Grok 在特斯拉及其它马斯克旗下公司中可能会发挥重要作用，特别是在自动驾驶和智能聊天机器人的开发中。市场对于Grok-2的需求以及其在不同领域的潜在应用，表明这一新模型将对人工智能的进步和行业变革产生重大影响，因此，建议读者持续关注后续动态。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业