我要投稿

GPT-4 和 GPT-4o的主要区别

发布日期：2024-09-12 12:56:53 浏览次数： 25333

作者：生信森林

微信搜一搜，关注“生信森林”

一、GPT-4 和 GPT-4o的主要区别

GPT-4o 是基于 GPT-4 的升级版本，新增了多模态功能，不仅能处理文本，还能理解和生成图像、视频等多种格式的内容。这使得 GPT-4o 成为一个原生多模态模型，具有更快的响应速度和更低的延迟，提高了在处理文本、音频和视觉信息的能力。

另外一个区别是GPT-4o的聊天效果更加的自然，符合人类的对话习惯，你可能会忘记它是人工智能（就像她一样）。很适合练习口语听力，以及日常陪伴聊天。

并且GPT-4o 在全球模型排行榜中的表现尤为出色，以 1310 ELO 的高分领先（如图1），远超前五名的其他模型，标志着 OpenAI 在 AI 领域的又一重大突破。

图1

二、GPT-4o 和 GPT-4的比较

GPT-4o 和 GPT-4 在多个方面也有很大不同，我将会从以下的4个方面介绍二者的不同。

2.1多模态能力

多模态 AI 模型能够处理多种数据类型，例如文本、图像和音频。

从某种意义上说，GPT-4 和 GPT-4o 都是多模态的：在 ChatGPT 界面中，用户无论使用的是 GPT-4 还是 GPT-4o，都可以创建和上传图像并使用语音聊天。

然而，这两种模型处理多模态的方式非常不同——这是 GPT-4o 和 GPT-4 之间最大的区别之一。

GPT-4 是一个大型语言模型（ LLM），主要设计用于文本处理，这意味着它缺乏对处理图像、音频和视频的内置支持。在 ChatGPT Web 界面中，GPT-4 必须调用其他 OpenAI 模型，例如图像生成器 Dall-E 或语音识别模型 Whisper，以处理非文本输入。

相比之下，GPT-4o 从头开始专为多模态而设计，因此其名称中的“omni”。“OpenAI在文本、视觉和音频上端到端地训练了一个新模型，这意味着所有输入和输出都由同一个神经网络处理，”OpenAI代表在宣布推出的博客文章中写道。

这种原生的多模态使 GPT-4o 在涉及多种类型数据的任务（例如图像分析）上比 GPT-4 更快。

2.2性能和效率比较

2.2.1 效率

新版本 GPT-4o 以其显著减少的延迟而著称，允许近乎即时的响应。GPT-4 平均需要大约 5 秒才能回复，而 GPT-4o 现在平均只有 320 毫秒，尽管响应时间可能因具体请求而不同。

下面是国外用户做的大模型速度和效率的测试，可能比较有说服力。

如图2，GPT-4o的延迟明显低于GPT-4 Turbo，这意味着GPT-4o在处理速度上更快，响应时间更短。

图2

如图3，GPT-4o的吞吐量远高于GPT-4 Turbo，这意味着GPT-4o在同一时间内能够处理更多的任务或请求，表现出更高的效率。

图3

如图4，图片展示了不同模型在速度效率上的比较，通过准确率与耗时的比值来衡量每个模型的性能。gpt4o、gemini 和 gemini 1.5在这一指标上表现突出，说明它们能够在较短时间内提供高准确率的结果，是效率较高的模型。而其他模型则在这一方面存在一定差距，表现出较低的速度效率。

性能最优的模型：gpt4o在速度效率方面表现最佳，说明其在确保高准确率的同时耗时最少。

图4

2.2.2 性能

OpenAI 的测试表明(如表1），GPT-4o 在主要基准测试上优于 GPT-4，包括简单数学、语言理解和视觉理解。

OpenAI 还表示，GPT-4o 比 GPT-4 具有更强的上下文理解能力，使其能够更好地掌握成语、隐喻和文化参考。

表1

无论是在整体上还是在编码和响应困难查询等特定类别中，GPT-4o都优于GPT4。

但其他用户称 GPT-4o “过度炒作”，报告说它在编码、分类和推理等任务上的表现比 GPT-4 差。

决定哪种模型最适合最终可能需要随着时间的推移和在各种场景中进行测试。

例如，一些程序猿表示，他们会根据手头的任务在 GPT-4 和 GPT-4o 之间来回切换。

官方的测试可能有一定参考价值，我们还可以看看其他三个民间不同机构的性能测试结果。

第一个机构的测试结果（如表2），评估不同 AI 模型在多个标准评估数据集上的表现，表格显示了 GPT-4o 在多数测试中表现优异，下表显示，GPT-4o 在视觉理解、处理和分析方面的表现优于 GPT-4。而这一切，要快得多。

表2

第二个机构的测试结果（如图5），GPT-4o 在多数任务中表现较好，尤其是在MNLI、QPA和HUMEval上。

图5

第三个机构为了测试GPT-4o和其他大模型的性能，比较 GPT-4o 及GPT-4的三项任务：分类、数据提取和语言推理。

2.2.2.1 数据提取

作者收集了 10 份合同的实况数据，并使用 Vellum Evaluations 设置了 12 个自定义指标。这些指标将作者的地面实况数据与模型生成的 JSON 中每个参数的LLM输出进行了比较。

然后，作者对 GPT-4 Turbo 和 GPT-4 进行了测试，以下是作者评估报告的结果：

如图6，GPT-4o 在 12 个领域中的 6 个领域表现优于 GPT-4 Turbo，在 5 个领域保持相同的结果，并在一个领域表现出下降的性能。

从绝对的角度来看，GPT-4 和 GPT-4o 在大多数领域都只正确识别了 60-80% 的数据。对于精度很重要的复杂数据提取任务，两种模型都达不到标准。

图6

2.2.2.2 分类

作者让GPT-4o和GPT-4确定客户工单是否已解决。在作者的提示中，作者提供了客户工单何时关闭的明确说明，并添加了一些示例来帮助解决大多数困难的情况。

图7

如图7，与 GPT-4 Turbo 相比，GPT-4o 的改进了 7%。有趣的是，在作者去年 12 月使用相同数据进行的评估中，GPT-4 Turbo 得分为 65%，高于今天的结果。

作者肯定需要进一步分析这一点，但人们可以假设 GPT-4 Turbo 随着时间的推移而退化。

另一方面，GPT-4 的准确率达到了 78%，Claude 3 Opus 达到了 72%，两者都明显优于 GPT-4o。

准确性很重要，但不是唯一要考虑的指标，尤其是在误报（错误地将未解决的票证标记为已解决）可能导致客户不满的情况下。

然后作者计算了这两个模型的精度、召回率和f1分数，但也添加了Claude 3 Opus和GPT-4作为衡量标准：

表3

如表3，GPT4o：GPT4o 具有最高精度（88.00%），是避免误报的最佳选择，确保确实解决了已解决的工单。

GPT-4 turbo 和 Claude 3 Opus：两种型号都具有高精度（83.33%），使其成为不错的替代品。然而，与 GPT4o 相比，它们的召回率较低。

GPT-4：尽管具有最高的召回率（87.50%）和良好的 F1 分数（81.67%），但它的准确率（76.56%）低于其他模型。这可能会导致更多的误报，在这种情况下不太可取。

GTP-4o的精度优于所有其他型号。这将是作者完成此任务的首选模型。同样重要的是要强调，决定使用哪种模型取决于您的任务以及您希望在准确性、精确度和召回率之间取得的平衡。

2.2.2.3 推理

虽然 GPT-4 Turbo 在许多推理任务中表现出色，但作者之前的评估表明它在语言推理问题上遇到了困难。根据 OpenAI 的说法，与 GPT-4 Turbo 相比，GPT-4o 在推理任务方面表现出实质性的改进。

为了看看新模型是否更好，作者选择了一组 16 个口头推理问题作为测试的基石。

在下图8中，您可以看到 GPT-4o 表现出比其前身更好的推理能力，与 GPT-4 Turbo 的 50% 相比，准确率为 69%

图8

从作者给模型的例子中，

2.2.2.4 性能小结

作者通过测试发现到GPT4o 在所有三项任务上都优于 GPT-4 Turbo，但是：

对于复杂的数据提取任务，准确性是关键，两种模型仍然达不到标准。

对于客户票证的分类，与 GPT4-Turbo 相比，GPT4o 具有最佳的精度。与 Claude 3 Opus 和 GPT-4 相比，它仍然具有最佳精度。

在推理方面，GPT-4o 在日历计算、时间和角度计算以及反义词识别等任务方面有所改进。然而，它仍然在单词操作、模式识别、类比推理和空间推理方面表现比较差。

2.3定价

GPT-4o 提高计算效率的一个优势是价格更低。对于使用 OpenAI API 的开发人员来说，GPT-4o 是迄今为止更具成本效益的选择。

它的价格为每百万个输入token 5 美元和每百万个输出token 15 美元，而 GPT-4 每百万个输入token 30 美元，每百万个输出token 60 美元。

即使是被设计为比 GPT-4 更快、更便宜的 GPT-4-Turbo，也比 GPT-4o 更贵，每百万个输入token 10 美元，每百万个输出token 30 美元。

对于 Web 应用程序用户来说，差异甚至更大。未来GPT-4o 将取代 GPT-3.5 为免费版 ChatGPT 提供支持。

这使免费用户可以访问多模态、更高质量的文本回复、语音聊天和自定义 GPT,一种用于构建个性化聊天机器人的无代码选项——以前只对付费客户可用。GPT-4 将仅适用于付费计划的用户，包括 ChatGPT Plus、Team 和 Enterprise，起价为每月 20 美元。

但是，此推出仍在进行中，用户可以免费访问 GPT-4o。此外，免费和付费用户将对每种模型具有不同级别的访问权限。

免费用户将面临 GPT-4o 的消息限制，在达到这些上限后，他们将切换到 GPT-3.5。免费用户三小时10次，付费为50次。

ChatGPT Plus 用户的消息限制将高于免费用户，而 Team 和 Enterprise 计划的用户的限制会更少。

2.4 语言支持

与 GPT-4 相比，GPT-4o 还为非英语语言提供了明显更好的支持。特别是，OpenAI 改进了不使用西方字母的语言（如印地语、中文和韩语）的标记化。

新的分词器可以更有效地压缩非英语文本，目的是以更便宜、更快捷的方式处理这些语言的提示。

这一变化解决了自然语言处理中一个长期存在的问题，即模型历来针对英文进行了优化，而牺牲了其他地区使用的语言

以更高的准确性和流畅性处理更多语言使 GPT-4o 对全球应用程序更有效，并为以前可能无法完全参与模型的群体提供访问权限。

但是，改进的语言支持并非没有挑战。就在 OpenAI 发布 GPT-4o 几天后，研究人员注意到许多中国文字中包含与色情和赌博相关的不当短语。由于数据清理不充分，这可能会降低模型的理解能力，并有着安全漏洞和幻觉的风险。

但是这个改动无疑对于英语非母语的用户是一大利好，我一般都用中文问问题，并且让他用中文回答。

三、用户真实使用体验评价

我认为它可能更人性化，但不太智能，而且系统提示的可操作性要差得多。
GPT-4 感觉介于 GPT-4 和 GPT-3.5 之间。它仍然有点像 GPT-3.5 那样的“幻觉”，但它的反应更像人类。我非常期待看到下一个版本会带来什么
这里的经验相同，GPT 4 turbo 更适合分步任务。一般来说，它对提示说明的理解要好得多。
我写了一个相当长的文档，可以与我创建的 GPT 一起使用。我在这方面取得了很好的成功。然后，我将该文档输入到 GPT-4o 中，它每次都完全偏离轨道。我基本上要求它分析信息并对其进行索引以使其易于阅读。它总是开始得非常好。当它进行到3/4的一半时，它开始向那里抛出各种与文档完全无关的野生信息。我现在已经尝试了一百多次，每次都以一种糟糕的方式完全摧毁了它。我真的希望当作者能够使用 gpt4o 创建 gpt 时，情况会有所改变。
如果 GPT4o 和我正在交谈，并且我在对话中文本的结尾或开头给它一条新指令，它会忽略我所说的话并执行它默认执行的操作。它经常重复我写的一切。如果我写了一段话并告诉它不要做某事，它会重复我让它编辑的同一段落，即使没有更改，甚至在我告诉它不要编辑或重复我说过的话之后。
我觉得 GPT4o 在 API 和聊天中的翻译选择都略胜一筹，自 3.5 以来的每个新模型都在这方面取得了不同程度的进展。但是对于编码方面的帮助（在聊天中），GPT4o 非常糟糕。我应该说非常糟糕。我努力变得比电脑更固执，所以每当我需要帮助时，我都会从 GPT4o 开始。我经常在 GPT4o 上遇到死胡同;然后我降档到 GPT4，从头开始，我能够在 5 分钟内解决问题——不是因为我已经用 4o 消除了一堆替代方案，而仅仅是因为 4 更倾向于建立在思路上。有趣的是（仍在编码中），有时 GPT-4会遇到问题，所以我降档到 GPT3.5，我发现 3.5 的建议更有帮助。
GPT-4o 感觉很有问题......它无视我的提示，经常一遍又一遍地重复它的答案。变得很烦人
GPT-4 仍然明显优于 GPT-4o！我认为除非 OpenAI 引入音频/语音选项，否则它不会有太大的附加值！
这是我作为软件开发人员的卑微经历。我发现 GPT-4 比 GPT-4o 好得多。4o 版本的推理要糟糕得多。我一直在使用 ChatGPT 进行日常任务，我习惯于提示，而使用 GPT-4o，我有时会觉得它更笨，并且无法像 GPT-4 那样捕捉到我正在寻找的目标。
对于翻译，GPT-4远远优于 gpt-4o
我已经停止使用 4o 进行翻译或广告助手，我会使用它检查和更正我的电子邮件（主要是用德语写的）。没有将 API 用于此特定任务，但常规的情况下GPT-4模型非常擅长。4o很烂。
根据我的经验，“在其他语言上变得更好”是纯粹的营销。问题是，当一个人将一种语言翻译成另一种语言时，上下文很重要，而 4o 在理解上下文和遵循简单命令方面存在严重问题。例如，你要求一些描述任何东西的图片，它会输入答案，包括链接，但链接只显示一秒钟，然后就消失了。你向 4o 抱怨，它通常会开始重新生成整个异常长的响应（b/c 它必须证明它不懒惰）。你解释一下，答案和解释都没问题，只是图像丢失了，4o又开始从头开始输入所有内容。
我问了几个关于我的汽车账单的问题，它回答了，但我想要更多关于单个项目的细节。它开始从头开始输入上一个答案。
重新翻译，有时几乎是幻觉。它会完全断章取义地插入像“和”这样的词，并创建非常糟糕的句子。同样的提示，GPT-4给出了一个完美的响应。
我发现，如果我将一个 3000 行的 PHP 代码文件粘贴到 4o 中，它就会开始产生幻觉，其响应要么完全是虚构的，要么是几个月前从代码对话中提取的。
当我要求它只引用当前对话而不使用其他人的内存并确认我一开始就要求它执行的任务时，基本上在文件中找到影响 x 的代码区域，它忘记了对它的所有要求，所以发明了一些东西，即使它确认它理解了任务，在我粘贴代码之前说“是理解”。它还喜欢写出数百行不变的代码，一遍又一遍地说“确认这是你提供的代码”，即使你告诉它不要这样做，也会浪费很多时间。