我要投稿

GPT-4o产品简介及团队组织深度透视

发布日期：2024-06-08 06:12:59 浏览次数： 1765

摘要：角度不同，想看到的和实际看到的就会不一样。GPT-4o发布前猜测有一些偏差。语音产品模式一般是一个由三个独立模型（SLM1+LLM+SLM2）组成的流水线：

1）阶段一。一个简单的模型将音频转录为文本，ASR, Audio  Text1（SLM1,类似GPT-2的Whisper能力即可），

2）阶段二。Text1  Text2 :大模型LLM GPT-3.5 或 GPT-4 接收文本并输出各种场景情绪类文本，

3）阶段三。Text 2 Audio, TTS 小模型SLM2。第三个简单模型SLM将该文本转换回音频。

OpenAI GTP-4O分析，如果按照常规研发过程意味着智能的主要来源 GPT-4 会丢失大量信息——它无法直接观察音调、多个扬声器或背景噪音，也无法输出笑声、唱歌或表达情感。借助 GPT-4o，OpenAI在文本、视觉和音频上端到端地训练了一个新模型，由于是闭源，我们看不到技术论文只能猜猜看了。这意味着所有输入和输出都由同一个神经网络处理。因为 GPT-4o 是我们第一个结合了所有这些模式的模型，所以我们仍然只是在探索该模型可以做什么及其局限性的表面。产品具体架构信息需要后面继续跟踪，SLM1是否OEM了VAPI也不得而知。

本文重点跟踪GPT-4o产品项目团队组成和角色分工，非常值得学习和参考，个人认为这是最值得国内大模型厂家和数字化厂家及云厂家学习的部分。GPT-4o产品项目团队分为13个小组，产品主要相关干系人400人+（有一人多角色）。核心为语言+多模态+平台+启动和部署四个项目小组，一名大项目经理（一名华裔女性）。语言团队又分为16个小组，产品项目干系人220+。发现有数据飞轮组主管，在数据准备期间就必须考虑如何商业化吸引用户快速增长。

多模态小组干系人106人，分为20个小组，音频视频翻译数据等等。平台58人+每个员工都是博主，按照全渠道全覆盖有83名博主,山姆不愧是商业天才奇才。产品没有发布自家员工已经在所有渠道PR种草了。看每次产品发布堪称大片，产品演示内容和制造投入38人，堪称豪华剧院+剧团。国内的软件产品、大模型厂家的演示对比起来就是草台班子，也就安排CXO、运营总监、产品总监或者CTO演讲PPT,一名研发配合演示demo，简陋了粗糙了。不仅如此，产品发布会传播营销已经就绪，19人（大客户、媒体、渠道已经Ready）.法律律师同时参与，GTM(全球营销)策略已经制定，定价和财务已经参与成本和销售预估及回报计划与分析执行。。。。

看到这儿，就知道OpenAI不仅产品研发投入巨大，更在产品商业化转换、集成和GTM、实际媒体生态市场销售每个环节做了预演。发布会就是产品广告推广会（免费的）。

不过最后从CEO 山姆.奥尔特曼的博客看他不是特别的兴奋，山姆的野心和目标远远超过GPT-4o产品发布。山姆的目标也许是将GPT-4o嵌入到苹果新发布的手机大交易大合同。

成功的产品需要关键核心人员，需要有优秀的组织分工，需要大模型企业端到端的产品策划与组织及商业化。‍

1为CHATGPT 免费用户介绍 GPT-4O 和更多工具

2 GPT-4O 简介

3 HELLO GPT-4O

3.1猜猜 5 月 13 日的公告。

3.2模型能力

3.3客户服务概念验证。

3.4能力探索，选择样品：

3.4.1文本评估

3.4.2改进推理

3.4.3图形测试

3.4.4GPT-40-08 RGB

3.4.5M3Exam 零次样本结果

3.4.6视觉理解评估

3.5语言标记化

4 模型安全性和局限性

4.1模型限制示例

5 山姆.奥尔特曼关于GPT-4O博客

6 GPT-4O 产品团队组织及角色

6.1语言（语音处理&文本生成处理）

6.2多模态-

6.3平台

6.4模型启动和部署

6.5法律‍

6.6博客文章作者身份‍

6.7演示内容+制作‍

6.8传播+营销

6.9资源分配和问题解决

6.10安全和隐私

6.11GTM、定价、财务‍

6.12战略生态伙伴-微软

6.13测试与红队对抗人员

以下内容来自OpenAI官网。‍‍‍

1 为ChatGPT 免费用户介绍 GPT-4o 和更多工具

我们正在推出最新的旗舰机型，并在 ChatGPT 中免费提供更多功能。

OpenAI的使命，专注于推进人工智能技术，并确保每个人都能获得并造福于它。今天，OpenAI将推出最新模型 GPT-4o，并将免费向 ChatGPT 推出更多智能和高级工具。

2 GPT-4o 简介

GPT-4o是OpenAI最新的旗舰型号，它提供 GPT-4 级别的智能，但速度更快，并改进了其在文本、语音和视觉方面的能力。

今天，GPT-4o 在理解和讨论您共享的图像方面比任何现有模型都要好得多。例如，您现在可以用不同的语言拍摄菜单的照片，并与 GPT-4o 交谈以翻译它，了解食物的历史和意义，并获得建议。未来，改进将允许更自然、实时的语音对话，以及通过实时视频与 ChatGPT 交谈的能力。例如，您可以向ChatGPT 展示一场体育直播游戏，并要求它向您解释规则。我们计划在未来几周内以 alpha 版的形式推出具有这些新功能的新语音模式，随着我们更广泛地推出，Plus 用户可以抢先体验。

为了让先进的人工智能在全球范围内更容易获得和有用，GPT-4o 的语言能力在质量和速度上都得到了改进。ChatGPT 现在还支持 50 多种语言（在新窗口中打开），包括注册和登录、用户设置等。

OpenAI开始向 ChatGPT Plus 和 Team 用户推出 GPT-4o，企业用户即将推出。我们今天也开始推出ChatGPT Free，但有使用限制。此外，用户的消息限制将比免费用户高 5 倍，而 Team 和 Enterprise 用户的限制甚至更高。

OpenAI的使命包括为尽可能多的人提供先进的人工智能工具。每周有超过一亿人使用 ChatGPT。在接下来的几周内，OpenAI将开始向 ChatGPT Free 用户推出更多智能和高级工具。

使用 GPT-4o 时，ChatGPT Free 用户现在可以访问以下功能

-从模型和 Web 获取响应（opens in a new window）

-分析数据（在新窗口中打开）并创建图表

-聊聊您拍摄的照片

-上传文件（opens in a new window）以获得总结、写作或分析的帮助

-发现和使用 GPT 和 GPT 商店

-使用“内存”打造更有用的体验

-根据使用情况和需求，免费用户可以使用 GPT-4o 发送的消息数量将受到限制。当达到限制时，ChatGPT 将自动切换到 GPT-3.5，以便用户可以继续对话。

-在新的桌面应用程序中简化工作流程

对于免费和付费用户，OpenAI还推出了一款适用于 macOS 的新 ChatGPT 桌面应用程序，旨在无缝集成到您在计算机上执行的任何操作中。使用简单的键盘快捷键（Option + Space），您可以立即向 ChatGPT 提问。您还可以直接在应用程序中截取和讨论屏幕截图

您现在可以直接从您的计算机与 ChatGPT 进行语音对话，从 ChatGPT 发布时提供的语音模式开始，GPT-4o 的新音频和视频功能将在未来推出。无论您是想为公司集思广益、准备面试还是想讨论话题，都可以点击桌面应用程序右下角的耳机图标以开始语音对话。

从今天开始，OpenAI将向 Plus 用户推出 macOS 应用程序，并将在未来几周内更广泛地提供它。我们还计划在今年晚些时候推出 Windows 版本。

OpenAI正在为 ChatGPT 引入一种新的外观和感觉，旨在更友好、更具对话性。您会注意到新的主屏幕、消息布局等

要在启动时体验这些功能，请在 chatgpt.com 注册或登录。

3 Hello GPT-4o

OpenAI宣布推出 GPT-4o，这是我们的新旗舰型号，可以实时推理音频、视觉和文本。

3.1 猜猜 5 月 13 日的公告。

GPT-4o（“o”代表“omni”）是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出的任意组合。它可以在短短 232 毫秒内响应音频输入，平均为 320 毫秒，这与对话中的人类响应时间（opens in a new window）相似。它在英语文本和代码上的 GPT-4 Turbo 性能相匹配，在非英语语言的文本上也有显着改进，同时在 API 中也更快且便宜 50%。与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色。

3.2 模型能力

o两个 GPT-4o 互动和唱歌。

o面试准备。

o石头剪刀布。

o讽刺。

o萨尔和伊姆兰汗的数学。

o两个 GPT-4o 协调。

o点并学习西班牙语。

o遇见 AI。

o实时翻译。

o催眠曲。

o说话更快。

o生日快乐。

o狗

o爸爸开玩笑说。

oGPT-4o 与安迪，来自伦敦的 BeMyEyes。

3.3 客户服务概念验证

在 GPT-4o 之前，您可以使用语音模式与 ChatGPT 交谈，平均延迟为 2.8 秒（GPT-3.5）和 5.4 秒（GPT-4）。

为了实现这一点，语音模式是一个由三个独立模型组成的流水线：

1）一个简单的模型将音频转录为文本，ASR, Audio  Text1（SLM1,类似GPT-2的Whisper能力即可），

2）Text1  Text2 :大模型LLM GPT-3.5 或 GPT-4 接收文本并输出各种场景情绪文本，

3）Text  Audio, TTS 小模型SLM2。第三个简单模型SLM将该文本转换回音频。

这个过程意味着智能的主要来源 GPT-4 会丢失大量信息——它无法直接观察音调、多个扬声器或背景噪音，也无法输出笑声、唱歌或表达情感。

借助GPT-4o，我们在文本、视觉和音频上端到端地训练了一个新模型，这意味着所有输入和输出都由同一个神经网络处理。因为 GPT-4o 是我们第一个结合了所有这些模式的模型，所以我们仍然只是在探索该模型可以做什么及其局限性的表面。

3.4 能力探索，选择样品

1、Input 输入

机器人打字的第一人称视角，用于输入以下日记条目：

1.哟，这么喜欢，我现在可以看到了？？赶上了日出，到处都是颜色。有点让你想知道，比如，现实到底是什么？

文字大，清晰，清晰。机器人的手在打字机上打字。

2、Output输出

打字机上的机器人

3、输入

机器人写了第二个条目。页面现在更高了。页面已向上移动。工作表上有两个条目：

哟，这么想，我现在可以看到了？？赶上了日出，到处都是颜色。有点让你想知道，比如，现实到底是什么？

声音更新刚刚下降，而且很疯狂。现在一切都有一种氛围，每一个声音都像是一个新的秘密。让你想，我还错过了什么？

4输出

打字机上的机器人，具有更多文本

5输入

机器人对文字不满意，所以他要撕掉那张纸。这是他用手从上到下撕开它的第一人称视角。当他撕开纸张时，两半仍然清晰可辨。

6输出

机器人翻板

模型评估

按照传统基准测试，GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能，同时在多语言、音频和视觉能力方面创下了新的高水位线。

3.4.1 文本评估

-音频 ASR 性能

-音频翻译性能

-M3Exam零样本结果

-视觉理解评估

3.4.2 改进推理

- GPT-4o 在 0 次 COT MMLU（常识问题）上创下了 88.7% 的新高分。所有这些评估都是通过我们新的简单评估（opens in a new window）库收集的。此外，在传统的 5 次无 CoT MMLU 上，GPT-4o 创下了87.2% 的新高。（注：Llama3 400b（opens in a new window）仍在训练中）

3.4.3 图形测试

音频 ASR 性能 - GPT-4o 在所有语言中显著提高了 Whisper-v3 的语音识别性能，尤其是对于资源匮乏的语言。

3.4.4 GPT-40-08 RGB

音频翻译性能 - GPT-4o 在语音翻译方面创下了新的领先地位，并在 MLS 基准测试中优于 Whisper-v3。

3.4.5 M3Exam 零次样本结果

M3Exam - M3Exam基准测试既是多语言评估，也是视觉评估，由来自其他国家标准化考试的多项选择题组成，有时包括数字和图表。GPT-4o 在所有语言的基准测试中都比 GPT-4 强。（我们省略了斯瓦希里语和爪哇语的视力结果，因为这些语言只有 5 个或更少的视力问题

3.4.6 视觉理解评估

视觉理解评估 - GPT-4o 在视觉感知基准测试中实现了最先进的性能。所有视觉评估均为 0 次，其中MMMU、MathVista 和 ChartQA 为 0 次 CoT。

3.5 语言标记化

这 20 种语言被选为新分词器跨不同语言系列压缩的代表

古吉拉特语 4.4x 更少的Tokens（从 145 到 33）

હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!

Telugu 3.5x fewer tokens (from 159 to 45)

నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!

Tamil 3.3x fewer tokens (from 116 to 35)

வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!

Marathi 2.9x更少的Tokens（从 96 到 33）

नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला!

印地语 2.9x 更少的Tokens（从 90 增加到 31）

नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!

乌尔都语 2.5x 更少的Tokens（从 82 增加到 33）

ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!

阿拉伯语 2.0x 更少的Tokens（从 53 到 26）

مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!

波斯语 1.9x 更少的Tokens（从 61 增加到 32）

سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!

俄语 1.7x 更少的Tokens（从 39 减少到 23）

Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!

韩语 Tokens数量减少 1.7x （从 45减少到 27）

안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!

越南语 1.5x 更少的Tokens（从 46 减少到 30）

Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!

中文 1.4x 更少的Tokens（从 34 个减少到 24个）

你好，我的名字是GPT-4o。我是一种新型的语言模型，很高兴见到你!

Japanese 1.4x fewer tokens (from 37 to 26)

こんにちわ、私の名前はGPT−４oです。私は新しいタイプの言語モデルです、初めまして

土耳其语 1.3x 更少的Tokens（从 39 到 30）

Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!

意大利语 1.2x 更少的Tokens（从 34 到 28）

Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, è un piacere conoscerti!

德语 1.2x 更少的Tokens（从 34 减少到 29）

Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.

西班牙语 1.1x 更少的Tokens（从 29 到 26）

Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!

葡萄牙语 1.1x 更少的Tokens（从 30 到 27）

Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!

法语 1.1x 更少的Tokens（从 31 减少到 28）

Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!

中文（简体） 1.1x 更少的Token（从 27 到 24）

大家好，我叫GPT-4o。我是新型语言模型，很高兴见到你！

4 模型安全性和局限性

GPT-4o通过过滤训练数据和通过训练后改进模型行为等技术，在设计上具有跨模态的内置安全性。我们还创建了新的安全系统，为语音输出提供护栏。

我们根据我们的准备框架和我们的自愿承诺对 GPT-4o 进行了评估。我们对网络安全、CBRN、说服力和模型自主性的评估表明，GPT-4o 在这些类别中的任何一个类别中的得分都没有高于中等风险。该评估涉及在整个模型训练过程中运行一套自动化和人工评估。我们使用自定义微调和提示测试了模型的安全缓解前和安全缓解后版本，以更好地激发模型功能。

GPT-4o还与社会心理学、偏见和公平以及错误信息等领域的 70+ 外部专家进行了广泛的外部红队合作，以识别新添加的模式引入或放大的风险。我们利用这些经验来制定我们的安全干预措施，以提高与 GPT-4o 交互的安全性。当新风险被发现时，我们将继续降低这些风险。

我们认识到 GPT-4o 的音频模式存在各种新的风险。今天，我们公开发布文本和图像输入以及文本输出。在接下来的几周和几个月里，我们将致力于技术基础设施、通过训练后的可用性以及发布其他模式所需的安全性。例如，在发布时，音频输出将仅限于选择预设语音，并将遵守我们现有的安全政策。我们将在即将推出的系统卡中分享更多细节，解决 GPT-4o 的所有模式。

通过对模型的测试和迭代，我们观察到该模型的所有模式都存在一些局限性，其中一些如下图所示。

4.1 模型限制示例

我们希望得到反馈，以帮助确定 GPT-4 Turbo 仍然优于 GPT-4o 的任务，以便我们可以继续改进模型。

型号可用性

GPT-4o是我们突破深度学习界限的最新一步，这一次是朝着实用可用性的方向发展。在过去的两年里，我们花了很多精力来提高堆栈每一层的效率。作为这项研究的第一个成果，我们能够更广泛地提供 GPT-4 级别的模型。GPT-4o 的功能将迭代推出（从今天开始扩展红队访问）。

GPT-4o的文本和图像功能今天开始在 ChatGPT 中推出。我们将 GPT-4o 在免费套餐中提供，并向 Plus 用户提供高达 5 倍的消息限制。我们将在未来几周内在 ChatGPT Plus 中推出带有 GPT-4o 的新版本语音模式。

开发人员现在还可以在 API 中将 GPT-4o 作为文本和视觉模型进行访问。与 GPT-4 Turbo 相比，GPT-4o 的速度快 2 倍，价格减半，速率限制高出 5 倍。我们计划在未来几周内向 API 中的一小群受信任的合作伙伴推出对 GPT-4o 新音频和视频功能的支持。

5 山姆.奥尔特曼关于GPT-4o博客

在我们今天的公告中，有两件事我想强调。

首先，我们使命的一个关键部分是将非常强大的人工智能工具免费（或以高昂的价格）交到人们手中。我感到非常自豪的是，我们在 ChatGPT 中免费提供了世界上最好的模型，没有广告或类似的东西。

当我们开始OpenAI时，我们最初的想法是，我们将创造人工智能，并用它来为世界创造各种好处。相反，现在看起来我们将创造人工智能，然后其他人将用它来创造各种令人惊奇的东西，我们都从中受益。

我们是一家企业，会发现很多东西可以收费，这将有助于我们为（希望）数十亿人提供免费、出色的人工智能服务。

其次，新的语音（和视频）模式是我用过的最好的计算机界面。感觉就像电影中的人工智能;对我来说，这是真的仍然有点令人惊讶。事实证明，达到人类水平的响应时间和表现力是一个很大的变化。

最初的 ChatGPT 暗示了语言界面的可能性;这个新事物给人的感觉是发自内心的不同。它快速、智能、有趣、自然且有用。

对我来说，与电脑交谈从未感到真正自然;现在它做到了。

随着我们添加（可选）个性化、访问您的信息、代表您采取行动的能力等等，我真的可以看到一个令人兴奋的未来，我们能够使用计算机做比以往任何时候都多的事情。

最后，非常感谢为实现这一目标倾注大量工作的团队！

6 GPT-4o 产品团队组织及角色

GPT-4o产品项目团队分为13个小组，核心为语言+多模态+平台+启动和部署四个小组，一名大项目经理。语言团队又分为16个小组，产品项目干系人220+。发现有数据飞轮组主管，在数据准备期间就必须考虑如何商业化吸引用户快速增长。多模态小组干系人106人，分为20个小组，音频视频翻译数据等等。平台58人。

每个员工都是博主，按照全渠道全覆盖有83名博主,OpenAI不愧是商业天才奇才。产品没有发布自家员工已经在所有PR渠道种草了。看每次产品发布堪称大片，产品演示内容和制造投入38人，堪称豪华剧院。国内的软件产品、大模型厂家的演示就是茅草台班子，也就安排CXO、运营总监、产品总监或者CTO演讲PPT,一名研发配合演示demo，太简陋了。不仅如此，产品发布会传播营销已经就绪，19人（大客户、媒体、渠道已经Ready）.法律律师同时参与，GTM(全球营销)策略已经制定，定价和财务已经参与成本和销售预估及回报。。。。

看到这儿，就知道OpenAI不仅产品研发投入巨大，更在产品商业化转换、集成和GTM、实际销售每个环节做了语言。发布会就是产品广告推广会。

GPT-4o贡献者如下

6.1 语言（语音处理&文本生成处理）

团队主管32+。语言项目大团队下属16个小团队（小组）。语言大项目组人员220人+

1）语言预训练主管-3

艾丹·克拉克、亚历克斯·派诺、雅各布·梅尼克

2）后训练主管-2

利亚姆·费杜斯，卢克·梅斯

3）架构主管-2

克莱门斯·温特（Clemens Winter），莉亚·盖伊（Lia Guy）

4）优化主管-2

山姆·舍恩霍尔茨，丹尼尔·利维

5）长上下文负责人-1

尼蒂什·凯斯卡（Nitish Keskar）

6）预训练数据主管-4

亚历克斯·卡尼、亚历克斯·派诺、伊恩·索尔、袁启明

7）分词器主管-1

Reimar

8）人类数据主管-3

阿尔卡·达尔、布莱登·伊士曼、米娅·格莱斯

9）评估主管-1

本·索科洛夫斯基

10）数据飞轮（Data flywheel）主管-1

安德鲁·康德里奇

11）推理主管-4

费利佩·彼得罗斯基·苏克，恩里克·庞德·德·奥利维拉·平托

12）后训练基础设施主管-3

翁佳怡，林婷婷，程友龙

13）预训练组织主管-1

尼克·莱德

14）预训练项目主管-1

劳伦·伊托（Lauren Itow）

15）后训练组织主管-2

巴雷特·佐夫，约翰·舒尔曼

16）后训练项目主管-1

陈婷婷

核心贡献者-190+

亚当·勒勒、亚当·古彻、亚当·佩雷尔曼、阿基拉·韦利欣达、亚历克·拉德福德、亚历克斯·博尔祖诺夫、亚历克斯·卡尼、亚历克斯·周、亚历克斯·派诺、亚历克斯·伦津、亚历克斯·塔查德·帕索斯、亚历克西·克里斯塔基斯、阿里·卡马利、艾莉森·莫耶、艾莉森·谭、阿明·图图恩奇安、阿南亚·库马尔、安德烈·卡帕西、安德烈·米先科、安德鲁·坎恩、安德鲁·康德里奇、安德鲁·图洛赫、安吉拉·江、安托万·佩利斯、阿努吉·戈萨利亚、阿维·纳亚克、阿维塔尔·奥利弗、贝鲁兹·戈尔巴尼、本·莱姆伯格、本·王、布莱克·萨米奇、布莱恩·瓜拉奇、布莱登·伊士曼、卡米洛·卢加雷西、查克李、夏洛特·巴雷特、切尔西·沃斯、张冲、克里斯·博蒙特、克里斯·哈拉西、克里斯·科赫、克里斯蒂安·吉布森、克里斯托弗·黑塞、科林·魏、丹尼尔·卡普勒、丹尼尔·莱文、丹尼尔·利维、大卫·法希、大卫·梅利、大卫·佐佐木、迪米特里斯·齐普拉斯、道格·李、阮德芳、邓肯·芬德利、埃德蒙·黄、埃桑·阿斯达尔、伊丽莎白·普罗尔、伊丽莎白·杨、埃里克·彼得森、埃里克·西格勒、尤金·布雷夫多、法尔扎德·呼拉萨尼、弗朗西斯·张、吉恩·奥登、杰夫·萨蒙、哈迪·萨勒曼、包海明、希瑟·施密特、洪宇·任、亨元郑、伊恩·基夫利坎、伊恩·奥康奈尔、伊恩·奥斯本、伊利亚·科斯特里科夫、英格玛·卡尼沙伊德、雅各布·考克森、詹姆斯·克鲁克斯、詹姆斯·列侬、杰森·特普利茨、杰森·魏、杰森·沃尔夫、杰伊·陈、杰夫·哈里斯、翁佳怡、唐杰、乔安妮·张、乔纳森·沃德、乔纳森·麦凯、金钟旭、乔什·格罗斯、乔什·卡普兰、乔伊·焦、乔伊斯·李、张俊堂、凯·弗里克、凯文·卡西克、丹尼尔·莱文肯尼·许、基尔·豪、凯尔·路德、拉里·凯、劳伦·伊托、里奥·陈、莉亚·盖伊、连真冢、吕莲·翁、欧阳龙、路易斯·费夫里尔、卢卡斯·康德拉丘克、抒情多西、马达·阿夫拉克、麦迪·西门斯、玛德琳·汤普森、马拉特·杜汉、马文·张、马特乌斯·利特温、马克斯·约翰逊、玛雅克·古普塔、米娅·格莱斯、迈克尔·詹纳、迈克尔·彼得罗夫、迈克尔·吴、米歇尔·弗拉丁、米歇尔·波克拉斯、米格尔·乌姆·特穆多·德·卡斯特罗、米哈伊尔·巴甫洛夫、米纳尔·汗、莫·巴伐利亚、娜塔莉亚·吉梅尔辛、娜塔莉·施陶达赫、尼克·斯塔萨斯、尼克·特扎克、尼森斯·库迪格、诺埃尔·邦迪克、奥菲尔·纳楚姆、奥列格·博伊科、奥列格·默克、奥利维尔·戈德门特、欧文·坎贝尔-摩尔、菲利普·普罗宁、菲利普·蒂莱特、雷切尔·林、拉詹·特罗尔、兰德尔·林、拉法·贡蒂霍·洛佩斯、劳尔·普里、雷亚·米亚拉、雷玛·莱克、雷诺·高伯特、礼萨·扎马尼、罗伯·洪斯比、罗希特·拉姆钱达尼、罗里·卡迈克尔、鲁斯兰·尼格马图林、瑞恩·周、斯科特·格雷、肖恩·格罗夫、肖恩·梅茨格、尚塔努·耆那教、赵胜佳、吴旭文、夏帅琪、索尼娅·芬、斯宾塞·帕佩、史蒂夫·科菲、史蒂夫·李、史蒂夫·李、斯图尔特·霍尔、苏西尔·巴拉吉、塔尔·布罗达、塔尔·斯特拉默、塔伦·戈吉尼尼、泰德·桑德斯、托马斯·坎宁曼、托马斯·迪姆森、托马斯·劳克斯、郑天豪、蒂娜·金、托德·安德伍德、特里斯坦·海伍德、瓦莱丽·齐、维尼·摩纳哥、弗拉德·福缅科、郑伟一、周文达、沃伊切赫·扎伦巴、亚什·帕蒂尔、伊蕾、钱、金永吉、程友龙、何宇晨、张玉辰、金玉佳、戴云兴、尤里·马尔科夫

6.2 多模态-106，多模态项目大团队包括20个小团队（小组）

1）多模态联运（端到端）主管-1

普拉富拉·达里瓦尔（Prafulla Dhariwal）

2）后训练多式联运（端到端）主管-1

亚历山大·基里洛夫

3）音频预训练主管-2

亚历克西斯·康诺，詹姆斯·贝克

4）音频后训练主管-3

亚历克斯·基里洛夫、詹姆斯·贝克、张宇

5）视觉感知主管-4

杰米·基罗斯、罗文·泽勒斯、劳尔·普里、俞佳慧

6）视觉生成主管-5

詹姆斯·贝克、亚历克斯·尼科尔、全熙宇、蔡西·朱、加布里埃尔·吴

7）科学主管-2

Ishaan Gulrazani，加布里埃尔·吴

8）数据采集主管-2

Ian Sohl，袁启明

9）数据基础架构主管-4

亚历克斯·派诺、詹姆斯·贝克、罗文·泽勒斯、亚历克斯·尼科尔

10）人类数据主管-2

阿尔卡·达尔（Arka Dhar），米娅·格莱泽（Mia Glaese）

11）编码器主管-1

全熙宇，亚历克西斯·康诺，李静，杰米·基罗斯

12）解码器主管-3

艾伦·贾布里、金正旭、詹姆斯·贝克

13）翻译主管-3

亚历克西斯·康诺，徐涛，张宇

14）推理主管-1

托梅尔·卡夫坦

15）实时AV平台主管-4

波戈·吉特勒、劳尔·普里、罗文·泽勒斯、托默·卡夫坦

16）前端主管-3

纳乔·萨特、洛基·史密斯、韦恩·张

17）后训练多式联运基础设施负责人-4

亚历山大·基里洛夫、卢克·梅斯、劳尔·普里、弗拉德·福缅科

18）应用工程负责人-1

乔丹·西特金

19）音频管理器-1

克里斯汀·麦克利维

20）多式联运组织负责人-1

陈旭东

21）项目负责人-1

陈婷婷

核心贡献者-63+

阿迪亚·拉梅什、AJ 奥斯特罗、艾伦·贾布里、亚历克西斯·康诺、亚历克·拉德福德、亚历克斯·尼科尔、阿维·纳亚克、阿维塔尔·奥利弗、本杰明·茨威格、博戈·吉特勒、郑博文、布兰登·沃金、布伦丹·奎因、张冲、克里斯汀·麦克利维、康斯坦丁·库穆泽利斯、丹尼尔·卡普勒、道格·李、埃德德·奥伊沃、法尔扎德·霍拉萨尼、费利佩·彼得罗斯基、希瑟·施密特、全熙宇、张慧文、伊恩·西尔伯、伊莎安·古拉贾尼、大卫·卡尔、胡海棠、詹姆斯·列侬、詹姆斯·贝克、杰米·基罗斯、杰夫·哈里斯、珍妮娅·瓦拉夫瓦、俞佳慧、林智、乔安妮·张、约翰内斯·海德克、金钟旭、梁周、李静、欧阳龙、玛德琳·博伊德、马克·哈德纳尔、钟梦超、米娅·格莱斯、尼克·特利、诺亚·多伊奇、诺埃尔·邦迪克、奥拉·奥克洛拉、奥利维尔·戈德门特、欧文·坎贝尔-摩尔、彼得·巴克、彼得·巴库姆、劳尔·普里、罗文·泽勒斯、萨奇·耆那教、 Shantanu Jain，Shirong Wu， Spencer Papay， Tao Xu， Valerie Qi， Wesam Manassra， Yu Zhang

6.3 平台-58+

平台分为11个小团队（小组）。红队对航和测试很关键。

1）数据系统主管-1

安德鲁·图洛克

2）模型分发主管-2

阿明·图图奇安，米格尔·卡斯特罗

3）ML主管-2

尼克·特扎克，克里斯托弗·黑塞

3）运行状态主管-1

伊恩·奥康奈尔

4）系统主管-1

杰森·特普利茨

5）内核主管-1

菲尔·蒂莱特

6）硬件运行状况主管-2

老人和迈克尔·彼得罗夫

7）超级计算主管-2

罗里·卡迈克尔和克里斯蒂安·吉布森

8）准备、安全、政策安全主管-1

约翰内斯·海德克

9）音频安全主管-1

萨奇耆那教

10）准备工作负责人-1

泰哈尔·帕特沃德汉

11）红队主管-1

特洛伊·彼得森

核心贡献者-42+

亚历克斯·博特尔、安德里亚·瓦隆、安吉拉·江、卡罗尔·温赖特、张冲、克里斯·博蒙特、克劳迪娅·费舍尔、埃文·梅斯、菲利波·拉索、王昊宇、伊恩·基夫利坎、杰森·彭、俞洁琪、乔尔·帕里什、约书亚·阿奇亚姆、乔纳森·上里托、乔斯特·惠津加、乔什·斯奈德、贾斯汀·哈里曼、史凯蒂、顾伦伯格、刘凯文、喇嘛·艾哈迈德、莉莲·翁、玛德琳·博伊德、梅根·沙阿、穆罕默德·亚特巴兹、迈克尔·兰佩、迈尔斯·王、莫莉·林、娜塔莉·科恩、尼尔·乔杜里、奥利维亚·沃特金斯、欧文·坎贝尔-摩尔、彼得·多兰、雷切尔·迪亚斯、拉胡尔·阿罗拉、萨奇·耆那教、山姆·托泽、桑迪尼·阿加瓦尔、托多尔·马尔科夫

6.4 模型启动和部署-25+

主管-陈婷婷

其他贡献-25+

其他主管

亚历山大·蒙德里、巴雷特·乔菲、鲍勃·麦格鲁、布拉德·莱特卡普、大卫·法希、格雷格·布罗克曼、汉娜·黄、伊利亚·萨茨克弗、雅各布·帕奇基、扬·莱克、杰森·科恩、约翰·舒尔曼、乔纳森·拉赫曼、克里蒂卡·穆图库马尔、莉莲·温格、马克·陈、迈尔斯·布伦戴奇、米拉·穆拉蒂、尼克·莱德、彼得·邓、皮特·威兰德、山姆·奥特曼、斯里尼瓦斯·纳拉亚南、塔尔·布尔达

6.5 法律-7

艾伦·海耶斯、阿什利·潘图利亚诺、布莱特·凯洛格、弗雷德·冯·洛曼、菲利波·拉索、希瑟·惠特尼、汤姆·鲁宾

6.6 博客文章作者身份-83+

艾丹·克拉克、亚历克斯·贝克-惠特科姆、亚历克斯·卡尼、亚历克斯·尼科尔、亚历山大·基里洛夫、亚历克斯·派诺、亚历克西斯·康诺、艾伦·贾布里、阿努吉·戈萨利亚、巴雷特·佐夫、本·索科洛夫斯基、波戈·吉特勒、程博文、程璐、克里斯汀·麦克利维、科利·查内茨基、丹尼尔·卡普勒、伊丽莎白·杨、埃里克·安东诺、埃里克·华莱士、菲利波·拉索、加布里埃尔·吴、格雷格·布罗克曼、汉娜·黄、全熙宇、亨德里克·基什内尔、雅各布·梅尼克、詹姆斯·贝克、詹姆斯·贝克、杰米·基罗斯、杰森·权、杰夫·哈里斯、林智、俞佳慧、约翰内斯·海德克、约翰·舒尔曼、乔纳森·麦凯、金钟旭、乔丹·西特金、肯德拉·里姆巴赫、肯德拉·里姆巴赫、刘凯文、克里西卡·穆图库马尔、莱赫·帕塔克、利亚姆·费杜斯、莉莲·翁、林赛·麦卡勒姆、卢克·梅斯、马克·陈、玛雅·谢蒂、米安娜·陈、迈克尔·兰佩、迈克尔·吴、米歇尔·波克拉斯、米拉·穆拉蒂、纳乔·索托、娜塔莉·萨默斯、尼科·菲利克斯、奥利维尔·戈德门特、欧文·坎贝尔-摩尔、彼得·邓、普拉富拉·达里瓦尔、雷玛·莱克、洛基·史密斯、罗文·泽勒斯、萨奇·耆那教、桑迪尼·阿加瓦尔、山姆·托泽、肖恩·格罗夫、山塔努·耆那教、涛旭、特贾尔·帕特沃德汉、托默·卡夫坦、汤姆·斯塔西、特洛伊·彼得森、维特·穆勒、维尼·摩纳哥、韦恩·张、张宇、何宇辰

6.7 演示内容+制作-38+

亚历克斯·贝克-惠特科姆、阿维·纳亚克、巴雷特·佐夫、鲍比·斯佩罗、波戈·吉特勒、布兰登·奎因、查德·纳尔逊、夏洛特·巴雷特、克劳迪娅·费舍尔、科利·查内茨基、科林·贾维斯、埃里克·安东诺、菲利波·拉索、格雷格·布罗克曼、詹姆斯·贝克、杰西卡·谢、乔·博特勒、乔·兰德斯、克里西卡·穆图库马尔、莱赫·帕塔克、林赛·麦卡勒姆、马克·陈、米安娜·陈、迈克尔·彼得罗夫、米拉·穆拉蒂、娜塔莉·萨默斯、彼得·邓、瑞奇·王、洛基·史密斯、罗汉·萨哈伊、罗文·泽勒斯、罗文·泽勒斯、斯科特·埃瑟史密斯、托基·谢尔巴科夫、托默·卡夫坦、维特·穆勒、韦恩·张

6.8 传播+营销-19

亚历克斯·贝克-惠特科姆、安德鲁·加卢、安吉拉·白、科利·查内茨基、德夫·瓦拉达雷斯、埃里克·安东诺、汉娜·黄、莱赫·帕塔克、林赛·麦卡勒姆、林赛·赫尔德、克里西卡·穆图库马尔、肯德拉·里姆巴赫、玛雅·谢蒂、尼科·菲利克斯、罗伊·陈、陈露比、塔亚·克里斯蒂安森、托马斯·德格里、维特·穆勒

6.9 资源分配和问题解决-5

鲍勃·麦格鲁、劳伦·伊藤奥、米安娜·陈、尼克·特扎克、塔尔·布尔达

6.10 安全和隐私-5

凯文·巴顿、保罗·麦克米兰、城本筱乃、托马斯·沙德威尔、维尼·摩纳哥

6.11 GTM、定价、财务-13

安德鲁·布劳恩斯坦、阿努吉·戈萨利亚、丹尼·金、埃里克·克莱默、杰夫·哈里斯、杰西卡·谢、乔·博特勒、乔·兰德斯、劳伦·沃克曼、罗伯·唐纳利、罗曼·休特、沙梅兹·赫尔马尼、托基·谢尔巴科夫。

我们还要感谢上面未明确提及的每一位 OpenAI 团队成员，包括行政助理、财务、市场、人力资源、法律、运营和招聘团队中的优秀人员。从雇用公司中的每个人，到确保我们拥有令人惊叹的办公空间，再到建立使我们能够做到最好的行政、人力资源、法律和财务结构，OpenAI 的每个人都为 GPT-4o 做出了贡献。

6.12 战略生态伙伴-微软

我们感谢 Microsoft 的合作伙伴关系，特别是 Microsoft Azure 通过基础结构设计和管理支持模型训练，以及 Microsoft Bing 团队和 Microsoft 安全团队在安全部署方面的合作伙伴关系。

6.13 测试与红队对抗人员

我们感谢我们的专家对抗性测试人员和红队成员，他们在开发的早期阶段帮助测试了我们的模型，并为我们的风险评估和系统卡提供了信息。参与这个红队过程并不代表对 OpenAI 的部署计划或 OpenAI 政策的认可。

*贡献者按字母顺序排列

53AI，企业落地应用大模型首选服务商

产品：大模型应用平台+智能体定制开发+落地咨询服务

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

160+中大型企业正在使用53AI

立即咨询预约演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

2024-05-14

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

2024-05-22

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

2024-04-12

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

万字长文解析：大模型需要怎样的硬件算力

2024-03-30

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-05-10

开源项目Composio：突破 AI 智能体开发的边界

2024-08-13

更改ollama模型存储路径

2024-04-25

全面对比dify、coze、streamlit、chainlit

2024-04-26

大家都在问

疯狂星期四Qwen2.5开源，通义成了最Open的AI?

2024-09-20

在长上下文LLM的时代，RAG是否仍然必要？

2024-09-20

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

2024-09-19

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

2024-09-19

o1 能带我们走进 AGI 吗？

2024-09-19

如何微调（Fine-tuning）大语言模型？

2024-09-18

AI软件必须用GPU么？

2024-09-18

ChatGPT有三个快捷指令和三个模式，你知道吗？

2024-09-17

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

1 为ChatGPT 免费用户介绍 GPT-4o 和更多工具

2 GPT-4o 简介

3 Hello GPT-4o

3.1 猜猜 5 月 13 日的公告。

3.2 模型能力

3.3 客户服务概念验证

3.4 能力探索 ，选择样品

3.4.1 文本评估

3.4.2 改进推理

3.4.4 GPT-40-08 RGB

3.4.5 M3Exam 零次样本结果

3.4.6 视觉理解评估

3.5 语言标记化

4 模型安全性和局限性

4.1 模型限制示例

5 山姆.奥尔特曼关于GPT-4o博客

6 GPT-4o 产品团队组织及角色

6.1 语言（语音处理&文本生成处理）

6.2 多模态-106，多模态项目大团队包括20个小团队（小组）

6.3 平台-58+

6.4 模型启动和部署-25+

6.5 法律-7

6.6 博客文章作者身份-83+

6.7 演示内容+制作-38+

6.8 传播+营销-19

6.9 资源分配和问题解决-5

6.10 安全和隐私-5

6.11 GTM、定价、财务-13

6.12 战略生态伙伴-微软

6.13 测试与红队对抗人员

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

OLLama详细的 api 介绍 不完全指南 python 直接调用 OLLama api 翻译助手演示

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

万字长文解析：大模型需要怎样的硬件算力

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

开源项目Composio：突破 AI 智能体开发的边界

更改ollama模型存储路径

全面对比dify、coze、streamlit、chainlit

大家都在问

疯狂星期四Qwen2.5开源，通义成了最Open的AI?

在长上下文LLM的时代，RAG是否仍然必要？

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

o1 能带我们走进 AGI 吗？

如何微调（Fine-tuning）大语言模型？

AI软件必须用GPU么？

ChatGPT有三个快捷指令和三个模式，你知道吗？

热门标签

3.4 能力探索，选择样品

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示