我要投稿

万字长文：OpenAI 发展史

发布日期：2024-10-11 08:06:45 浏览次数： 3080 作者：浮之静

在这篇文章正式开始前，我想先给个相关阅读，主要是我也没想到《OpenAI 系列》我已经写这么多内容。写得越多，了解越深，感慨也越多。在公司早期可以聚集一批顶尖天才去做一件结果未知的事情，真的很酷，虽然随着公司的发展，大家的分歧越来越大，只能通过离开这种方式来解决（聚是一团火，散是满天星）。但不管 OpenAI 未来如何，都衷心祝福它可以渡过难关，因为它对全人类的贡献是有目共睹的（算是为数不多的真正在通过技术改变世界的公司了，尤其是将冷冰冰的论文转化为可供普通人使用的产品）。话又说回来，OpenAI 过早宣传还在开发中的半成品的毛病真该改改，Sora 和 SearchGPT 到现在还没个影，上线的高级语音也是个阉割版。

一文读懂 OpenAI
OpenAI 大地震：Sam Altman 和 Greg Brockman 离职，微软加强与 OpenAI 合作！
没有员工，OpenAI 什么也不是！
Sam 重回 OpenAI，Q-star 被曝光！
AGI 里程碑：OpenAI Sora 从文字图像到视频
OpenAI 发布 Elon Musk 起诉事件公告
OpenAI 审核完毕，董事会扩充！ChatGPT 发不出消息怎么办？
GPT-4o：OpenAI 发布最强人机交互模型
OpenAI 首席科学家 Ilya 宣布离职
OpenAI 生态布局：GPT-4o 免费或许只是一个开始...
SearchGPT：OpenAI 内测 AI 搜索引擎
OpenAI o1 模型：AI 复杂推理新突破
OpenAI o1：使用限额提高，o1 模型深度解析

短短半个月，OpenAI 发生的事情有点多：从 o1 模型发布、Sam 小作文、高级语音、再到多名高管离职（? 难道是 AGI 真的要来了，需要通过这种方式来减缓 AI 的进化吗？）。以下是整理的最新推文事件线，Mira、Bob 和 Barret 相继离职，Sam 发了一条通知，在表示伤心难过之余，还宣布了公司最新任命：

我刚刚向 OpenAI 发布了这条通知：

大家好——
在过去的 6.5 年里，Mira 对 OpenAI 的进步和成长发挥了关键作用；她是我们从一个不知名的研究实验室发展为重要公司的重要因素。
今天早上，Mira 告诉我她要离开，我很难过，但支持她的决定。在过去的一年中，她一直在培养强大的领导班子，以确保我们持续进步。
我还想分享的是，Bob 和 Barret 也决定离开 OpenAI。Mira、Bob 和 Barret 都是独立做出这个决定的，且都是友好的。但 Mira 的决定时机使得一次性处理这一切显得合适，这样我们可以一起努力，确保顺利交接给下一代领导。
我非常感激他们的贡献。
在 OpenAI 担任领导职务是全身心投入的。一方面，能够建立 AGI 并成为发展最快的公司，将我们的先进研究成果交付给数亿人，是一种荣幸。另一方面，带领团队应对这一切是极具挑战的，他们为公司付出了超出职责的努力。
Mark 将成为我们的新研究高级副总裁，并将与首席科学家 Jakub 合作领导研究团队。这是我们长期以来为 Bob 准备的接班计划；虽然这一变化比预期来得更早，但我对 Mark 接任这个角色感到非常兴奋。Mark 不仅具备深厚的技术专长，过去几年他也以令人印象深刻的方式学会了如何成为一个领导者和管理者。
Josh Achiam 将担任新的使命协调负责人，跨部门工作，以确保我们在文化和各个方面都能顺利实现我们的使命。
Kevin 和 Srinivas 将继续领导应用团队。
Matt Knight 将担任我们的首席信息安全官，已经在这个职位上工作了很长时间。这是我们早就有的计划。
Mark、Jakub、Kevin、Srinivas、Matt 和 Josh 将向我汇报。过去一年多，我主要专注于我们组织的非技术部分；现在我期待更多地投入到公司的技术和产品部分。
今晚，我们将在 575 号楼聚会，从下午 5:30 开始。Mira、Bob、Barret 和 Mark 都会在场。这将是一次表达感激和反思我们共同成就的机会。明天，我们将举行全员大会，届时可以回答任何问题。日历邀请会很快发出。
领导层的变动是公司的自然部分，尤其是像我们这样快速成长、要求严格的公司。我显然不会假装这样的变化是自然的，但我们并不是一家普通公司，我认为 Mira 向我解释的原因（没有好时机，任何非突发的变动都可能泄露消息，而她希望在 OpenAI 上升期进行变动）是合理的。明天的全员大会上，我们可以进一步讨论这个问题。
感谢大家的辛勤工作和奉献。
Sam

我今天与 OpenAI 团队分享了以下说明。
大家好，
我有一件事想要和大家分享。经过深思熟虑，我做出了离开 OpenAI 的艰难决定。
与 OpenAI 团队共度的六年半时光对我来说是非凡的荣耀。在接下来的日子里，我会对许多人表达我的感激之情，但我想先感谢 Sam 和 Greg，感谢他们信任我领导技术团队，并在这些年里给予了我支持。
永远没有一个理想的时刻去离开一个自己珍视的地方，但此刻感觉是对的。我们最近发布的语音到语音和 OpenAI o1 标志着交互和智能领域新时代的开始——这些成就得益于你们的创造力和精湛技艺。我们不仅仅是构建了更智能的模型，我们从根本上改变了 AI 系统如何通过复杂问题进行学习和推理。我们将安全研究从理论领域带入实际应用，创建了比以往更具鲁棒性（robust）、对齐性（aligned）和可控性（steerable）的模型。我们的工作使前沿的 AI 研究变得直观和易于访问，开发出能够根据每个人的输入进行适应和进化的技术。这些成功是我们杰出团队合作的证明，正是因为你们的才华、奉献和承诺，OpenAI 才能站在 AI 创新的顶峰。
我选择离开是因为我想为自己创造时间和空间去探索。现在，我的首要任务是尽我所能确保平稳过渡，保持我们已经建立的势头。
我将永远感激能够与这样一个非凡的团队一起建设和工作的机会。我们共同推动了科学认知的边界，致力于改善人类福祉。虽然我可能不再与你们并肩作战，但我依然会为你们加油。
怀着对友谊、成就，尤其是我们共同克服的挑战的深深感激之情，
Mira (注：Mira 曾任职 OpenAI CTO)
我回复了这条信息。Mira，谢谢你所做的一切。
很难用语言形容 Mira 对 OpenAI、我们的使命以及我们每个人的重要性。
我对她帮助我们建立和完成的一切充满感激之情，但我最感激的是她在所有艰难时刻给予的支持和关爱。我很期待她接下来的成就。
我们很快会详细说明过渡计划，但此刻，我只想表达感激之情。
Sam
我刚刚与 OpenAI 分享了这个：
过去的八年在 OpenAI 的经历让我感到谦卑和敬畏。我在 2017 年 1 月加入的那个小型非营利组织，如今已成为全球最重要的研究与部署公司。
我非常享受与一群才华横溢、全心投入的同事们一起工作——全世界没有任何地方能与之相比。我为我们研究团队这些年来的工作感到无比自豪，从早期在强化学习（RL）方面的成就，到开创大型语言模型（LLM），再到构建首个多模态生成模型，最终通过 ChatGPT 改变了世界。
现在是时候让我休息一下了。没有比推出 o1 给世界更好的方式来结束我在这里的工作了。
展望未来，Mark Chen 将担任高级副总裁，领导研究团队，Jakub 将继续担任首席科学家。我将在未来两个月内继续支持 Mark、Jakub 和团队完成过渡。我对他们的领导充满信心，他们将引领 OpenAI 的研究迈向 AGI 及更远的未来。我迫不及待想看到这个团队接下来会做些什么。
注：Bob McGrew 曾任职 OpenAI 首席研究官 (Chief Research Officer)
我在 OpenAI 发布了这条通知。
大家好，我决定离开 OpenAI。
做出这个决定非常困难，因为我在 OpenAI 的时光是如此美好。在 ChatGPT 推出之前我加入了团队，并与 John Schulman 及其他人一起从零开始建立了后训练团队。我非常感激能够有机会领导后训练团队，并帮助 ChatGPT 发展壮大至今天的规模。现在我觉得是时候在 OpenAI 之外探索新的机会了。这是基于我个人职业生涯下一阶段发展的选择。
我非常感激 OpenAI 为我提供的所有机会，以及从 OpenAI 领导层（如 Sam 和 Greg）那里得到的所有支持。尤其感谢 Bob 在我 OpenAI 职业生涯中给予的一切，他一直是出色的经理和同事。后训练团队中有许多优秀的领导者，我相信他们能够很好地接手工作。
OpenAI 正在做出并将继续做出令人难以置信的工作，我对公司的未来充满乐观，并会一直为大家加油。
注：Barret Zoph 曾任职 OpenAI 研究副总裁 (VP Research (Post-Training))

OpenAI 宫斗剧

OpenAI 的发展史堪比一部史诗般的宫斗剧，为了让大家有更加直观的感受，我整理了 OpenAI 自创立之初的关键事件线（关键人员变动均采用红色字体）：

【2015 – 2018 年】非营利起步：

2015 年 12月，OpenAI 由 Sam Altman、Elon Musk、Ilya Sutskever、Greg Brockman 等联合创立，作为非营利组织启动，承诺提供 10 亿美元的资金支持，但到 2019 年实际收到的捐款为 1.3 亿美元。
2016 年 4月，OpenAI 发布了其强化学习研究平台 “OpenAI Gym” 的公测版。
2016 年 8 月，Nvidia 向 OpenAI 赠送了其首款 DGX-1 超级计算机，以帮助训练更大、更复杂的 AI 模型，并将处理时间从 6 天缩短到 2 小时。
2016 年 12 月，OpenAI 发布了 “Universe”，一个软件平台，用于衡量和训练 AI 的通用智能，涵盖全球的游戏、网站和其他应用。
2017 年，OpenAI 在云计算上花费了 790 万美元，占其功能性支出的四分之一。相比之下，DeepMind 在 2017 年的总支出为 4.42 亿美元。
2018 年夏天，仅仅是训练 OpenAI 的 Dota 2 机器人就需要租用谷歌的 12.8 万台 CPU 和 256 台 GPU，持续数周。
2018 年，Musk 辞去了董事会的职务，理由是“未来可能与特斯拉的 AI 开发（用于自动驾驶汽车）产生利益冲突”。Sam Altman 声称 Musk 认为 OpenAI 已经落后于其他玩家如 Google，并提议自己接管 OpenAI，但该提议被董事会拒绝。Musk 随后离开了 OpenAI。
2019 年 2 月，GPT-2 发布，因其生成类似人类文本的能力而受到关注。

【2019 年】从非营利组织转型：

从非营利转型为“收益封顶”盈利公司：2019 年，OpenAI 转型为“收益封顶”公司，利润上限为投资的 100 倍。这一模式允许公司吸引风险投资，并为员工提供股权。
与微软的合作：OpenAI 与微软建立了合作关系，获得 10 亿美元的投资。OpenAI 的系统自此运行在微软的 Azure 超级计算平台上。
技术商业化：OpenAI Global, LLC 宣布计划对其技术进行商业授权，并计划在五年内花费这 10 亿美元。Altman 还提到未来可能需要更多资金。
非营利与盈利的控制关系：尽管 OpenAI Global, LLC 是盈利公司，OpenAI, Inc. 作为非营利组织仍是其唯一控股股东，并保持对其非营利章程的信托责任。大多数董事会成员不得持有 OpenAI Global, LLC 的财务权益。
外界质疑：非营利性艾伦人工智能研究所（Allen Institute for AI）的 Oren Etzioni 对 OpenAI 的转型表示质疑，认为非营利组织仍有竞争力，并指出成功的低预算项目作为反例。
民主化 AI 的争议：一些研究人员认为 OpenAI Global, LLC 的盈利转型与其“普及 AI”的初衷不符。

【2020 – 2023 年】ChatGPT、DALL-E 与微软合作：

2020 年，发布了 GPT-3，这是一个用于自然语言处理的大型语言模型，并推出了相关 API 作为其首个商业产品的核心。
2020 年 12 月至 2021 年 1 月期间，11 名员工离开 OpenAI，成立了Anthropic（代表产品：Claude）。
2021 年，OpenAI 推出了 DALL-E，一款基于 GPT-3 架构的深度学习模型，擅长根据文本描述生成复杂的数字图像。
2022 年 12 月，OpenAI 发布了基于 GPT-3.5 的新 AI 聊天机器人 ChatGPT 免费预览版，获得了广泛的媒体关注（被认为是 AI 元年，从此一发不可收拾）。据 OpenAI 称，预览版在发布的前五天内就有超过一百万用户注册。根据路透社 2022 年 12 月的匿名消息来源，OpenAI Global, LLC 预计 2023 年的收入将达到 2 亿美元，2024 年将达到 10 亿美元。
2023 年 1 月，OpenAI Global, LLC 正在洽谈一笔融资，使公司估值达到 290 亿美元，是 2021 年估值的两倍。2023 年 1 月 23 日，微软宣布将在未来几年内向 OpenAI Global, LLC 投资 100 亿美元，部分资金将用于使用微软的 Azure 云计算服务。有传言称，微软可能会获得 OpenAI 75% 的利润，直到收回投资，并获得公司 49% 的股份。该投资被认为是微软计划将 OpenAI 的 ChatGPT 整合到 Bing 搜索引擎中的一部分（现已更名为 Copilot^[1]）。谷歌在 ChatGPT 发布后宣布了类似的 AI 应用程序 Bard（现已更名为 Gemini^[2]），担心 ChatGPT 会威胁谷歌作为信息来源的地位（谷歌最大营收来自搜索中的广告服务）。
2023 年 2 月 7 日，微软宣布将在 Bing、Edge、Microsoft 365 及其他产品中集成基于 ChatGPT 相同基础技术的 AI 技术。
2023 年 3 月 3 日，Reid Hoffman 因避免与他通过 Greylock Partners 投资的 AI 公司以及他共同创办的 AI 初创公司 Inflection AI^[3] （代表产品：Pi Chat^[4]）产生利益冲突，辞去了他在 OpenAI 董事会的职务。Hoffman 继续担任微软董事会成员，而微软是 OpenAI 的主要投资者。
2023 年 3 月 14 日，OpenAI 发布了 GPT-4，既作为 API（需排队等待）又作为 ChatGPT Plus 的一项功能。
2023 年 5 月 22 日，Sam Altman、Greg Brockman 和 Ilya Sutskever 发布了关于超级智能治理的建议。他们认为超级智能可能在未来 10 年内出现，并带来“显著更繁荣的未来”，鉴于存在潜在的生存风险，他们强调“不能只做被动反应”。他们建议建立类似国际原子能机构的国际监管机构来监督具有某种能力门槛以上的 AI 系统，同时建议对较弱的 AI 系统不应过度监管。他们还呼吁加强对超级智能的技术安全研究，并建议通过政府联合项目实现更多协调，“将许多当前的努力整合在一起”。
2023 年 7 月，OpenAI 启动了超级对齐项目，旨在通过利用 AI 自动化对齐研究，在 4 年内找到未来超级智能的对齐方法。
2023 年 8 月，OpenAI 宣布收购了总部位于纽约的初创公司 Global Illumination，这是一家利用 AI 开发数字基础设施和创意工具的公司。
2023 年 9 月 21 日，微软开始将其所有变体的 Copilot 重新命名为 Microsoft Copilot，包括前 Bing Chat 和 Microsoft 365 Copilot。这一策略在 2023 年 12 月继续推进，MS-Copilot 被添加到许多 Windows 11 和 Windows 10 的安装版本中，同时也发布了适用于 Android 的独立 Microsoft Copilot 应用程序，并随后发布了适用于 iOS 的版本。
2024 年 9 月，OpenAI 全球事务负责人 Anna Makanju 在向英国上议院通信与数字委员会作证时，表达了对英国 AI 监管方式的支持，称公司支持“智能监管”，并将英国的 AI 白皮书视为朝负责任 AI 开发迈出的积极一步。
2023 年 10 月，Sam Altman 和阿联酋 AI 公司 G42 的 CEO Peng Xiao 宣布，OpenAI 将允许 G42 部署其技术。
2023 年 11 月 6 日，OpenAI 推出了 GPTs，允许用户创建定制版本的 ChatGPT，以满足特定用途的需求，进一步扩大了 AI 在各个行业的应用可能性。
2023 年 11 月 14 日，由于需求量大，OpenAI 宣布暂时停止 ChatGPT Plus 的新注册（ChatGPT 网站经常打不开，以至于大家都学会了通过 OpenAI Status^[5] 查看服务运行状况）。一个多月后，新的订阅用户于 12 月 13 日重新开放注册。

【2024 年至今】公共/非营利努力，Sora，与苹果的合作

2024 年 1 月 16 日，在回应来自全球监管机构的强烈审查时，OpenAI 宣布成立一个新的“集体对齐”团队，旨在落实公众提出的确保其模型“与人类价值观对齐”的想法。此举源自公司于 2023 年 5 月启动的公共计划。公司解释称，该计划将独立于其商业活动之外进行。
2024 年 1 月 18 日，OpenAI 宣布与亚利桑那州立大学（ASU）达成合作协议，向其全面开放 ChatGPT Enterprise。ASU 计划将该技术融入其多个运营领域，包括课程、辅导和研究。这是 OpenAI 首次与教育机构合作。
2024 年 2 月，据报道，美国证券交易委员会正在调查 OpenAI，调查内容涉及是否 Altman 的内部公司通信误导了投资者；此前，美国纽约南区检察官办公室于 2023 年 11 月对 Altman 的声明展开的调查仍在进行中。
2024 年 2 月 15 日，OpenAI 宣布了一个名为 Sora 的文本到视频模型，计划在未指定日期向公众发布。目前，Sora 对红队（Red Teams）开放，用于管理关键危害和风险（截止到我写这篇文章，Sora 并未发布）。
2024 年 2 月 29 日，OpenAI 和 CEO Sam Altman 被 Elon Musk 起诉，Musk 指责他们优先考虑利润而非公共利益，违背了 OpenAI 最初的使命，即为人类利益开发 AI。诉讼提到 OpenAI 与微软合作后的政策转变，质疑其开源承诺，并引发了 AI 伦理与利润之间的争论。在一篇博客文章中，OpenAI 表示，“Elon 明白使命并不意味着开源 AGI”（OpenAI and Elon Musk^[6]）。在一份员工备忘录中，OpenAI 还否认自己是微软的事实上的子公司。
2024 年 3 月 11 日，OpenAI 在法庭文件中表示，在 2018 年 Musk 离开后公司“一切都很好”。他们还回应了 Musk 的诉讼，称这位亿万富翁的指控“前后矛盾”、“无聊”、“不寻常”，并且是“虚构的”。
2024 年 6 月 11 日，Musk 出人意料地撤回了诉讼。
2024 年 8 月 5 日，Musk 重新起诉 Altman 等人，指控 Altman 曾宣称 OpenAI 将以非营利组织的形式成立。
2024 年 5 月 15 日，Ilya Sutskever 辞去 OpenAI 职务，由 Jakub Pachocki 接任首席科学家。几小时后，超级对齐团队的另一位联合负责人 Jan Leike 宣布离职，理由是对 OpenAI 领导层的安全性和信任感出现了动摇。他们的离职以及几位研究人员的离开，导致 OpenAI 将该团队的工作吸收到其他研究领域，并正式解散超级对齐团队。据《财富》采访的消息人士称，OpenAI 承诺将其 20% 的计算能力分配给超级对齐项目的目标尚未实现。
2024 年 5 月 19 日，Reddit 和 OpenAI 宣布合作，将 Reddit 的内容整合到 OpenAI 的产品中，包括 ChatGPT。此合作允许 OpenAI 访问 Reddit 的数据 API，提供实时结构化内容，以增强 AI 工具和用户与 Reddit 社区的互动。此外，Reddit 计划利用 OpenAI 的平台为用户和版主开发新的 AI 驱动功能。该合作符合 Reddit 对隐私的承诺，遵守其公共内容政策和现有的数据 API 条款，后者限制未经批准的商业使用。OpenAI 还将成为 Reddit 的广告合作伙伴。
2024 年 5 月 22 日，OpenAI 与新闻集团达成协议，将 The Wall Street Journal、New York Post、The Times 和 The Sunday Times 的新闻内容整合到其 AI 平台中。同时，New York Post 等其他出版物则选择起诉 OpenAI 和微软，指控其在使用内容训练 AI 模型时侵犯版权。
2024 年 5 月 29 日，OpenAI 已与 Vox Media 和 The Atlantic 签署协议，分享内容以提高像 ChatGPT 这样的 AI 模型的准确性，目的是通过整合可靠的新闻来源解决 AI 虚假信息问题。记者们，特别是那些为这些出版物工作的人，以及出版物的工会，对这一决定表示了担忧。Vox 工会表示：“作为记者和工人，我们对这次合作持严重保留态度，我们认为这可能会对我们工会的成员产生不利影响，更不用说关于生成式 AI 的广泛记录的伦理和环境问题了。”
一群现任和前任 OpenAI 员工指控公司优先考虑利润而忽视安全，使用限制性协议来压制对安全问题的担忧，并在管理风险不足的情况下推进项目。他们呼吁更多透明度、举报人保护和对 AI 开发的立法监管。
2024 年 6 月 10 日，苹果在 WWDC 2024 大会上宣布与 OpenAI 合作，将 ChatGPT 功能引入 Apple Intelligence 和 iPhone（WWDC24：AI 赋能，Apple 软件生态大变革！）。
2024 年 6 月 13 日，OpenAI 宣布前 NSA 局长 Paul Nakasone 加入公司董事会，并加入公司的安全委员会。
2024 年 6 月 24 日，OpenAI 收购了 Multi^[7]，这是一家基于 Zoom 的协作平台初创公司。
2024 年 7 月，路透社报道，OpenAI 正在研发代号为 “Strawberry”（之前称为 Q*）的项目，旨在增强 AI 的推理能力。该项目旨在使 AI 能够提前计划、自动浏览互联网并进行“深度研究”。该项目于 2024 年 9 月 12 日正式发布，名为 o1。
2024 年 8 月 5 日，TechCrunch 报道，OpenAI 联合创始人 John Schulman 离开公司，加入竞争对手 AI 初创公司 Anthropic。Schulman 表示，他希望更加深入地专注于 AI 对齐研究。此外，OpenAI 的总裁兼联合创始人 Greg Brockman 将休假至年底。
2024 年 9 月 25 日，OpenAI 首席技术官（CTO）Mira Murati 宣布离职，她称希望“创造时间和空间进行个人探索”。

OpenAI 主要成就

强化学习

在其创立初期，OpenAI 的研究包含了许多专注于强化学习（RL）的项目。OpenAI 被视为 DeepMind 的重要竞争对手。

Gym

2016 年发布的 Gym^[8] 是一个开源的 Python 库，旨在促进强化学习算法的开发。它的目标是标准化 AI 研究中环境的定义，使发布的研究更容易复现，同时为用户提供一个简单的接口来与这些环境进行交互。到 2022 年，Gym 的后续开发已转移到名为 Gymnasium^[9] 的库中。

Gym Retro

2018 年发布的 Gym Retro^[10] 是一个用于视频游戏强化学习（RL）研究的平台，使用 RL 算法研究泛化能力。此前的 RL 研究主要集中在优化智能体解决单一任务的能力上。Gym Retro 允许智能体在概念相似但外观不同的游戏之间进行泛化。

RoboSumo

2017 年发布的 RoboSumo^[11] 是一个虚拟世界，元学习的类人机器人智能体最初连走路的知识都没有，但被赋予学习移动和将对方推出赛场的目标。通过这种对抗性学习过程，智能体学会了适应变化的条件。当智能体被从这个虚拟环境移出并放置到一个有强风的新虚拟环境中时，智能体会调整姿势保持站立，这表明它已经学会了如何在一般情况下保持平衡。OpenAI 的 Igor Mordatch 认为，智能体之间的竞争可以创造一种智能的“军备竞赛”，这可以增强智能体在竞争环境之外的功能。

OpenAI Five

OpenAI Five^[12] 是由五个 OpenAI 策划的机器人组成的团队，用于五对五的竞技类游戏《Dota 2》，这些机器人通过试错算法学习与人类玩家进行高水平比赛。首次公开演示是在 2017 年的《Dota 2》国际邀请赛上，乌克兰职业选手 Dendi 在现场一对一比赛中输给了机器人。赛后，CTO Greg Brockman 解释说，这个机器人通过与自己对战两周时间学会了技能，并表示该学习软件朝着处理复杂任务（如外科手术）的方向迈进了一步。该系统使用了一种强化学习形式，机器人通过每天数百次自我对战的方式进行数月学习，并为击杀敌人和占领地图目标等行为奖励积分。

到 2018 年 6 月，机器人能够组成一个五人完整团队，并击败了业余和半职业玩家团队。在 2018 年的国际邀请赛上，OpenAI Five 与职业选手进行了两场表演赛，但都输了。2019 年 4 月，OpenAI Five 在旧金山的一场现场表演赛中以 2:0 击败了当时的世界冠军队伍 OG。该机器人团队最后一次公开亮相是在同年稍晚的在线公开赛中，他们在四天内共进行了 42,729 场比赛，赢得了 99.4% 的胜利。

OpenAI Five 在《Dota 2》中的表现展示了 AI 系统在多人在线战术竞技游戏中的挑战，以及 OpenAI Five 如何通过深度强化学习（DRL）智能体在《Dota 2》比赛中实现超人水平的能力。

Dactyl

Dactyl^[13] 于 2018 年开发，使用机器学习训练一只 Shadow Hand（类人机器人手）操纵物体。它完全通过仿真使用与 OpenAI Five 相同的 RL 算法和训练代码进行学习。OpenAI 通过使用领域随机化解决了物体定向问题，这是一种让学习者接触各种经验的仿真方法，而不是试图与现实情况相匹配。Dactyl 的设置除了有运动跟踪摄像头，还配备了 RGB 摄像头，允许机器人通过视觉操纵任意物体。2018 年，OpenAI 展示了该系统能够操纵一个立方体和一个八角棱柱体。

2019 年，OpenAI 展示了 Dactyl 能够解开魔方的能力。机器人能在 60% 的情况下成功解开魔方。像魔方这样的物体引入了复杂的物理问题，这些问题难以建模。OpenAI 通过使用自动领域随机化（ADR）增强了 Dactyl 应对干扰的鲁棒性，ADR 是一种生成逐渐更难环境的仿真方法。ADR 不同于手动领域随机化，因为它不需要人为指定随机化范围。

API

2020 年 6 月，OpenAI 宣布推出一个多功能 API（OpenAI API^[14]），用于“访问 OpenAI 开发的新 AI 模型”，允许开发者调用该 API 来处理“任何英文 AI 任务”。

文本生成（text generation）

OpenAI 普及了生成式预训练变压器（GPT）。

GPT-1

OpenAI 最初的生成式预训练变压器语言模型的论文由 Alec Radford 及其同事撰写（Improving language understanding with unsupervised learning^[15]），并于 2018 年 6 月 11 日在 OpenAI 网站上以预印本形式发布。该论文展示了通过对包含长段连续文本的多样化语料库进行预训练，语言生成模型可以获得世界知识并处理长距离依赖性。

原始 GPT 模型

GPT-2

GPT-2^[16] 是一个无监督的生成式预训练变压器语言模型，是 OpenAI 最初 GPT 模型的继任者。于 2019 年 2 月发布，最初只发布了有限的演示版本。由于担心可能被滥用（如用于编写假新闻），其完整版本并未立即公开发布。有些专家对 GPT-2 的潜在威胁持怀疑态度。

针对 GPT-2，艾伦人工智能研究所开发了一种工具，用于检测“神经网络生成的假新闻”。其他研究者如 Jeremy Howard 警告说，GPT-2 的技术可能会“填满 Twitter、电子邮件和网络，生成听起来合情合理且符合语境的文章，这将淹没所有其他信息并难以过滤”。2019 年 11 月，OpenAI 发布了完整版本的 GPT-2 语言模型。

GPT-2 的作者认为，无监督语言模型是通用学习者，并且 GPT-2 在 7 个零样本任务中的 8 个任务中取得了最先进的准确率和复杂度。这表明模型不需要进一步训练特定任务的输入-输出示例。

GPT-3

GPT-3^[17] 是 GPT-2 的继任者，于 2020 年 5 月首次描述。OpenAI 表示，GPT-3 的完整版本包含 1750 亿个参数，其规模比 GPT-2 的 15 亿参数大两个数量级。

GPT-3 在某些“元学习”任务中表现出色，能够从单一输入-输出对中推广。GPT-3 显著提升了基准测试结果，超过了 GPT-2。预训练 GPT-3 所需的计算量远超 GPT-2，达到数千 petaflop/s-day。

GPT-3 在 2020 年 9 月 23 日被微软独家许可。

? Petaflop/s-day
1 Petaflop/s-day 表示系统在一天内执行了约 10²⁰ 次神经网络运算，这包括神经网络模型中的加法和乘法运算。Petaflop/s-day 是用来衡量计算机在一天内执行的总计算量的单位，表示每秒执行 10¹⁵ 次浮点运算，连续运行一天所完成的运算总数大约为 10²⁰ 次。这种度量方式类似于能源中的“千瓦时”，用于描述大型深度学习模型的训练所需的实际计算量，而不仅仅是硬件的理论峰值性能。
了解更多 AI and compute^[18]

Codex

2021 年中宣布的 Codex^[19] 是 GPT-3 的一个后代，进一步在来自 GitHub 的 5400 万代码库上进行了训练，并成为 GitHub Copilot^[20] 代码自动补全工具的核心技术。2021 年 8 月，Codex 的 API 进入私人测试阶段。

Codex 在应用过程中暴露出一些故障、设计缺陷和安全漏洞。GitHub Copilot 被指控生成了受版权保护的代码，但未标明作者或许可证。OpenAI 于 2023 年 3 月 23 日宣布将停止支持 Codex API。

GPT-3.5

GPT-3.5^[21] 虽是 GPT-3 模型的一个子类，但 OpenAI 并未将它纳入 GPT-3 系列。2022 年 3 月 15 日，OpenAI 在其 API 中推出了具有编辑和插入功能的新版本 GPT-3 和 Codex，分别命名为 “text-davinci-002” 和 “code-davinci-002”。这些模型被描述为比之前的版本更强大，并训练于截至 2021 年 6 月的数据。2022 年 11 月 28 日，OpenAI 推出了 “text-davinci-003”。2022 年 11 月 30 日，OpenAI 开始将这些模型归类为 “GPT-3.5” 系列，并发布了 ChatGPT，该模型是从 GPT-3.5 系列中的某个模型微调而来。

GPT-4

2023 年 3 月 14 日，OpenAI 发布了 GPT-4^[22]，该模型能够处理文本或图像输入。GPT-4 的表现远超 GPT-3.5，并且能够生成或分析多达 25,000 字的文本，支持所有主要编程语言的代码编写。GPT-4 被应用于 ChatGPT 中，较之前的 GPT-3.5 版本有所改进，但仍保留了某些问题。

GPT-4o

2024 年 5 月 13 日，OpenAI 发布了 GPT-4o^[23]，该模型能够处理和生成文本、图像和音频。GPT-4o 在语音、多语言和视觉基准测试中取得了最先进的成果，创造了语音识别和翻译的新纪录。GPT-4o 在大型多任务语言理解（MMLU）基准测试中得分为 88.7%，高于 GPT-4 的 86.5%。

2024 年 7 月 18 日，OpenAI 发布了 GPT-4o mini^[24]，取代 ChatGPT 界面上的 GPT-3.5 Turbo，API 成本显著降低，适用于企业、初创公司和开发者。

o1

2024 年 9 月 12 日，OpenAI 发布了 o1-preview（更适合推理任务）和 o1-mini（更适合编程任务）模型，这些模型设计为在生成回答时花费更多时间思考，从而提高准确性。这些模型在科学、编码和推理任务中表现尤为出色，并提供给 ChatGPT Plus 和团队成员使用。

图像分类（Image classification）

2021 年发布的 CLIP^[25]（对比语言-图像预训练）是一种模型，旨在分析文本和图像之间的语义相似性。它特别适用于图像分类任务。

文本到图像（Text-to-image）

DALL-E

DALL-E^[26] 是一种变压器模型，能够根据文本描述生成图像，于 2021 年发布。DALL-E 使用一个拥有 120 亿参数的 GPT-3 版本来解释自然语言输入并生成相应的图像。它既可以生成现实中的物体图像，也可以生成不存在于现实中的物体。截至 2021 年 3 月，尚未提供 API 或代码。

DALL-E 2

2022 年 4 月，OpenAI 发布了 DALL-E 2^[27]，更新版本的模型具有更加逼真的生成结果。2022 年 12 月，OpenAI 在 GitHub 上发布了 Point-E^[28] 软件，这是一种将文本描述转换为三维模型的初步系统。

DALL-E 3

2023 年 9 月，OpenAI 发布了 DALL-E 3^[29]，这个模型能够更好地根据复杂的描述生成图像，无需手动调整提示词，并能够渲染复杂细节，如手和文本。它于 10 月作为 ChatGPT Plus 的功能向公众发布。

文本到视频（Text-to-video）

Sora^[30] 是一种文本到视频的模型，能够根据简短的描述性提示生成视频，并可将现有视频向前或向后扩展。它可以生成分辨率高达 1920x1080 或 1080x1920 的视频。生成视频的最大长度尚不明确。

Sora 的开发团队将其命名为日语中的“天空”，象征其“无限的创造潜力”。Sora 的技术是基于 DALL-E 3 文本到图像模型的技术改编而来。OpenAI 使用了公开可用的视频以及获得版权许可的视频进行系统训练，但并未透露视频的数量或具体来源。

2024 年 2 月 15 日，OpenAI 向公众展示了一些由 Sora 生成的高清视频，并声明其能够生成时长达一分钟的视频。OpenAI 还发布了一份技术报告（Video generation models as world simulators^[31]），介绍了用于训练该模型的方法及其能力。报告也承认了该模型的一些局限性，包括在模拟复杂物理现象时的困难。《麻省理工科技评论》的 Will Douglas Heaven 称这些展示视频“令人印象深刻”，但也指出这些视频可能经过精挑细选，未必代表 Sora 的典型输出。

尽管 Sora 的公开演示后引发了一些学术领袖的质疑，但娱乐行业的知名人士对该技术的潜力表现出浓厚兴趣。在一次采访中，演员/电影制片人 Tyler Perry 表示，他对该技术能够从文本描述生成逼真视频的能力感到震惊，认为它有潜力彻底改变故事讲述和内容创作。他提到，他对 Sora 的可能性感到如此兴奋，以至于决定暂停扩建位于亚特兰大的电影工作室的计划（现在不知道有没有后悔）。

语音转文字（Speech-to-text）

Whisper^[32] 是 2022 年发布的通用语音识别模型。它基于大量多样化的音频数据进行训练，同时也是一个多任务模型，能够进行多语言语音识别、语音翻译和语言识别（早期 ChatGPT 语音对话就是通过此模型处理的，而 gpt-4o 天然支持语音处理）。

音乐生成（Music generation）

MuseNet

2019 年发布的 MuseNet^[33] 是一个深度神经网络，训练用于预测 MIDI 音乐文件中的后续音符。它可以用 10 种乐器生成 15 种风格的歌曲。据《The Verge》报道，MuseNet 生成的歌曲在开始时通常合理，但随着时间推移，音乐会变得混乱。在流行文化中，这一工具的早期应用可以追溯到 2020 年，用于网络心理惊悚片《Ben Drowned》为主角创作音乐。

Jukebox

2020 年发布的 Jukebox^[34] 是一个开源的音乐生成算法，能够生成带有人声的音乐。该系统在 120 万个样本上进行了训练，用户输入一个音乐类型、艺术家和一段歌词后，系统会输出歌曲样本。OpenAI 表示这些歌曲“具有局部的音乐连贯性，并遵循传统的和弦模式”，但也承认这些歌曲缺乏“熟悉的大型音乐结构，如重复的副歌”，并且“与人类生成的音乐相比存在显著差距”。《The Verge》称其“在技术上令人印象深刻，即使生成的结果像是熟悉的歌曲的模糊版本”，而《Business Insider》则表示，“令人惊讶的是，有些生成的歌曲非常抓耳，并且听起来很正统”。

用户界面

Debate Game

2018 年，OpenAI 推出了 Debate Game^[35]，这是一款教导机器在一个人类裁判面前就玩具问题展开辩论的游戏。其目的是研究这种方法是否有助于审计 AI 决策并开发可解释的 AI。

Microscope

2020 年发布的 Microscope^[36] 是一个可视化工具，展示了八个神经网络模型中每一层的重要神经元，这些模型通常用于可解释性研究。Microscope 的创建旨在轻松分析这些神经网络内部形成的特征。所包含的模型有 AlexNet、VGG-19、不同版本的 Inception 和不同版本的 CLIP ResNet。

ChatGPT

ChatGPT 于 2022 年 11 月发布，是基于 GPT-3 的人工智能工具，提供了一个对话界面，允许用户以自然语言提问，系统会在几秒钟内作出回答。ChatGPT 在发布 5 天内达到了 100 万用户。

截至 2023 年，ChatGPT Plus 是一个基于 GPT-4 的版本，订阅费用为每月 20 美元（原始版本基于 GPT-3.5）。OpenAI 还通过 GPT-4 API 候选名单向特定申请者提供 GPT-4，申请通过后，访问 GPT-4 需支付额外费用：初始输入文本每 1000 个 token 收费 0.03 美元，生成文本每 1000 个 token 收费 0.06 美元（上下文窗口为 8192 token）；对于 32768 token 的上下文窗口，价格翻倍。

2023 年 5 月，OpenAI 为 iOS 的 App Store 推出了 ChatGPT 的用户界面，2023 年 7 月又在 Android 的 Play Store 推出。该应用支持聊天记录同步和语音输入（使用 OpenAI 的语音识别模型 Whisper）。2023 年 9 月，OpenAI 宣布 ChatGPT “现在可以看、听和说”。ChatGPT Plus 用户可以上传图片，移动应用用户可以与聊天机器人进行语音对话。

2023 年 10 月，OpenAI 的最新图像生成模型 DALL-E 3 集成到了 ChatGPT Plus 和 ChatGPT Enterprise 中。该集成通过与用户的对话，由 ChatGPT 生成 DALL-E 的提示词。

原计划于 2023 年发布的 OpenAI GPT Store^[37]，因 2023 年 11 月的领导层变动，延期至 2024 年初发布。

SearchGPT

SearchGPT^[38] 是 OpenAI 开发的原型搜索引擎，于 2024 年 7 月 25 日揭晓，最初限量向 1 万名测试用户发布。它结合了传统搜索引擎功能和生成式 AI 能力（至今未发布）。

Stargate 及其他超级计算机

Stargate 是由微软和 OpenAI 开发的人工智能超级计算机项目的一部分。Stargate 是一个更大的数据中心项目的一部分，该项目微软可能投资高达 1000 亿美元（Microsoft, OpenAI plan $100 billion data-center project, media report says^[39]、Microsoft and OpenAI Plot $100 Billion Stargate AI Supercomputer^[40]）。

Stargate 是微软和 OpenAI 未来几年计划的一系列 AI 相关建设项目之一。超级计算机的建设将分五个阶段进行。第四阶段计划建设一个较小的 OpenAI 超级计算机，预计将在 2026 年左右启动。Stargate 是该计划的第五个也是最后一个阶段，预计将在 2028 年完成，整个项目将历时五至六年。

Stargate 的人工智能预计将依托数百万个专用服务器芯片。超级计算机的数据中心将在美国一块占地 700 英亩的土地上建造，计划的耗电量为 5 吉瓦，可能依赖核能。“Stargate” 这一名称是对 1994 年科幻电影《星际之门》的致敬。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业