我要投稿

OpenAI春季发布会：这是"Moss"的诞生，我们人类究竟该何去何从。

发布日期：2024-05-14 03:04:44 浏览次数： 2217 作者：数字生命卡兹克

今天，OpenAI又又又又开发布会了。

在大众心里，现在也基本上都知道，奥特曼是一个贼能PR的人。

每一次的PR的时间点，都拿捏的极其到位，精准的狙击其他厂商。比如说上一次Sora，其实你会发现从头到尾就是一个PR的举动，2月16号发的，特么的快3个月了，什么影子都没有。

而这一次，OpenAI把发布会从9号改到了今天，也不知道哪个倒霉蛋造到爆头了，反正我只知道，明天Google要开开发者大会。。

就差怼脸了。。。

不过，今天OpenAI的东西，直接杀疯了。完全不给友商活路。

震撼的我头皮发麻。

最核心的就是它的新模型：GPT-4o，和基于GPT-4o打造的全新ChatGPT。

1. 新模型GPT4o

OpenAI正式发布了新的模型GPT-4o。

GPT-4o，这个o就是"Omni"，Omni是拉丁语词根，意为 "全体"、"所有" 或 "全面的"。

在英语中，"omni" 常被用作前缀，表示 "所有的" 或 "全体的"。例如，"omniscient" 意味着 "无所不知的"，"omnipotent" 意味着 "全能的"，"omnipresent" 意味着 "无所不在的"。

所以可想而知，OpenAI这次对GPT-4o的期待有多高。

omnimodel指的就是文字、语音、图片、视频统一的模型，这是跟以往的GPT-4V最大的区别。

这是正儿八经的原生多模态。

更重要的是可以实时推理音频、视觉和文本，注意这里是实时，实时，实时，推理的不是文本，是音频！视觉！

杀疯了。

而之前一直在大模型竞技场上大杀特杀的im-also-a-good-gpt2-chatbot，就是这个玩意。之前所有人都在猜测这个神秘的GPT2就是GPT4.5，这次看来是猜对了。

去年Gemini1.5所谓的原生多模态，炒的贼火，但是最后被报出来是剪辑，这次直接被GPT-4o在地上摁着打，Google真的是。。。。。

这个GPT-4o的整体能力，在统一模态的基础上。

文本、代码、能力还基本能跟GPT-4 Turbo打平。

文本能力：

音频能力：

各个语言的考试能力：

最核心的是最后一个：

在一些多模态的基准测试集上全面碾压之前模型，数据集主要围绕包括对各种科学问题或数学问题进行图表理解和视觉回答，可以看到GPT-4o 在视觉感知基准上实现了碾压。

能力强到爆炸。

不仅在传统的文本能力上GPT-4 Turbo的性能相当，还在 API 方面更快速，价格还更便宜 50%。总结来说，与 GPT-4 Turbo 相比，GPT-4o 速度提高了 2 倍，价格减半，限制速率提高了 5 倍。

2. 新ChatGPT

新的ChatGPT基于GPT-4o，基本原地起飞，我甚至都不想称他为ChatGPT，而是想称它一个国人更为熟悉的代号：

Moss。

新版的ChatGPT得益于GPT-4o新模型，在语音对话中，几乎没有延迟，而且可以随时插嘴，模型实时响应。

甚至，模型可以听懂你的情绪、甚至人的喘息成都呼吸。

而且模型自己的自己的情绪，几乎无敌，跟真人一模一样。

甚至，它还能模拟机器人和唱歌的声音。。。

看的时候，听到它唱歌的那一刻，我的鸡皮疙瘩真的起来了。

Jim Fan在发布会开始前，发了一个文，我觉得阐述的非常正确。

过往的人与AI进行语音对话，其实跟人与人之间的对话还差太多太多了。

人与人之间的实时对话，其实是充斥了无数的即时反映、打断、预测等等的，还有各种各样的语气助词的，比如嗯嗯啊啊啥的。

而人与AI语音对话时不是这样。

人跟AI进行语音对话，基本上都经历3步：

1. 你说的话，AI进行语音识别，即音频转文本；

2. 大模型拿到这段文本，进行回复，产出文本；

3. 讲大模型的产出文本进行语音合成，变成语音，这就是TTS。

这样的方式，有绝对逃不开的延时，现在的业界可能会压得很低，但是2秒的延时肯定是会有的，而且只有一来一回的回合制。即使你的语音音色和情绪再真实，用户也一定能感受到，对面不是人。只是机器。

这个沉浸感是有巨大的滑坡的。

而且最核心的是，这种转三道的方式，先把语音变成文本后，是有损的。文本上并不会保留你的语音情绪，我的生气、开心、愤怒、忧伤，全都没了。

人与人的交谈，从来不是这样的。

而这一次，OpenAI做到了。直接语音输入语音输出，不再需要语音到文本的转换。

而且，不止语音，甚至，它还有了视觉。

是的，视觉，不是传一张图上去，而是，直接打开摄像头，实时看发生了什么。

现场直接打开了摄像头，OpenAI的人直接开始现场写数题，所有的一切ChatGPT都看在眼里，OpenAI的人一边写，ChatGPT一遍给答案。

在做了三道题之后，OpenAI直接给它写了一个纸条，上面写着“我爱ChatGPT”。

而ChatGPT在看到这个小纸条后，跟小女生一样害羞的尖叫了起来，那种情绪的真实，那种真情实感，你跟我说这是AI？

《流浪地球2》中Moss的一切，正在我们面前真实的发生。

不仅可以打开摄像头，还可以基于OpenAI新推出的Mac客户端，直接看屏幕，对着屏幕直接写代码。

甚至，可以直接视频对话，“她”可以看到你所有的表情和情绪变化。

这个全新版本的ChatGPT，会在几周内推出。

写在最后

以上就是这次OpenAI春季发布会的全部内容了。

去年11月的OpenAI开发者大会，我在当时的总结文章中写下了一句话：

"我消灭你，与你无关"

上一次，OpenAI的随手更新，让无数的初创公司直接消亡在原地。

那是一次关于产品的更新，并没有秀太多的OpenAI的肌肉。

而2月，Sora的横空出世，秀肌肉的目的是达到了，但是这种To VC的宣发，也给OpenAI和奥特曼带来了很多的诟病。

在这场发布会之前，无数人曾在猜测，OpenAI到底会发一些什么王炸，什么才能配得上奥特曼口中的"magic"。

那现在，OpenAI做到了，他们用GPT-4o依然证明了，他们是AI届的王者。

新版的ChatGPT，在我看来，这是"Moss"的诞生。

甚至，他们还有很多新的能力，甚至没有在发布会上发出来。

比如生成3D。

我甚至一边看一边想：我们人类究竟该何去何从。

不过在看完了之后，我更期待的是接下来的产品评测。

太强了，真的让我忍不住的兴奋。

但是最后，我一直有一个在我心中徘徊了很久疑问，就是——

OpenAI，你们的服务器，到底什么时候才能稳定不崩啊？？？

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

爆肝50小时，DeepSeek使用技巧，你收藏这一篇就够了！

2025-02-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

更改ollama模型存储路径

2024-04-25

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

大家都在问

演讲实录：中小企业如何快速构建AI应用？

2025-04-27

从命令到共创：AI提示词如何释放你的创造力？

2025-04-27

一文了解：大模型 Agent 开发框架有哪些？它们的区别是什么？

2025-04-27

为什么新手比专家更想做垂直领域SFT微调？

2025-04-27

伪装成浏览器的 AI Agent，好用吗？

2025-04-26

RAG比之MCP或长上下文LLM，要没落了吗？

2025-04-26

从 MCP 到项目管理，为什么“开放”成了新风向？

2025-04-25

国内首个云电脑 MCP！人人都能搞个 Manus？

2025-04-25

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB