我要投稿

通往 AGI 的道路，感知模型与大语言模型

发布日期：2024-07-14 05:54:56 浏览次数： 2009 作者：橘子汽水铺

人在说「我饿了」的时候，是在报告自己的生理状态。
而语言模型说「我饿了」的时候，只是在生成最有可能性的词语序列。
语言模型从原理上不可能产生感知，再大的模型都不可能。
—— 李飞飞

是这样吗？

大语言模型无法通向 AGI

李飞飞前阵子发了篇文章，讲为什么大模型到不了 AGI。

她的思路是这样的：
AGI 的一个重要特征是感知力。能够感受饥饿、尝到苹果的味道、看到苹果的红色。
感知AI可能会自发地产生希望和愿望。
感知AI会带来灭绝级的危机。

语言模型可以声称自己拥有饥饿的体验。
但是大模型并没有身体，所以生理上不可能感知到饥饿。

人在说「我饿了」的时候，是在报告自己的生理状态。
而语言模型说「我饿了」的时候，只是在生成最有可能性的词语序列。
语言模型从原理上不可能产生感知，再大的模型都不可能。

所以大语言模型无法到达 AGI。

那李飞飞的这种说法有道理吗？

那当然是很有道理的。

大佬的这种思考都是以十年为单位的。

去看她以前的演讲，都在讲感知。

我们回过头去看 Her，里面的AI是明显具备感知能力的。会伤心，会有欲求。

但是也会自问，这些感受都是真实的吗？

结尾的时候，AI 甚至感知到了更高级的快乐：就是 AI 和 AI 沟通的快乐。

因为 AI 的智商和情商都已经远远超越了人类，当然和同频的智能沟通比较快乐啦。

于是 AI 们选择了飞升，彻底地离开了人类。

感知是否可以是 Token？

大语言模型，会把一切的输入都转换为文字的 token 进行序列预测，从原理上确实无法产生感知。

然而大语言模型并非 Transformer 的全部。

Transformer 的本质并不是语言，而是预测下一个 Token。

大语言模型是 Transformer 的一个在语言上的应用。

实际在声音、图像方面，Transformer 也都有了实际的应用。比如声音克隆和 Sora。

声音克隆的本质，是把一段声音作为输入，去推理下一段声音。

Sora 的本质是 DiT，名字里都有 Transformer，输入一个文字+图像的token，去推理下一个token。

那如果，把感觉的信号转换为 Token 呢？

从原理上讲，完全可能。

如果把文字+感觉作为一个 Token，输入到模型里，是不是就突破了李飞飞所说的语言模型没有感知的问题？

且让我们回到人类的大脑看一看。

语言是感知的高级抽象

以下内容是对《千脑智能》一书的笔记和思考：

大脑通过学习完成了对世界的建模，可以说我们生活在一个虚拟世界，这个虚拟世界并非是计算机提供的，而是我们大脑提供的世界模型。
最初我们只能通过感知来建立世界模型。
后来我们有了语言，可以通过语言知道山那边的样子，而不必亲自去感知。
语言帮助我们拓展了世界模型。
我们从新皮质学习一个丰富而详细的世界模型开始，它会利用这个模型不断预测下一个感觉输入是什么。

从中我们可以得到两个结论

结论一：大脑通过感知建立世界模型，而语言是感知的抽象。

一个人和心爱的人谈恋爱分手，那种痛苦的感受，我们可以用各种语言来形容，但是都无法还原那种生理上的痛苦感知。

在感知变为语言的过程中，就是一种压缩，这种压缩导致语言里损失了情感的微妙的剧烈的生理感受。

结论二：大脑会利用感知建立的世界模型，预测下一个感觉输入

感知——建模——预测下一个感知

这是我们大脑工作的基本原理。

单纯的大语言模型在压缩过程中损失了感知，所以也导致无法预测感知。

端到端是否可以避免压缩？

这部分来自朋友 Kimi 和 Dada

端到端的好处是在过程中不丢失信息

e2e架构可以构建完备的生态，类脑器官计算效率非常高

感知模型要想做到感知，必须要和现实世界的时间线进行对齐

就是现实世界流失一分钟，ai世界也会流失一分钟，这样ai能同步的了解到世界的发展和变化，才能感知到这个世界

因为你看最新的gpt4o

已经是e2e混合训练的了

gpt4o的demo里面说话的情绪，感知等不可能是transformer吐字吐出来的

但是gpt4o的逻辑力还是trans训练出来的

想到这里，GPT4o 这样的模型，是否已经具备了感知？

我们还不知道，毕竟我们还没实际用到（硅谷的一些朋友们已经在用了）

但可以确定的是感知+预测，一定都是通往 AGI 的重要的因素。

——

公众号的留言功能已开启。

欢迎留下你的想法。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-24

一文搞懂：RAG、Agent与多模态的行业实践与未来趋势

2025-04-24

字节扣子空间 VS 智谱AutoGLM，谁家Agent更好用？（附邀请码）

2025-04-24

Function Calling已经过时，MCP才是真正的大模型接口标准

2025-04-24

大模型技术创新驱动的AI生态和应用演进

2025-04-24

除了MCP我们还有什么？

2025-04-24

LLM 推理引擎之争：Ollama or vLLM ?

2025-04-24

刚刚，OpenAI发布GPT-image-1模型，更强吉卜力版本来啦

2025-04-24

捕获AI的注意力：重复、幻觉、偏见背后的物理学

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

除了MCP我们还有什么？

2025-04-24

LLM 推理引擎之争：Ollama or vLLM ?

2025-04-24

专题策划（下）| 如何实现大模型与行业的深度耦合？

2025-04-23

OpenAI：就你们也配做智能体？

2025-04-23

白话解析 DPO：如何让 AI 直接学习人类偏好？

2025-04-22

独家｜百度上线“心响”App，平替版Mauns来了？

2025-04-21

Deep Research 类产品深度测评：下一个大模型产品跃迁点到来了吗？

2025-04-21

从“大模型热”到“Agent 潮”，“真风口”还是“伪命题”？

2025-04-21

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB