我要投稿

林凡对话面壁智能李大海：Open AIo1内化了Agent能力，中美差距仍有1到2年｜AI光年

发布日期：2024-09-30 07:18:29 浏览次数： 1741 来源：深网腾讯新闻

观点提炼：

1. 苹果iPhone16，8G内存能放的模型大小有限，会制约Apple Intelligence的表现。更适配苹果端侧大模型的硬件或将是iPhone 18。

2.端侧大模型优势：隐私保护，数据存在终端设备；可离线，出国没网也能实时翻译；低延时，自动驾驶执行即时指令。

3. 大模型时代的智能翻译进化：以前英语翻译到俄语需要一个模型，俄语翻译到汉语又需要一个模型，排列组合之下需要非常多小模型。大语言模型可以用一个模型解决所有的问题，俚语翻译也不是问题。

4.未来的硬件会像现在的大模型软件一样，分成两种类型：一种是Copilot，比如手机、智能眼镜等；另一种叫agent，比如小机器人等，未来我们的生活里会有很多的Agent类型的硬件。

5. 现在的手机界面，很多都是通过安卓开发工程师写出来的APP固定的软件界面，未来大模型有机会接管这个输出界面。未来的千人千面，可能每个人看到的终端界面都不同。

6.云端模型，中美差距还在1到2年，主要体现在如今国内的所有云端大模型，还没有谁显著的达到或者超过GPT-4。

7.GPT-o1其实是把Agent的能力内化了，过去一年国内很多公司在Agent上做了不少工作，追赶GPT-o1没那么难，难的是追赶GPT-4、GPT-4o、GPT-5。

8. 人类大脑能耗只有15瓦到25瓦，人类大脑的稀疏化特性对节省能耗非常有帮助，大模型也存在稀疏化特性，可以不断训练增加知识密度。

9.芯片制程的尽头是量子力学，大模型的知识密度的尽头是信息论，两者都有极限。

10. 选择开源还是选择闭源，是每个公司的商业判断，这没有对错，它是一种商业模式。

11. 未来人更重要的是想法，是构思，是打动别人的能力。人完全可以通过AI去放大自己的想法，也就是杠杆效应。

12.AI可能会让很多白领的工作开始慢慢地平台化。未来公司形态要么只有一个人，要么会出现越来越大的平台整合所有劳动力资源。

13. 信息茧房一方面是人的个人选择，另一方面也是商业顺应人的选择，利用人性下坠的力量去实现商业目的。

9月24日晚，腾讯新闻小满工作室联合职场社区和社交平台脉脉共同打造的首档AI访谈直播节目《Fan谈大模型》首期播出，国内最早从事大语言模型的团队之一、头部大模型初创公司面壁智能CEO李大海，与节目主理人、脉脉创始人兼CEO林凡以及腾讯新闻《深网》作者程潇熠一起深度探讨AI 手机背后的端侧大模型进展、未来交互变革可能性、被AI接管的未来，普通人该如何快速适应等重要话题。

以下为直播实录精简版：

真正的第一台AI iPhone
或许会是iPhone18

林凡：大家看到iPhone 16发布后其实有个疑问，AI手机和之前的这个智能手机，到底这两个概念有什么差异？我们大家都知道引入了端侧的能力，但从用户的视角，到底他能感受到什么变化？

李大海：第一版的苹果的这个所谓的AI手机还只是这个功能的一个初步呈现，远远还没有达到一个理想的状态。

新一代的AI手机会跟新一代的智能汽车一样，都会变成所谓的超级智能体。什么叫超级智能体呢？就是它会基于一个端侧模型，把用户所有的上下文都串在一起去更加懂用户。这个其实是也是苹果在WWDC和它的Apple Intelligence里面最想传达出来的功能。

我们知道在移动互联网时代，最大的一个范式是每一个APP它能够去给用户进行一个完整的用户画像的描述。比如美团会对每一个用户在美团上喜欢什么吃什么，进行清晰的用户画像描述。未来有了AI手机后，我们可以通过端侧模型把这些画像存在手机上，不用传到任何一个其他第三方的存储系统里，这是端侧模型带来的非常大的变化。

林凡：我看网上也有很多人讨论说， iphone 16只有8G的内存，真的要跑好一个大模型，很可能要12G的内存。那么今天来看端侧大模型，在什么样的硬件的情况下，要多长时间大概能初步达到我们刚才说的这样的应用场景。

李大海：苹果新的iphone 16，它的内存大小是8G的话，确实能够放的模型的大小有限，这个会在一定程度上制约apple intelligence的表现。

我个人对于硬件发展是否能够支撑住端侧模型的应用这件事情是比较乐观的。端侧的芯片通常由三个部分组成：CPU，NPU和GPU。其中NPU，过去几年基本上是一个停滞发展的状态，因为过去几年没有发展出好的应用，还用不上。

现在大模型出来以后，芯片厂商都非常兴奋，发现说NPU有机会更快速地去发展。所以我看到的是很多芯片厂商都列了非常好的计划，未来两年应该能够出现很多NPU上算力很大，能够去支撑好更大的端侧模型的芯片，这是第一点。

第二点，终端上的情况比芯片要更复杂。终端上，我们要考虑的限制条件不只是算力的总量，还有能耗，还有内存的带宽，还有内存的大小等等。这些因素组合在一起，它决定了一个设备能够支撑一个什么样的模型。

AI产品榜在七月份用我们的面壁小钢炮的1.2B跟2.4B的模型，在现在市场上的主流机型上进行了评测。然后发现像苹果手机，它在我们的1.2B的模型上跑的得分就很高，但2.4B得分比较低，得分指它的性能。

因为2.4B的模型需要占的内存更大，但是苹果手机相对于安卓手机来说，内存的配置都会更小。所以当我们的模型的内存要求高了以后，手机的内存大小会变成一个显著的瓶颈，影响到模型的发挥。

林凡：对，在我跟手机行业内人士的交流中，他们也说苹果的硬件大概会提前三年去做设计和规划。他们整个团队是去年才把要跑一个3B的大模型，大概需要的硬件和支持需求报给了硬件团队。硬件团队的答复就是那就等iPhone 18，再过两年后，它的硬件才能支撑这个事情。

端侧模型优势：隐私保护、可离线、低延时

林凡：大模型为什么要有一个端侧大模型？不能用云端大模型解决所有的问题吗？

李大海：自动驾驶里端侧模型一定是很重要的。因为汽车开在120公里每小时的时候，我们很难容忍它有3秒、5秒的指令空白，这种非常即时性的指令一定要从端侧出。

我们现在提到端侧模型，它是整个终端的模型解决方案的一部分，很多时候需要端侧模型和云端模型一起协同，就是端侧模型跟云端模型他们其实擅长的工作不一样，所以合在一起更够更好解决问题。

具体展开来说，端侧模型因为它能够接触到用户所有的隐私数据，所以懂用户的这部分工作可以由端侧模型来执行。云端模型因为它全知全能，或者说我们其实是把云端模型按照全知全能的方向在发展，所以它其实它更懂世界，可以把它认为是一个world model。那和世界相关的部分就可以交给云端模型来执行。

简单地讲，当用户有一个需求的时候，我们可以由端侧来把个人部分进行脱敏，再把世界相关交给云端来做，返回响应云端加工后，端侧再将符合用户个性化的部分给到用户，整个体验最完整。

另外，用户隐私安全这绝对是一个真实的需求，端侧模型是能够解决这些需求。

比如智能音箱的场景，我自己有个顾虑，如果它的数据是传到某一个云端去处理的，我会担心我家里面说的各种各样的话都被它听了去。但如果数据全留在终端，我知道它只在我家里的设备上，那我就会很放心。

现在还只是语音，大家可以想象如果未来我们在家里房间的各个角落，都放一些摄像头，我也会担心我在家里可能洗完澡后穿的很清凉出来到处逛的信号传到云端。

还有一个差异是可靠性。可靠性这个差异在中国不是很明显。反过来说，海外的网络远远不如中国，感谢我们国家的政府基础设施建设，中国的网络是全球覆盖度最高的，我们在任何一个地方网络基本是可用的。但是在海外，很多时候网络是极其不可用的。

在那种情况下，一个终端你随时可用的比起云端的来说会更安心，更可靠。一个可靠性，一个隐私保护，对于用户来说是端侧最重要的两个优势。

林凡：我前段时间去埃及，埃及那边说的是阿拉伯语。我语言不通就下了个谷歌的翻译去那边用，结果到了发现需要联网，有一次我在跟司机沟通的时候发现那个地方没有网络，只能比手画脚。

李大海：我们正在合作打造一个离线翻译机，这个离线翻译机里面会放我们的离线大语言模型，至少可以支持30种以上的海外不同语言的互相翻译。这样就不用担心有没有网的问题了，只需要担心有没有电。

AI光年：当地俚语也能翻译出来吗？

林凡：从我的理解来讲，大模型解决像俚语这样的问题，根本不是有挑战的事情。

李大海：对，以前的技术，三十种语言要做互相的翻译，比如说英语翻译到俄语需要一个模型，俄语翻译到汉语又需要一个模型。这样一个排列组合，就需要非常多的小模型。但是用了大语言模型以后，就可以用一个模型去解决所有的问题，这个是一个技术上很重要的跨越。

未来AI或直接接管手机界面

林凡：端侧大模型它在交互上面可能会改变很多人对于手机，甚至对于汽车的一些使用的习惯。

好几年前有一个场景让我印象很深刻，我们家闺女打开电脑，对着电脑说：siri给我讲个笑话吧。那个场景对我产生了非常大的冲击。

我自己从互联网时代开始用电脑，非常习惯文字键盘的输入，鼠标的输入，然后到了移动时代，学会了用手机触点的方式，但是我们很少用语音跟一个设备进行交互。我闺女那个交互的行为是非常自然的，她经常也会说siri我要定一个八点的闹钟。

那次之后我一直在思考，为什么我们还不习惯用语音去跟设备去做交互。其实原因很简单，今天设备的理解能力，在没有端侧大模型的时候还是比较弱的。很多时候你发的语音，它要不就是瞎响应，要么就是你没叫它的时候突然冒出来了。但有了端测的能力以后，语音交互的准确性会有一个巨大的提升。

第二个，我们跟美团交互的过程和我们日常的跟人的交互的习惯还是挺不一样的。

比如，平时我可能会问，你喜欢吃什么？想吃什么？但你打开美团是有好多店自己要去挑。会不会以后手机突然说：中午了，你想吃什么？他不会把一堆可能的选项给你去挑，而是说：你最近好久没吃火锅了，我觉得你挺喜欢吃火锅的，今天哪里有个火锅店打折你有没有兴趣？这样的交互过程。

李大海：超作为超级智能体，它应该还能够更进一步。

比如像刚才你提到那个场景，智能体他可能会提前感知，林凡平时喜欢在11点半左右考虑吃饭的问题。但是今天因为忙没有考虑，那么到11点半他就会开始提醒你：林凡你平时在这个点儿已经要开始点外卖了，或者说已经开始考虑要邀请朋友去外面吃饭了，你要不要我帮你提前把位置定一下，或者帮你把外卖给定了，他可以去做更加主动的关怀。这是未来汽车、手机可能可以做的事。

实际肯定要回到用户画像上，如果用户不喜欢被打扰，这个手机不应该自己出来添乱，它应该像你的朋友一样非常了解你，针对你的喜好脾性来去针对性的交互。

AI光年：这是不是可以解放决策精力？很多人有选择困难症，有智能体或许不用在穿哪件衣服这种琐碎的事上浪费决策精力。

李大海：是的，一个是节省大家的决策成本，另外一个是可以放大大家的执行效果。

比如编程，当我有一个好想法的时候，我自己还要把它变成代码，这个过程其实是很耗精力的，如果我们用AI来去做了以后，一方面能够放大大家想法的杠杆效应，另一方面也能抹平不同的人在执行上因为能力差异带来的鸿沟。

林凡：端侧大模型还有没有别的一些典型的应用的场景和可能性？

李大海：还挺多的，比如汽车，具身智能，智能家居，智能制造。首先端侧模型其实是今年刚刚开始兴起的一个新的一个技术趋是面壁在这里面出发的最早，走的最远的，但是它仍然处于早期阶段。很多场景，都还在打磨落地的过程中。

除此之外，还有一些新的强输入的设备，这是端侧很好的场景（与之相对的手机是强输出的设备），像智能眼镜还有耳机类似这样的设备，它可以24小时开机，把使用者的所有数据都记录下来，就像当年在皇宫里专门记录皇帝一言一行起居录的小太监。

这个设备不仅会记录对话，虚拟环境里的上下文，还能把真实世界的上下文也记录下来，那么这个设备就会具备非常大懂用户的价值。

林凡：我们日常生活中还会有手势以及各种各样的表情，这些会不会成为新的跟设备交互的可能？

李大海：一定会的。我们现在在做的多模态模型，就是要往处理这些交互方式发展。

我认为未来的硬件会像现在的大模型软件一样，分成两种类型：一种类型我们就是我们说的copilot，一种类型叫agent。手机、眼镜一定是一个copilot，但是未来我们生活里会有很多的agent类型的硬件。

比如说一个智能摄像头配上了轮子以后，它就变成一个小机器人。它可以移动，它可以观察你家里的情况，再根据观察去执行一些行动。当agent类的这种设备越来越多的时候，它完全可以通过对于图像信号的环境感知，通过对于图像信号的环境感知，来接收用户的更多种多样的传递的信息，比如身体姿态，比如用表情传递出来的情绪。

我们正在合作做一个电子宠物猫，它的触感就像真猫一样，用户可以摸着它的背和它的脖子去感受。然后我们的大模型放在里面不是让它学会说话，而是让它更懂用户传达的情绪，它可以用对应的情绪的叫声和姿态来回应用户，让用户觉得这个猫好懂我，这就是一个全新的场景陪伴。

AI光年：copilot和agent的区别是什么？

李大海：Copilot就是助手，它已经做到了70%，工程师只要做一些修改和检查就可以用了。Agent基本上可以理解为机器人，我们叫它智能体。这个智能体它是能够跟环境去做更自主的互动，能够做出更自主的决策。

我还有一个补充，刚才提到的交互，主要还是怎么接收和收入的，还有一个是输出。比如现在的手机界面，都是通过安卓开发工程师写出来的APP固定的软件界面，未来大模型有机会接管这个输出界面。

当它（大模型）需要用某种方式去表达它的观点和输出它的信息的时候，它完全可以用类似于现在的图像生成的方式，直接就把相关的信息生成出来。这也是一个未来可能会产生的可以期待的方向。

林凡：我们现在所谓的千人千面，还是说你看到的内容是不一样的。而未来的千人千面，你看到的界面都是不一样的。

中美差距：
云端差距明显，端侧同时起步

林凡：大模型刚出来的时候，我们说中国落后美国两年的时间，稍微有一些追赶后可能只差一年了。这个差距主要是指云端大模型，因为云端大模型受到美国对硬件的限制，中国在算力是有极大差距的。

那么在端侧大模型，中国的设备硬件还是不错的，而像苹果的硬件和模型之间的差距还要一两年的时间，那不知道在端侧大模型上面中美的差距如何？我自己对面壁印象最深刻的就是，斯坦福一个团队抄袭你们的模型。

李大海：云端模型的话，中美的差距我觉得还是1到2年的。到底是一年还是两年，可能不同的人的观点不太一样，这个量化本身也没有太大的意义，都是大家的感受而已。不纠结它多大，但差距依然很明显的存在。

主要体现在我们现在国内的所有云端大模型，还没有谁显著的达到或者超过GPT-4。

随着这个o1出现，我们肯定还有更多的追赶的工作。但是o1这件事情我比较乐观的点是，我们过去一年，国内有很多公司，包括面壁在内，在agent上做了蛮多的工作。因为我自己的看法就是o1其实它是把agent的能力内化了。所以我觉得这个追赶起来应该没有那么的难。

但是更大的模型做到GPT-4、GPT-4o，甚至未来马上要出的GPT-5，这方面的追赶还要花一些时间。

端侧模型上因为面壁出发的比较早，我们跟微软的Phi系列起步、发展的速度差不多。所以我们在这块上其实跟美国的差距并不大。

林凡：具体在技术上会有哪些差距呢？我们有哪些优势？

李大海：我以稀疏化这个方向举例。我们云端往往用的是MoE的方式，就是混合专家模型，这在云端很好用，因为MoE内存相对便宜，可以用内存换计算的密度。但端侧用MoE就不是一个很好的选择，我们刚刚讲了，算力的大小、内存的大小，还有内存的带宽都可能会是瓶颈，我们看到更好的方式是逐渐在模型里进行稀疏化。

我们在今年7月份的时候，在行业里面首创发布了稀疏化的端侧模型，这种技术原创性的工作，我们跟美国的起步是同时的时候，我们不会落后，也能做出领先的技术点。

大模型的演进速度非常的快。任何一个公司都很难说自己的工作永远是或者说长时间保持Sota，state of the art，可以简单理解为行业最好水平。

很多时候一个工作做出来能够Sota一个月就很好了。更重要的是一个团队具备这样的素质，能够在一个领域里面做出Sota的原创工作，以及能够跟进其他人的Sota工作。

林凡：MOE给大家简单解释一下，就是相当于说在一个模型里面，有很多个专家同时在对一个事情做判断，然后把它们合并在一起，寻找到一个最优的解返回给用户。但是稀疏化在原理上面是怎么解决刚才说的这个问题的呢？

李大海：首先我们理解一个现象，人的大脑是稀疏化的。

我们现在在这里讨论大模型话题，都是集中精力的。但是就算我们集中精力，我们的大脑可能也只有5%的神经元是激活的。这是大脑的稀疏化特性，对于节省能耗非常有帮助。人的大脑只有15瓦到25瓦，其实主要就是由这个稀疏性带来的。

我们发现在大模型里也存在稀疏性。所以可以通过一些模型训练的方法，让稀疏性能够表现的更加彻底。

为什么在端侧一定是要稀疏化而不是MOE。因为Scaling Law是，网络的规模越大，它的能力越强。当我们MOE混合专家的时候，每个专家的规模决定了这个模型的能力。如果我们在端侧整体大小较小的情况下，还把它拆成很多个专家，那专家规模会变得更小，会对整体智能水平有影响，所以稀疏化的方式就会更好。

林凡：简单来说，就是云端它有很强的算力，有很强的硬件，所以它就可以搞出好多个大脑来一起来去思考这个问题，然后达到一个结果。在端侧要解决这个问题，但能力有限，所以尽量只让其中的一部分活跃的去想这个，剩下的就安心的干活。

李大海：相当于他的知识密度能够更高，因为我参与推理的参数量变小了，所以我的功耗是更小的。

大模型的知识密度是指什么呢？就是一个大模型能够达到的智能水平，用多大的推理参数规模来达到这个智能水平。

比如说在20年6月的时候，OpenAI发布了他们的GPT3.0的API，当时是1750亿的参数，他每一次推理都要去对这1750亿参数进行计算。但是在今年2月1号，面壁智能发布的 MiniCPM1.0，面壁小钢炮1.0，24亿的参数的模型已经达到了同等的智能水平。所以我们的知识密度变得更高，差不多是GPT3.0的100倍。

其实我们人的大脑现在知识密度是最高的。人的大脑可以达到120到140的智商，但是功耗只有15到20瓦，远比现在的所有的大模型都要聪明。

AI光年：大模型知识密度可以类比芯片制程，但芯片有物理载体很好理解制程缩小的过程，大模型的知识密度是怎么增加的？

李大海：芯片制程的尽头是量子力学，大模型的知识密度的尽头是信息论，两者都有极限。

我们根据过去对行业的观察，提出了面壁定理，大模型每8个月它的知识密度会提升一倍。相比摩尔定律每18个月芯片的计算密度提升一倍更快。

AI光年：大模型发展会带来能源问题吗？

李大海：如果接下来所有行业里面所有的模型都按照高知识密度去优化自己的模型，长期来看能源不会是一个问题。

但比如说以OpenAI为首去追“星际之门”这样非常巨大的一个集群，去训非常巨大的模型，这种方式对于能源，从局部上是会产生很大的挑战。而且这样模型训练出来以后，实际去做推理，服务用户也会产生能源上的挑战，我觉得这个经济账是算不过来的。

长期来看，我们还是要追求两条腿走路。一方面要不断的提升我们模型的知识密度；另一方面在模型各种能力上的延伸，要去做更多的、外向的、突破性的探索。这两件事情都是要做的。但是纯粹去追求模型的大，这个我觉得不是一个合理的方向。

林凡：能源问题其实非常依赖于说Scaling Law到底是一个线性的，还是一个超线性的，还是走平的状态。

从目前来看，我觉得能源问题应该不是一个大的问题。但是如果有哪一天技术又发生一些跳变的话，那也有可能会是一个问题。

李大海：Scaling Law我们现在看起来应该不是线性的，甚至是一个类似log函数这样的变化。那我们现在要做的事情就是不断的提升知识密度，让知识密度提升速度，要快于我们对Scaling Law的规模的追求。这样的话就可以把对规模追求，压在一个合理的区间里。

开源与闭源没有对错，
是商业模式选择

AI光年：为什么大部分端侧模型都选择开源？

李大海：这是当前的现状，不代表未来大家不会把模型闭源掉。

选择开源还是选择闭源，是每个公司的商业判断，这没有对错，它是一种商业模式。开源它能够以更低的成本去接触到更多的潜在的客户，能够让更多客户更方便地使用自己的产品。

所以在to b这个领域里面，你通过开源的方式能够更好地接触客户，更低成本接触客户。同时客户也能够更低成本的去验证你的产品的真实的含金量。

如果一个产品它是完全做to c的，他不需要去在模型质量上去取悦客户的话，他完全可以用闭源。OpenAI一开始做ChatGPT是一个C端的产品，那它的模型不开源也没有关系。

林凡：在美国我们会看到大量的公司没有采用OpenAI的API，而是用Llama 3（Meta大模型）的API，原因很简单。今天大量的美国大公司，它的很多数据已经在云上了，它要用OpenAI的API会面临一个问题，它需要把数据从它原先用的云上迁移到微软云上。所以它会说OK Llama 3也有不错的效果了，在我的云上能用Llama 3开源的服务，所以选择Llama 3。

未来人类更重要的是构思，
白领工作或逐渐平台化

林凡：我们今天能看到很多技术进展，但大多数人更关注大模型对社会、对自己会产生什么样的影响。

李大海：世界会因为新的技术带来更多岗位。我们回顾过去20年互联网发展，也能看到像流量规划师、插画设计师这种我过去上学的时候从来没有想象过的职业。随着AI的发展，一定会有一些职业因为技术升级被淘汰，但同时也会产生更多职业。

同时我们看到，未来人更重要的是想法，是构思，是打动别人的能力。人完全可以通过AI去放大自己的想法，也就是杠杆效应。

面壁在去年做过一个实验性的产品叫ChatDev ，是用若干个智能体去组成一个软件开发公司，有CEO、CTO、CPO。你给它说给我开发一个贪吃蛇游戏，它就会让CEO决定方向，CPO做产品设计，CTO做技术选型，然后还有软件工程师、测试等等。所有工作做完，它会把游戏打成一个包给你。

未来一定会产生很多这样的虚拟智能体，能够帮个人去做非常多的事情。未来可能会出现大量的公司，就是一个人开的。他只有一个想法，有很多虚拟的智能体去帮他完成他的想法。

这样的话整个世界的经济结构会发生巨大的变化，但你说人的工作是不是都消失了？其实不是，更多人需要去做构思的事了。我在去年年底的时候跟《失控》那本书的作者KK有过一次访谈，他有句话我特别的认可，他说AI不会替代人，真正替代人的是比你更会使用AI的人。AI未来会是一个更有效率的工具。谁能够掌握好这个工具，谁就能够放大自己的工作效率。

林凡：如果我们具体一点来看的话，出国旅游的翻译会不会被取代？酒店里的服务员会不会受到冲击？包括大量用自动驾驶后，司机会不会受到影响？虽然说从一个很长的历史周期来讲，这些岗位这些人都肯定会有新的可能性和新的机会。但你不可避免的是当下可能我就失业了，这个问题你怎么看？

李大海：首先这个过程它不会是一个1到2年就完全释放的一个过程。

这个过程中一定会有一些特别具体的行业和职业受到的冲击大一些。你看我们现在整个行业里面，像外卖、滴滴司机，还有内容平台的创作者，越来越多的领域里面，都凸显出了灵活职业的这种特点。这种灵活的这种职业是在发生和涌现的。

这种交替的过程中，确实会存在有一些岗位就会缩减。但我想真的遇到这样问题的朋友，还是要积极的去拥抱新的变化，能够学会使用AI一定是有更多新的机会。

林凡：我有一些观察，今天大家有的时候不好找工作，就会说去开滴滴或者是去送外卖。也就是过去互联网把一部分蓝领的工作平台化了，给大家提供了兜底选项，就是我再差也可以去干这个事情。

AI可能会让很多白领的工作开始慢慢地平台化。

虽然AI让“一个公司”成为可能，但前提是这个“一人公司”要通过AI平台公司把任务拆解之后，再交给每一个具体的人来执行。这些具体的人也会在各自的领域做自己擅长的事情。

那更多的人工作越来越“灵活”。这个“灵活”不是代表说真的没工作干了被迫灵活，而是说未来组织的构建的形式会发生巨大的变化，公司可能要么就是一个人的公司，要么就是越来越大的平台来去整合所有这些劳动力的资源。

李大海：对，这个跟我刚刚提到的copilot和agent也有关系。

AI的能力还在发展过程中，对于准确率要求非常高的工作场景，全依赖AI还不太现实，这个时候它是copilot的形式，所以就需要人在里面做一些兜底工作。

萝卜快跑，我们知道它背后是有大概几千个司机做云代驾，一旦智能驾驶系统出了任何问题，马上有人来托管。它就是copilot的一个很好的范例。

我有个朋友在海外，他去为金融机构做了一个很好的业务系统，里面用了非常重的AI。但是客户选择他们的唯一的原因是，他们背后有一个500人的人工团队做托管，一旦有什么问题的时人会接管，所以客户敢用很放心。

林凡：面壁现在会在看什么样的人才？

李大海：我们从去年就一直在提一个词叫AI原生人才。什么叫AI原生的人才呢？我们用搜索原生人才来做一个例子。

现在几乎所有人都是搜索原生的，生下来就有搜索这个产品，所以但凡我遇到什么问题，我都会想着去通过搜索来解决问题。但是AI是个新事物，看大家遇到问题后，是不是善于或者下意识地就想用AI去解决问题。

能够擅长把AI跟自己的能力结合在一起的人，我们把他称为AI原生的人才，这是第一个。

第二个，我们非常认同AI的这种学习方法，机器学习的方式是一种非常好的优化方式。所以我们去搭建组织的时候，也会把自己搭建成为一个学习型的组织，或者说像机器学习型的组织。

更简单的讲，你要更能理解自己真实的情况，不要欺骗自己，要知道自己现在什么地方好，什么地方不好，要知道自己的目标是什么，就相当于能够快速迭代，每次迭代都能知道自己在这个迭代里面有多大进步，离目标还有多远。只有这样的方式，才能够不断地学习进步。

AI光年：我们现在的公司组织还是从工业时代延续下来的科层制，以后这个科层制是否适用于AI时代？会有怎样的迭代？

林凡：未来的公司还是会有科层制，特别是一些平台型的公司、核心的大模型的公司，它还会是科层制的，但一定会涌现出更加平层的管理机制。当所有的任务流开始被AI掌管的时候，有很多具体的工作就可以由人来做，上面就是AI了。

李大海：AI人工智能在这个阶段非常显著的一个影响，是极大地提升人的生产力。生产力的极大的提升一定会影响到生产关系。在不同的领域，不同的场景肯定影响是不同的。

AI光年：AI会导致信息茧房问题加剧吗？

李大海：这个问题可能比较哲学。有个社会科学的研究说，他发现他把正反两个方向的人的观点互相暴露地非常充分，也会导致这两方对自己观点的坚持程度变得更强。他的这个结论是否正确我不知道，我只是看到有这样的观点。

总的来说，现在因为信息过载，每个人选择相信什么，这里面有很多的不确定性。科技在这里面确实会有影响，但是具体的影响是什么，还需要我们花更多的精力去理解。

林凡：从技术角度来讲的话，我倒是觉得说大模型的时代对于信息茧房这个问题会比现在会更好。

为什么会有信息茧房？本质上是因为底层是一个推荐模型，推荐模型它快速收敛到你喜欢看什么，你愿意在什么信息上面去停留多长时间，它就是一个简单的系统去往这个方向去迭代优化的。

但到了大模型，因为它具备了足够多的信息，并且它具备了一定的推理逻辑在这个地方。所以只要我们在这个底层逻辑上，不完全按个人喜欢去输出信息，那么你是有机会把信息茧房绕过去一部分。但肯定还是会有类似的问题。

AI光年：其实从古至今都存在信息茧房，只是互联网发达之后，我们对“茧房”这个概念更清晰了。

李大海：你说的没错。现在每个人每天接受信息量也比过去大非常多，但从大脑构造的角度上来讲，大脑还是倾向于去接受自己熟悉的信息和自己关注的信息。

有篇非常有影响力的论文，叫《Attention Is All You Need》，这篇文章是讲大模型的，但是我觉得这个标题也适合我们现在的讨论点。很多时候人的注意力是分配到自己想要分配的地方去的，所以信息茧房一方面是人的个人选择，另一方面也是商业顺应人的选择，利用人性下坠的力量去实现商业目的。

如果每个人都倾向于去消费自己不熟悉的内容，那商家或者说这些系统，这些应用，这些业务，它也会去顺从这个趋势。但实际上不是，很多时候都是人的选择。

53AI，企业落地应用大模型首选服务商

产品：大模型应用平台+智能体定制开发+落地咨询服务

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

160+中大型企业正在使用53AI

立即咨询预约演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

一文带你了解大模型——智能体（Agent）

2024-05-28

全面对比dify、coze、streamlit、chainlit

2024-04-26

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

50+个AI大模型在不同领域的应用案例

2024-08-04

“大数据+”医疗

2024-04-11

Claude中国官网正式上线！1:1还原官网，非套壳，国内直连

2024-07-18

一文读懂大模型推理必备技术：KV Cache

2024-07-01

大家都在问

如何从头建立一个通用AI智能体应用？

2024-12-22

o3比o1强在哪里？

2024-12-21

OpenAI 铺垫了12天发布的 o3 到底咋样？

2024-12-21

Gemini 2.0重磅来袭！AI实力再进化，你准备好了吗？

2024-12-21

谁能握住AI这把烫手的屠龙刀？

2024-12-16

从大数据到大模型：如何做到“心无桎梏，身无藩篱”？

2024-12-06

为什么 AI 需要一次 Web 2.0 式的革命？

2024-12-03

为什么说大模型无法取代AI Agent ？

2024-12-01

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

1. 苹果iPhone16，8G内存能放的模型大小有限，会制约Apple Intelligence的表现。更适配苹果端侧大模型的硬件或将是iPhone 18。

2.端侧大模型优势：隐私保护，数据存在终端设备；可离线，出国没网也能实时翻译；低延时，自动驾驶执行即时指令。

3. 大模型时代的智能翻译进化：以前英语翻译到俄语需要一个模型，俄语翻译到汉语又需要一个模型，排列组合之下需要非常多小模型。大语言模型可以用一个模型解决所有的问题，俚语翻译也不是问题。

4.未来的硬件会像现在的大模型软件一样，分成两种类型：一种是Copilot，比如手机、智能眼镜等；另一种叫agent，比如小机器人等，未来我们的生活里会有很多的Agent类型的硬件。

5. 现在的手机界面，很多都是通过安卓开发工程师写出来的APP固定的软件界面，未来大模型有机会接管这个输出界面。未来的千人千面，可能每个人看到的终端界面都不同。

6.云端模型，中美差距还在1到2年，主要体现在如今国内的所有云端大模型，还没有谁显著的达到或者超过GPT-4。

7.GPT-o1其实是把Agent的能力内化了，过去一年国内很多公司在Agent上做了不少工作，追赶GPT-o1没那么难，难的是追赶GPT-4、GPT-4o、GPT-5。

8. 人类大脑能耗只有15瓦到25瓦，人类大脑的稀疏化特性对节省能耗非常有帮助，大模型也存在稀疏化特性，可以不断训练增加知识密度。

9.芯片制程的尽头是量子力学，大模型的知识密度的尽头是信息论，两者都有极限。

10. 选择开源还是选择闭源，是每个公司的商业判断，这没有对错，它是一种商业模式。

11. 未来人更重要的是想法，是构思，是打动别人的能力。人完全可以通过AI去放大自己的想法，也就是杠杆效应。

12.AI可能会让很多白领的工作开始慢慢地平台化。未来公司形态要么只有一个人，要么会出现越来越大的平台整合所有劳动力资源。

13. 信息茧房一方面是人的个人选择，另一方面也是商业顺应人的选择，利用人性下坠的力量去实现商业目的。

林凡：大家看到iPhone 16发布后其实有个疑问，AI手机和之前的这个智能手机，到底这两个概念有什么差异？我们大家都知道引入了端侧的能力，但从用户的视角，到底他能感受到什么变化？

李大海：第一版的苹果的这个所谓的AI手机还只是这个功能的一个初步呈现，远远还没有达到一个理想的状态。

林凡：我看网上也有很多人讨论说， iphone 16只有8G的内存，真的要跑好一个大模型，很可能要12G的内存。那么今天来看端侧大模型，在什么样的硬件的情况下，要多长时间大概能初步达到我们刚才说的这样的应用场景。

李大海：苹果新的iphone 16，它的内存大小是8G的话，确实能够放的模型的大小有限，这个会在一定程度上制约apple intelligence的表现。

我个人对于硬件发展是否能够支撑住端侧模型的应用这件事情是比较乐观的。端侧的芯片通常由三个部分组成：CPU，NPU和GPU。其中NPU，过去几年基本上是一个停滞发展的状态，因为过去几年没有发展出好的应用，还用不上。

第二点，终端上的情况比芯片要更复杂。终端上，我们要考虑的限制条件不只是算力的总量，还有能耗，还有内存的带宽，还有内存的大小等等。这些因素组合在一起，它决定了一个设备能够支撑一个什么样的模型。

AI产品榜在七月份用我们的面壁小钢炮的1.2B跟2.4B的模型，在现在市场上的主流机型上进行了评测。然后发现像苹果手机，它在我们的1.2B的模型上跑的得分就很高，但2.4B得分比较低，得分指它的性能。

因为2.4B的模型需要占的内存更大，但是苹果手机相对于安卓手机来说，内存的配置都会更小。所以当我们的模型的内存要求高了以后，手机的内存大小会变成一个显著的瓶颈，影响到模型的发挥。

林凡：大模型为什么要有一个端侧大模型？不能用云端大模型解决所有的问题吗？

李大海：自动驾驶里端侧模型一定是很重要的。因为汽车开在120公里每小时的时候，我们很难容忍它有3秒、5秒的指令空白，这种非常即时性的指令一定要从端侧出。

我们现在提到端侧模型，它是整个终端的模型解决方案的一部分，很多时候需要端侧模型和云端模型一起协同，就是端侧模型跟云端模型他们其实擅长的工作不一样，所以合在一起更够更好解决问题。

简单地讲，当用户有一个需求的时候，我们可以由端侧来把个人部分进行脱敏，再把世界相关交给云端来做，返回响应云端加工后，端侧再将符合用户个性化的部分给到用户，整个体验最完整。

另外，用户隐私安全这绝对是一个真实的需求，端侧模型是能够解决这些需求。

比如智能音箱的场景，我自己有个顾虑，如果它的数据是传到某一个云端去处理的，我会担心我家里面说的各种各样的话都被它听了去。但如果数据全留在终端，我知道它只在我家里的设备上，那我就会很放心。

现在还只是语音，大家可以想象如果未来我们在家里房间的各个角落，都放一些摄像头，我也会担心我在家里可能洗完澡后穿的很清凉出来到处逛的信号传到云端。

在那种情况下，一个终端你随时可用的比起云端的来说会更安心，更可靠。一个可靠性，一个隐私保护，对于用户来说是端侧最重要的两个优势。

林凡：我前段时间去埃及，埃及那边说的是阿拉伯语。我语言不通就下了个谷歌的翻译去那边用，结果到了发现需要联网，有一次我在跟司机沟通的时候发现那个地方没有网络，只能比手画脚。

李大海：我们正在合作打造一个离线翻译机，这个离线翻译机里面会放我们的离线大语言模型，至少可以支持30种以上的海外不同语言的互相翻译。这样就不用担心有没有网的问题了，只需要担心有没有电。

AI光年：当地俚语也能翻译出来吗？

林凡：从我的理解来讲，大模型解决像俚语这样的问题，根本不是有挑战的事情。

林凡：端侧大模型它在交互上面可能会改变很多人对于手机，甚至对于汽车的一些使用的习惯。

好几年前有一个场景让我印象很深刻，我们家闺女打开电脑，对着电脑说：siri给我讲个笑话吧。那个场景对我产生了非常大的冲击。

第二个，我们跟美团交互的过程和我们日常的跟人的交互的习惯还是挺不一样的。

李大海：超作为超级智能体，它应该还能够更进一步。

实际肯定要回到用户画像上，如果用户不喜欢被打扰，这个手机不应该自己出来添乱，它应该像你的朋友一样非常了解你，针对你的喜好脾性来去针对性的交互。

AI光年：这是不是可以解放决策精力？很多人有选择困难症，有智能体或许不用在穿哪件衣服这种琐碎的事上浪费决策精力。

李大海：是的，一个是节省大家的决策成本，另外一个是可以放大大家的执行效果。

比如编程，当我有一个好想法的时候，我自己还要把它变成代码，这个过程其实是很耗精力的，如果我们用AI来去做了以后，一方面能够放大大家想法的杠杆效应，另一方面也能抹平不同的人在执行上因为能力差异带来的鸿沟。

林凡：端侧大模型还有没有别的一些典型的应用的场景和可能性？

这个设备不仅会记录对话，虚拟环境里的上下文，还能把真实世界的上下文也记录下来，那么这个设备就会具备非常大懂用户的价值。

林凡：我们日常生活中还会有手势以及各种各样的表情，这些会不会成为新的跟设备交互的可能？

李大海：一定会的。我们现在在做的多模态模型，就是要往处理这些交互方式发展。

我认为未来的硬件会像现在的大模型软件一样，分成两种类型：一种类型我们就是我们说的copilot，一种类型叫agent。手机、眼镜一定是一个copilot，但是未来我们生活里会有很多的agent类型的硬件。

AI光年：copilot和agent的区别是什么？

李大海：Copilot就是助手，它已经做到了70%，工程师只要做一些修改和检查就可以用了。Agent基本上可以理解为机器人，我们叫它智能体。这个智能体它是能够跟环境去做更自主的互动，能够做出更自主的决策。

我还有一个补充，刚才提到的交互，主要还是怎么接收和收入的，还有一个是输出。比如现在的手机界面，都是通过安卓开发工程师写出来的APP固定的软件界面，未来大模型有机会接管这个输出界面。

当它（大模型）需要用某种方式去表达它的观点和输出它的信息的时候，它完全可以用类似于现在的图像生成的方式，直接就把相关的信息生成出来。这也是一个未来可能会产生的可以期待的方向。

林凡：我们现在所谓的千人千面，还是说你看到的内容是不一样的。而未来的千人千面，你看到的界面都是不一样的。

林凡：大模型刚出来的时候，我们说中国落后美国两年的时间，稍微有一些追赶后可能只差一年了。这个差距主要是指云端大模型，因为云端大模型受到美国对硬件的限制，中国在算力是有极大差距的。

那么在端侧大模型，中国的设备硬件还是不错的，而像苹果的硬件和模型之间的差距还要一两年的时间，那不知道在端侧大模型上面中美的差距如何？我自己对面壁印象最深刻的就是，斯坦福一个团队抄袭你们的模型。

李大海：云端模型的话，中美的差距我觉得还是1到2年的。到底是一年还是两年，可能不同的人的观点不太一样，这个量化本身也没有太大的意义，都是大家的感受而已。不纠结它多大，但差距依然很明显的存在。

主要体现在我们现在国内的所有云端大模型，还没有谁显著的达到或者超过GPT-4。

但是更大的模型做到GPT-4、GPT-4o，甚至未来马上要出的GPT-5，这方面的追赶还要花一些时间。

端侧模型上因为面壁出发的比较早，我们跟微软的Phi系列起步、发展的速度差不多。所以我们在这块上其实跟美国的差距并不大。

林凡：具体在技术上会有哪些差距呢？我们有哪些优势？

我们在今年7月份的时候，在行业里面首创发布了稀疏化的端侧模型，这种技术原创性的工作，我们跟美国的起步是同时的时候，我们不会落后，也能做出领先的技术点。

大模型的演进速度非常的快。任何一个公司都很难说自己的工作永远是或者说长时间保持Sota，state of the art，可以简单理解为行业最好水平。

很多时候一个工作做出来能够Sota一个月就很好了。更重要的是一个团队具备这样的素质，能够在一个领域里面做出Sota的原创工作，以及能够跟进其他人的Sota工作。

林凡：MOE给大家简单解释一下，就是相当于说在一个模型里面，有很多个专家同时在对一个事情做判断，然后把它们合并在一起，寻找到一个最优的解返回给用户。但是稀疏化在原理上面是怎么解决刚才说的这个问题的呢？

李大海：首先我们理解一个现象，人的大脑是稀疏化的。

我们发现在大模型里也存在稀疏性。所以可以通过一些模型训练的方法，让稀疏性能够表现的更加彻底。

李大海：相当于他的知识密度能够更高，因为我参与推理的参数量变小了，所以我的功耗是更小的。

大模型的知识密度是指什么呢？就是一个大模型能够达到的智能水平，用多大的推理参数规模来达到这个智能水平。

其实我们人的大脑现在知识密度是最高的。人的大脑可以达到120到140的智商，但是功耗只有15到20瓦，远比现在的所有的大模型都要聪明。

AI光年：大模型知识密度可以类比芯片制程，但芯片有物理载体很好理解制程缩小的过程，大模型的知识密度是怎么增加的？

李大海：芯片制程的尽头是量子力学，大模型的知识密度的尽头是信息论，两者都有极限。

我们根据过去对行业的观察，提出了面壁定理，大模型每8个月它的知识密度会提升一倍。相比摩尔定律每18个月芯片的计算密度提升一倍更快。

AI光年：大模型发展会带来能源问题吗？

李大海：如果接下来所有行业里面所有的模型都按照高知识密度去优化自己的模型，长期来看能源不会是一个问题。

林凡：能源问题其实非常依赖于说Scaling Law到底是一个线性的，还是一个超线性的，还是走平的状态。

从目前来看，我觉得能源问题应该不是一个大的问题。但是如果有哪一天技术又发生一些跳变的话，那也有可能会是一个问题。