AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


2024大模型年度概况: 信息交互、数据、LLM竞赛、Agent以及未来
发布日期:2025-01-04 08:59:33 浏览次数: 1644 来源:Joyce Birkins


第一次写主题这么大的文章,尽量整理些大而具体的信息。 

01回顾互联网到AI信息分发的发展  

02AI的数据问题  

03 AI巨头格局,2025方向 

04 未来AI的理解

在人类进入互联网软件时代后,信息需求和生产力需求主要集中在 搜索、推荐、问答、Coding 和 Agent Task 这五大应用形态中:

搜索、推荐、问答:作为信息分发的核心形态,这三者在移动互联网时代已经逐步发展成熟。它们通过网络化连接人与信息、人与人,极大提升了信息获取和交流的效率。

Coding:过去的编程方式较为生硬,开发者需要自行学习与计算机交互的编程语言,并手动编写和调试代码。这种方式虽然灵活,但对技术能力要求较高,门槛较大。

Task(工作流自动化):早期的工作流自动化以 RPA(机器人流程自动化) 为主,依赖预设规则和流程,缺乏灵活性和智能化,适合重复性强的操作,但对复杂任务支持有限。

随着 AI 技术的发展,这些应用形态正被重新定义:

搜索变得更加智能化和个性化,结合上下文理解和多模态输入。

推荐由简单的规则算法进化为深度学习驱动的精准预测。

问答从单纯的信息匹配升级为具备逻辑推理能力的交互式对话, 交互方式也正在从对话框交互到更具未来的图形化AI交互。

AI Coding: 帮助开发者自动生成代码、优化架构,甚至直接解决技术问题

Task Automation:从规则驱动的 RPA 转变为以大模型为核心的Agent,能够适应非结构化任务,完成从计划到执行的端到端自动化, 并且能够迭代反馈优化

互联网软件形态从“工具化”向“智能化”跃迁,未来将更深入地融入人类的生产与生活。

01

从过去的互联网搜索推荐信息分发的内容生产消费平台, 到理解互动,自动化解决任务。软件工具存在的目的就是提高工作效率, 解决任务

移动互联网增加最大体量的数据是内容,智能手机可以随时的创作、消费内容。AI 时代最大的增量数据是软件。而软件的本质是什么?软件的本质是人类行为的自动化,企业软件是那些最佳的工作流的自动化

最早雅虎Yahoo人工筛选list,以网页为单位给用户提供信息,门户通过人工筛选和编辑推荐,只能覆盖“头部内容”(受众广泛、流量大的内容)。这种模式难以全面覆盖互联网庞杂的长尾内容(需求量较低、不够热门的内容,但整体数量庞大,例如冷门的学术文章、小众爱好、特定地域的信息)。

最早希望 Google 能帮雅虎更好覆盖长尾网页的内容,而长尾的内容是只能通过关键词模式被启动触发的,这就需要对整个互联网做 index。

当时做门户的人当时都觉得 Google 这种关键词搜索是做不大的。门户运营者认为,Google 的搜索引擎依赖用户自己主动输入关键词,而不是像门户网站筛选好优质内容,将用户感兴趣或需要的信息推荐给用户,从而提高用户的使用时长和粘性。

而Google 正是凭借这种精确匹配关键词的方式崛起,将用户的主动搜索行为转化为价值,并逐步取代门户网站成为信息分发的核心模式。 同时在网页排名上用pagerank算法对网页进行排名

而从Amazon开始, 根据用户历史记录,点击的推荐系统也开始发展。 

到2010s年代,随着机器学习的发展,推荐算法逐渐发展。用户的每一次点击、停留时间、兴趣标签等都成为算法的输入,形成高度个性化的推荐结果, 因此催生了以算法推荐起来的社交内容平台, 包括Tiktok ,小红书

下图是过去20多年互联网信息分发主要时间节点: 

Yahoo!(1994年)  

Yahoo! 是互联网内容分发的早期代表,通过人工编辑的方式对网页内容进行筛选和组织,为用户提供优质的内容目录。这种模式在早期互联网内容稀缺的情况下具有显著优势,但随着内容数量爆炸式增长,其局限性也逐渐显现。

Google(1998年)  

Google 通过关键词搜索模式颠覆了传统内容分发方式,使用 PageRank 算法对网页进行索引和排名,为用户提供精准的搜索结果。相比人工筛选的门户模式,Google 的搜索引擎更加高效地覆盖了长尾内容,开启了基于用户主动行为的信息分发新阶段。

Amazon(1998年)  

亚马逊是推荐算法的商业化先锋,其协同过滤(Collaborative Filtering)算法通过分析用户的购买和浏览记录,为用户推荐可能感兴趣的商品。这一技术为电子商务领域带来了革命性影响,使个性化推荐成为用户体验的核心。

Netflix(2000年)  

Netflix 借助基于用户评分和观看历史的推荐系统,为用户提供个性化的影视推荐服务。这种算法显著提升了用户对平台内容的满意度,并奠定了内容平台个性化体验的标准。

YouTube(2005年)  

YouTube 是视频推荐算法的先驱,通过分析用户观看历史、搜索记录和点击行为,为用户推荐相关视频。其推荐系统在短时间内帮助 YouTube 成为全球最大的用户生成视频平台。

Instagram(2010年)  

Instagram 利用图文混合的内容形式和基于用户兴趣的推荐算法,将社交媒体与个性化推荐结合,为用户提供精准的内容推送。这种方式进一步增强了用户的粘性和互动性。

TikTok(2016年)  

TikTok 以深度学习驱动的推荐算法为核心,通过分析用户观看行为,实现了高度个性化的内容分发。其短视频形式和高效的推荐算法共同塑造了现代信息分发的新模式,使用户粘性和内容消费达到新的高度。

Perplexity 重新定义了 AI 搜索的交互形态,可以追问、互动,赢得了用户心智。Google 只是静态的导航,AI 这一代产品的互动性非常重要。现在AI下的搜索引擎: 

语义检索,信息理解能力更强,从关键词到token级别的理解

传统搜索引擎依赖关键词和网页索引,只能匹配明确的查询词,而LLM 能够通过语义理解明白用户意图和网页信息, 回答复杂问题并提供多层次的上下文解释。这意味着长尾内容的触达变得更加高效,用户可以通过模糊或开放性的问题获得满意答案。

多模态搜索的支持

LLM 能够处理文本、图片、语音等多种数据形式,将传统搜索扩展到更广泛的应用场景。未来,用户可以通过语音描述或图片上传进行自然的多模态搜索

从信息检索到任务完成,持续追问

LLM之前用户需要从搜索结果或推荐内容中提取有用信息,而现在 LLM 能够直接帮助用户整理思路、澄清问题、完成具体任务(如代码生成、内容创作、数据分析)。这标志着搜索从“信息获取”向“任务完成”转变。

两个不明确的点: 

目前LLM对推荐系统的影响还不明晰,我能想到的只是让推荐系统更智能,而且更偏后端,不像搜索是明显的 To C产品

这个推荐系统则可以嵌入到任何中,可以推荐广告也可以推荐内容, 包括Netflix, Amazon, Tiktok,Google和ChatGPT对话本身, 现在一个对话完毕出现的3个可能要问的相关问题, 也跟推荐相关

跟推荐联系更紧密的还是用户个性化

另一个不明确的是现在的收费方式, 传统搜索引擎,社交平台依赖广告和点击率,而现在ChatGPT和Claude一个依赖To C的用户订阅付费,另一个是开发者API计费, 都还是偏工具型商业模式, 按使用量收费

而广告可以想象的方向是: 

对话式广告:在AI对话中引入非打扰式广告推荐,基于用户的上下文需求精准推荐服务或产品。

任务型广告:在完成任务(如旅行规划、购物推荐)时插入与任务相关的赞助商服务,用户接受度可能较高。 想象一下,你的AI Agent帮用户定制旅行方案,从机票预订到酒店选择,最终从每笔成交中获取佣金。又如在电商领域,AI代理根据用户喜好推荐商品并促成交易。

可是对话类,AI搜索类产品的广告价值大吗? 

Google search query 里面 40-50%都是导航类的 query,一个关键词来了,Google 就直接给你导航到某个网页,例如电商、娱乐、旅游、订票,广告主是通过网页提供服务的,Google 导航过去就能赚到钱,这个商业模式是非常好的。抖音、淘宝的商业模式和 Google 也是一样的,都是搜索、广告系统,这个商业模式效率是很高的,因为有巨大的规模效应。

但 Chatbot 目前的 queries 中,导航类的 queries 是非常少的,大部分都是问答类的 query。对应传统搜索引擎中,只有 4-5%的是知识问答,Google 过去也一直能没能把这 4-5%的知识问答 query 商业化。目前为止, ChatGPT 还是没有本质上影响 Google 的基本盘。因为广告主还是不会来 ChatGPT 投广告获取流量

目前有个叫Otterly ai的平台, 出现原因是因为Perplexity这样的AI搜索引擎产品,能提供语义总结, 让用户不需点击网页里就知道主要内容讲了什么, 导致网页跳转点击率, 这些网站广告收益降低。  Otterly ai帮忙检测网页流量哪去了。 现在谷歌也出自己的AI搜索了, 用户都不怎么点击到原先各种各样的网页中去了

02

偏好投票数据和能力逻辑数据,用户context数据, 合成数据,脑机接口的数据,

好的 AI 公司都花了大量的时间在数据上,比如 OpenAI、Anthropic, 第二层次的公司其实都是没做好数据的。 但如何做好数据,大家是没有共识的

偏好投票数据和能力逻辑数据

偏好投票数据是推荐搜索引擎,知识库和内容平台呈现的数据, 用户选择点击的结果结论数据, 根据众多人的选择获得的。 但有个多样性的弊端, 本来生成答案的可能有 1 万种,但投票投多了就 200 种, 如果 ChatGPT 把用户偏好数据用太多,答案会趋向一致,丧失多样性。

这个多样性为何重要呢? 

因为真正的研究、知识进步不仅仅是从数据中学习,更重要的是创造和验证。科学家在进行研究时,会产生许多想法和假设。这些想法的产生过程与现在大模型的 next-token prediction 模式类似,都是基于过去的经验和观察去生成新的内容。但是仅有这种生成是不够的,即使是最伟大的科学家,产生的 100 个 idea 中,可能有 98 个都是错误的,必须要进一步严格地去验证,发现错误之后,还要想办法如何去修正和改进,这才是科学研究的关键。

能力逻辑数据就是下面"草稿纸"上的数据, 用来提升模型的逻辑,推理,尤其是数理层面

目前这方面的数据非常匮乏。现有的逻辑数据大多是一些习题级别的内容,例如中小学习题、大学本科习题,甚至奥赛习题,但科研层面的数据还非常之少,而且科研层面的数据往往是不完整的。科学家在发表论文时,通常只会呈现最终的发现和结论,而不会详细描述整个思维过程。

越是那些最高水平的科研成果,越是精炼,越没有去写研究人员的思维过程。阿贝尔曾说,高斯就像一只狡猾的狐狸,把自己走过的脚印都抹掉了。实际上,很多科学家都会做类似的事情。他们在研究过程中使用的草稿纸是以千记的,但最终发表的论文可能只有几十页。除非你能把那些草稿纸全部找到,当成训练数据

但o1的技术路线说明提升逻辑的方法很多,不一定需要用户数据, 可以直接设置grader设置规则和逻辑, 更多见 OpenAI Reinforcement Fine-Tuning(RFT)强化微调: 实操步骤、概念解析,而这条技术路线就考验reward,grader的定义, 避免Reward Hacking奖励投机, 保证这些逻辑规则帮助AI实现用户真正想要实现的内容

目前o1也出现一个问题: o1 擅长解难题,它数理的准确度更高,数学和代码都很高,但语言生成的泛化能力有了降低。 整体对特定领域微调, LLM的通用能力是有一定降低的。

但有些领域、场景, 专业化的就能提升效果, 没必要过于追求通用性, 比如AI for Science, 比如为满足用户特定需求定向服务 : 

Yann LeCun指出目前最适合科学发现的AI系统其实是一些专门化的模型(Ai for Science),而非通用型的LLM。例如,在预测蛋白质结构、研究分子相互作用或者探索新材料特性时,专门设计的模型往往能取得更实质性的突破。这些专门化模型虽然不像LLM那样引人注目,却能在特定领域产生真正的创新性发现。

用户关心的需求是重要的,这会让产品体验更好,可以定向优化模型,优化数据

context

这类数据隐私问题很大, 毕竟是严格个性化的数据。 

要做一个个人的 agent、网页,用户很难告诉模型各种 prompt,描述半天也没办法把个人 agent 或者网页做好。但是如果同步用户的个人知识库、个人的软件信息,AI 还可以用搜索引擎去搜网上相关的信息,这样做个人的 agent 或官网是更容易成功的,因为它有更多的数据、context。纯语言 prompt 成功率是很低的

浏览器上的点击数据也很有价值,点击是有用户行为和逻辑的,可以加入context中,涉及到多模态。但 Google 不敢用这个 Chrome 的数据,因为可能有合规问题。操作系统的数据也非常重要,因为有用户怎么操作软件的数据,未来 AI 是可以模仿用户操作软件的。AI 公司的 Artifacts 或 OpenAI 的 Canvas 可能也能有,因为做任务过程中产生的拖拽,可以记录用户思考的过程

用户context数据, 所有行为的记录数据。 但这种用户带来的数据平均质量比模型内在分布的数据质量差。模型预训练的数据质量很高的,但大部分用户是没有模型聪明的,那带来的噪音就会更多。

如何把个人软件的数据过滤、分类、整合,作为 context 自动放到模型里帮助完成任务, 并且LLM能高效学习,处理噪音, 这是context需要考虑的技术问题。 

 data efficiency 如何提高。能力弱的人需要学很多条才能学会,能力强的人,可能两条就学会了,这就是效率的问题。

这个context在01部分提到的个性化推荐系统联系紧密, 可能的联系包括: 

实时性: 推荐系统要求 context 数据实时捕捉用户当前状态,以提供动态更新的建议

交互性与反馈闭环: 用户行为数据不仅是输入,也是反馈,用于持续优化推荐逻辑。

多模态交互: 如果 context 数据整合了浏览器点击、操作系统交互、以及任务工具中的拖拽行为,它们可以形成丰富的用户意图图谱,从而实现更精准的推荐

synthetic data

合成数据分享两个观点,目前我还不清楚验证结果, 数据目前是主要问题,但还在探索阶段。 

有一个观点说是合成数据更适合在特定专业领域使用: 

LLM已经知道通用知识和日常信息了, 它们需要专注于学习那些只出现一两次稀有、专业化和复杂的知识,因为这些知识没有被大规模预训练模型充分学习到。 尤其是对确实缺少真实数据的领域更有意义了,比如推理和数学。合成数据可以通过扩展稀有知识的表达和应用场景,帮助模型理解更深层次的知识。但生成的这个过程有2个问题: 

多样性不足: 由 LLM 本身生成的数据可能缺乏真正的多样性,容易产生数据偏置或模式化内容。

真实性验证: LLM 生成的内容是否能够准确代表真实领域的知识,可能需要额外的验证和评估手段。

另一个合成数据的观点是类比人类生成新知识的能力: 

今天全球 70 亿人,每天都在做任务,这 70 亿人每天产生的新的知识增量信息有多少?还是过去几千年祖先积累的知识更多?如果把 70 亿人持续探索和 inference 一整年的知识和信息加起来,如果比过去老祖先积累的多,本质上就代表人类可以用算力换数据。说明合成数据是成立的,但如果 70 亿人忙碌一年没有产生新知识,没有任何增量信息,不如祖先积累的多,那 o1 可能很快就到天花板了。

合成数据未来方向: 

多模态验证:通过视觉、音频、文本等不同模态的数据共同验证合成数据的真实性和多样性。

动态优化生成过程:通过引入人类反馈或新的知识源,让 LLM 的合成数据生成过程更加贴近真实世界需求。

评估新知识增量:建立评估框架,衡量新生成数据是否为 LLM 提供了有效认知提升。

脑机接口

来自Ray Kurzweil的观点

Neuralink 是迈向未来的第一步,它让我们能够直接从大脑与电子设备通信,可以连接到云端或其他设备。但如果要实现我所说的2045年的目标,甚至是2030年的目标,目前它的速度还不够快。

它对那些无法沟通的人已经有很大帮助,例如无法移动手臂或嘴唇的人。他们可以通过捕捉脑波来控制计算机,效果与我们通过手动操作计算机差不多。我认为这是巨大的进步,但要实现我的愿景,我们需要更快的速度。这样我们的大脑中可以整合一个大语言模型,任何你想到的事情都能立刻在大脑中实现。一切都会变得更快,我相信到2030年我们一定能够实现这一目标

我个人觉得Elon Musk 的xAI 会在这里有所产出, 他现在构建的超大规模算力集群, 对多模态的重视, 是可以跟Musk 2016年创办的Neuralink联系起来, 直接从人的大脑获取数据, 这个能实现, AI会进步一大步, 前面所说的数据问题, 跟这个一比, 是小巫见大巫了。 

多模态的理解跟待会04章节Yann LeCun提到的AI对物理世界的认知理解是紧密联系的, 智能的标识, 不仅仅是文本语言

03

2024 年的 LLM 竞赛是算力、模型和应用三条线并行,上半年,2024上半年LLM 竞赛格局基本确定。OpenAI、Anthropic、Google 属于绝对的第一梯队,Llama、xAI 还在奋力的追赶,xAI 和 Llama 紧随其后,没有额外的竞争对手了。模型格局很难改变了,谁还会今天加入第一梯队?微软、Amazon 都不容易,字节有可能。第一梯队需要抱大腿

OpenAI 最大的壁垒是品牌和用户认知,成为AI的代名词。综合能力客观来说也是最强的。但 coding 能力还是被 Anthropic Claude-3.5-Sonnet 反超了。 搜索是很重要的,因为是一个高频、高粘性的 feature,ChatGPT 自己竟然没有做很好,是非常不应该的,给 Perplexity 留了完整两年的窗口,不然 Perplexity 也不会做这么大。

Anthropic 强在人才,是全球范围内最强的 AI lab,占领了 coding 和Constitutional AI协议,和 Amazon 深度绑定,比较安全。Anthropic 可能是未来的 OS。模型就是新的 OS。OpenAI 要做最大的 killer app,Anthropic 要做一个 OS。OpenAI 可能端到端都会做,killer app 也做,OS 也做,但可能不够专注,没办法做好 OS 本身。Anthropic 另一个好处是管理层非常稳定,管理层都是科学家背景, 但是科学家背景的管理层可能对 C 端产品的 sense 不强,加上 ChatGPT 太强了,还是很难翻盘

Anthropic的Constitutional AI是一种旨在使人工智能系统与人类价值观保持一致的方法,确保AI的行为符合预设的原则,AI根据宪法原则自我评估和调整输出,减少对大量人类反馈的依赖。

Google 是端到端,full-stack 的垂直整合策略,从硬件(TPU、数据中心)到软件(Bard、Cloud AI)再到最终的用户体验,全链条控制。 完整的生态系统,从数据到模型再到应用都有自主掌控能力。

xAI 数据中心建设很快, 重视多模态。 品牌影响力和生态系统相对较弱,需要时间建立开发者社区和用户群体

Apple 手握最强硬件(iPhone、Mac、M系列芯片)和生态系统(iOS、App Store),但在AI战略不清晰,尚未展现其AI能力

Meta 站稳了开源生态 Meta 会充分受益于开源下游的AI 应用端。 尽管代码和模型是免费的,但相关的生态工具、文档、培训资源等也与 Meta 紧密相关; 开源本身不直接获取用户数据,但开发者和企业基于 Meta 模型开发的应用会产生大量反馈。例如,社区论坛、GitHub Issues、用户报告等,都会为 Meta 提供模型改进的关键信息

微软过去两年做产品的能力非常糟糕,微软最早跟上了 OpenAI 的 hype,但自己的产品做得不好,微软作为大公司太慢了, Cursor 和 Devin 这种开发者产品都不应该从微软的手下溜走,但反过来说,微软还是最后的赢家,因为销售网络和企业客户绑定能力太强了。即使今天错过了机会,它不一定需要从 0 到 1 的自主创新开发,但最后通过收购或者抄袭同样可以领先

到了下半年,随着 Sonnet 3.5  经验的 coding 能力、 o1 模型出现,LLM 不再是单一的基建竞赛,LLM 的应用范围在扩大、对现有工作流改造的深度不断增强。

对AI创业公司的3个观点: 

小公司的创业者一定要抢跑、跑得快。一定要形成规模效应或者网络效应,才能赢得竞争并形成壁垒。

端到端、 full-stack 是比较重要的,但创业公司没办法做到那么多。所以,创业公司就需要找到非常锋利的点,做出一根针捅破天的产品

一定要重视边缘市场起来的公司,往往伟大公司都是从边缘市场做起来的。但 Google 也是从雅虎的边缘市场做起来的

2025

2024年 6 月 20 日 Anthropic Claude-3.5-Sonnet 模型发布,这个模型真的让大家进入生产力提升的阶段,带来 coding 编程能力的巨大进步,紧接着,才让后面的 Cursor 和今天的 Devin 火爆。今天他们大部分的用量都来自于 Sonnet, Cursor 和 Devin 都要给 Sonnet 付几百万美金的 token 消耗费用

coding 开始进入了大规模生产力提升的阶段。25 年对 coding 更乐观、确定性更高,代表下一代软件生态的形成。

long horizon agent

Devin 是第一个真正意义上处理长距离复杂任务的 agent,具备了几个重要 agent 雏形的要素。第一,它可以在后台工作,第二,它可以做多步骤长距离的任务,第三,它可以在过程当中根据反馈做出自己的决策,第四,它可以使用工具,比如浏览器、搜索引擎等。大家可以研究一下 Devin,他是一个作为长距离 agent 比较好的样板。

各个领域都会出来背景比较好的 agent 公司,类似 Devin 的架构。一批一批的 Devin 会出来。

 AI for Science 制药科研领域的AI应用。 全球最强的两个 Lab 的 CEO 都很看好,一个是 Anthropic 的 CEO Dario,看另一个是 DeepMind 的 CEO Demis。Demis 个人专注在一个制药的公司,可以从他的 Twitter 签名看到。硅谷这边已经有不少 AI for Science 的苗头了,专注于 AI 材料设计的团队也会更多。

从命令行转化成GUI界面, 现在AI的chatbot界面(广适)转成AI白板互动---新的AI产品交互形态。 如果我有一个白板、Todolist,是不是这个产品图形化的界面会更好?交互效率更高?不只是和 Chatbot 对话,有时候一图胜千言

04

Yann LeCun 未来对物理真实世界感知的智能, 而不仅仅是文本语言的智能:

LLM的认知完全基于文本训练,它们对世界的理解仅仅来自于人类的文字描述。这种二手知识是高度符号化、近似化和简化的,与真实世界的复杂性相去甚远。他用一个引人深思的对比来说明这一点:我们现在拥有能够通过律师资格考试的AI,却没有能够完成普通家务任务的机器人。这种反差揭示了一个深刻的悖论:在某些专业领域表现出色的AI系统,却可能缺乏最基本的常识理解。

我们是否过于沉迷于语言这个人类特有的高级认知功能,而忽视了更基础的智能形式?他指出,语言能力在人类进化史上是相对晚近的发展,从基因组的差异来看,语言相关的基因可能只占很小的比例。这提醒我们,在追求AI发展时,可能需要重新审视什么才是真正的智能基石。

他认为,企业不应盲目追随大语言模型的热潮,而是要着眼于能真正理解和推理物理世界的AI技术。在他看来,未来AI的突破口在于两个关键技术方向:自监督学习和JEPA(联合嵌入预测架构)。他将自监督学习比作"AI的暗物质"——虽然不那么引人注目,却是AI进步的根本动力。这个比喻源自他对人类和动物学习方式的观察:我们大部分知识并不是通过明确的教导获得的,而是通过感知和互动自然习得的。比如,许多动物在没有父母教导的情况下就能掌握复杂的生存技能。自监督学习正是模仿这种自然的学习方式,让AI系统能够从海量未标注的数据中自主学习。

而JEPA则代表了一种更具突破性的技术路径。这个架构的核心目标是构建世界的"心理模型",使AI能够理解和预测物理世界的运作方式。Yann LeCun用木星轨道预测的例子来阐释这一理念:要预测木星未来几个世纪的轨道,实际上只需要六个关键数值——三个位置和三个速度。密度、成分、自转速度等众多参数都不是必需的。这个例子生动地说明了JEPA想要实现的目标:找到现象背后最本质的表达,去除冗余信息,实现真正的理解和预测。

在实际应用中,JEPA展现出独特的优势。不同于传统的监督学习需要大量标注数据,或者当前语言模型仅关注文本层面的关联,JEPA试图理解和预测数据背后的本质关系。这种方法在处理视频、图像等连续性数据时特别有价值,因为它能够捕捉到数据中的不变特征,而不是简单地进行表面模式的匹配。

对决策者而言,这些见解具有重要的战略意义。首先,企业需要重新评估其AI投资方向。与其一味追逐看似显著但实则局限的语言处理能力,不如将目光投向那些虽然需要更长期投入,但可能带来根本性突破的技术方向。其次,企业需要建立起对AI本质的深入理解。正如Yann LeCun所说,真正的AI不在于简单地扩大模型规模,而在于赋予系统理解和推理世界的能力。此外,企业组织还需要注意建立长期的技术积累。自监督学习和JEPA这样的技术路线,虽然现在可能还不如大语言模型那样炙手可热,但它们可能是通向真正人工智能的必经之路。企业如果能在这些方向上及早布局,就可能在未来的AI竞争中占据先机。

还有LeCun对AI安全问题的观点: 

Yann LeCun首先指出了当前AI系统,特别是大语言模型(LLM)在安全机制上的根本性缺陷。虽然这些系统表现出惊人的语言处理能力,但其安全限制往往可以通过巧妙的提示而被绕过。这种情况凸显了现有AI安全设计的不足,也暗示了我们需要从系统的核心架构层面来重新思考AI安全问题。为了解决这个问题,LeCun提出了"目标驱动"架构的概念。这种架构的核心在于构建一个拥有完整世界模型的AI系统,使其能够在"大脑"中模拟行动的后果,并在决策过程中自动整合保护性约束。这些约束不是简单的外部规则,而是系统决策过程中不可分割的组成部分,类似于人类社会中的法律体系。

他指出,如果系统缺乏内置的保护机制,它确实可能会不计代价地追求目标实现。但通过目标驱动架构,系统在追求目标的同时,会将安全约束作为决策过程中的必要考量,从而避免出现极端行为。

更进一步,Yann LeCun强调了系统设计中"保护性目标"的重要性。他提出可以通过硬件层面的设计,比如让GPU的某个电路在系统违背安全约束时烧毁,来模拟"痛苦"的感知,从而在物理层面确保系统的安全行为。这种方法虽然看似激进,但实际上反映了一种深刻的洞察:真正的安全必须建立在系统的根本架构之上,而不是依赖于可能被绕过的表层限制。

在实现路径上,Yann LeCun提出了一个极具启发性的工程类比。他指出,就像我们无法证明涡轮喷气机是绝对安全的,但可以通过持续的工程改进使其变得极其可靠一样,AI的安全性也应该通过不断的工程实践来提升,而不是寄希望于找到一个完美的理论证明。

Epilogue

大产业总是预期走在实际营收前面,有泡沫对产业是好事, 对人才也是好事, 有更多呼吸的空间。 

从支持文档、教程来看, 等了一年半载, 2024年末已经出现很多AI工作流和AI微调的教程,以前刚出来时,就想研究学习,2025上半年可有的素材了。 

不过我还是不清楚2025年的coding,agent能力对现在Dify, Coze, RAGFlow这类工作流搭建平台的影响, 一个更专业更工程层面, 一个更方便用户自定义? 两个的交集在哪? 如果这些搭建平台能把coding,agent能力做好一些, 能做的应用会更专业。 

还有2024研究的很多RAG工程问题, 都会被加到Agent构造工程中, RAG是Agent中的一个主要部件之一,目前研究落地已经成熟很多, 还有工具调用, 反思步骤规划,多模态这些同样重要的研究。 

by: Joyce Birkins


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询