AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


AI应用:飞轮消逝,重新思考数据优势
发布日期:2024-06-11 10:29:50 浏览次数: 1776



前言/目录

部分观点不算新,只是感觉最近雕花越来越多,所以重新回顾和整理了更底层的问题。可以选择感兴趣的部分阅读

01. 数据的矛盾
02. 数据飞轮:互联网 vs GenAI
03. AI产品数据优势
04. 智能的意义
05. C端数据准备期


1. 数据的矛盾

前段时间听而且回顾了几遍Dwarkesh Patel和John Schulman访谈。John Schulman不愧为RL领域的大神,对模型Pre-training和Post-training的见解都很有启发,也促使我重新思考数据和AI应用之间的关系。无论你是工程师,研究人员、产品经理还是投资人,从接触AI/ML的第一天开始,数据的重要性就被反复提及

研发层面解读,数据的作用非常清晰:数据是能源,算法是转换器。如果你是Scaling Law的拥护者,最终能涌现多少智能,取决于:第一,可用数据有多少;第二,算法将可用数据转换成智能的效率有多高。虽然Transformer并不算一个高效算法,但感谢玄学的力量,通过不断堆柴火(数据),智能还是一定程度涌现了出来

放到应用层面解读,数据的作用不像研发阶段一样显而易见。特别将“AI应用”这个定义放宽一点,带入到互联网的AI/ML和生成式AI,会发现数据在“AI应用”中的作用甚至有些矛盾,最简单也是最重要一个问题:为什么互联网的AI/ML有数据飞轮效应,但当下的AI产品没有?


2. 数据飞轮:互联网 vs GenAI


我认为有两个角度可以思考这个问题:第一是构建逻辑;第二是数据规模与质量之争

互联网产品的生产,应用逻辑是第一生产要素,即整个产品的运作方式以及技术架构选择等,而数据只能排到第二或更后。但Generative AI或其他ML-driven的产品(如SaaS的Gong.io和Cresta AI等),数据是第一生产要素,应用逻辑反而排到第二或更后

用短视频的例子来理解应用逻辑:抖音首先需要让用户使用工具(摄像头+模版)创造出丰富多元的内容,才能用推荐算法分发消费。这里应用逻辑非常清晰,内容是体验基础,推荐是体验放大器。因此只要竞争对手能通过某种方式起量,即使推荐算法并没有抖音这么优秀,仍能得到不错的结果

因此可以看到,拥有极高用户量的微信 (视频号,腾讯广告YoY 20%) 和Facebook/Instagram (Reel, 23年收入已达$10B+) 会成为字节在中美最大的对手,而非是独立产品的腾讯微视和Lasso(Facebook 18年发布)

回到数据讨论,为什么短视频可以建立数据飞轮:第一,数据反馈和体验提升/产品表现直接挂钩,即更多的反馈 = 更个性化的视频推荐;第二,因为行为数据足够客观(观看时长、点赞、评论…),数据反馈会更连续而非离散,反馈鲁棒性强

这两点为数据飞轮构建了基础。由于数据反馈和产品体验直接挂钩,单个用户的反馈也能能放大产品体验;由于数据反馈足够客观,可以将其用到所有用户,带来的体验增量以及结果和单个用户相比也不会有太大偏差

在这一条件下,只要能提前建立正确的客观反馈指标,并且能扩大反馈规模,数据飞轮就能成功的滚起来。换一个说法,如果每次数据反馈都是有效且有客观相似性,要做的就是扩大规模

AI没有数据飞轮的原因:第一,体验提升不和数据反馈直接挂钩,LLM是Stateless的,模型参数不随用户使用和偏好而调整,只能离线重做Pretrain或对齐;第二,模型生成效果到达普通用户无法识别差异的拐点后,数据反馈有主观性,只放大规模不提升质量带来的体验增量边际递减。结果就是产品很容易达到60-70分,很难达到90分

以Midjourney为例,普通用户很容易辨别出下图V3、V4、V5哪个好,但到V5和V6可能就各有所爱了。其中主观性的凸显,不是简单?或者?标注能说清楚。等到V7和V8输出图片差异微乎其微时,规模化数据反馈没有任何意义




3. AI产品数据优势

LLMOS/Agent概念的技术进展有限,AI-Native就是模型即产品。如果说互联网产品是基于规模滚出飞轮,那模型产品则需要依靠专家来定义和生产优质数据


定义优质数据就是在定义需求,需求在模型产品里的另一层含义是外部测试集,只有团队足够专业,才能准确地定义测试集,进而才能生产出足够符合下游需求的精确数据,而精确数据则是创造超平均体验的源泉。这套逻辑和模型打榜并没有区别,只是把MMLU和mageNet变成了同理心、听感、审美可控等要素,三个对应要素对应产品案例:

  • PI首先定义了「倾听 → 回复/拓展 → 反问」回复模式,结合数百位心理医生以及教师的数据贡献,成就了陪伴领域的超然体验

  • Suno创始人Schulman和Camacho长期玩乐队,对定义音乐风格、结构、可听性有极深理解,加上基本全员玩音乐的团队(甚至投资人都有玩音乐),创造了听感最好的AI音乐产品

  • Dall-E 3的升级依赖于更精准和全面Image-text caption pair驱动,有趣的是这里专家是Caption模型


与模型打榜不同的是Goodhart’s Law或许不会在此起作用,定义和生产最终转换成用户体验或增长
作者注

Goodhart’s Law是英国统计学家Charles Goodhart提出的一条经验法则,具体表述为:当一个衡量指标被用作控制目标时,它就会失去 (部分) 作为衡量工具的有效性

此外,随着Pretrain模型获取变得更容易以及模型代际升级速度变慢,会有更多计算资源和智力资源参与到AI应用的需求定义和数据生产(以及相应的Post-training过程)。这两项生产要素也会成为应用在模型代际间的优势窗口,如果某个高频应用能在每一代际都形成优势窗口,品牌优势/用户习惯的护城河也许会就此形成


4. 智能的意义


沿着数据驱动的角度思考商业问题,如果普通用户已经无法辨别生成内容的好坏了,那继续提升效果意义是什么?

对Kill-time产品:把AI生成内容从60分提到90分是为了和90分的互联网产品抢现有用户的时长,同时服务被互联网产品忽视的群体。用户时间有限,只会消费分泌多巴胺最多的内容,不是长视频不好看,只是短视频的反馈会更及时。在多巴胺文化里,只有更上头,没有更下头,这一叙事下最成功的产品是NSFW的AI陪伴,补充了下图Relationship-Dopamine Culture部分



对Save-time产品:可以参考五源袁野的AI观察和Chris Paik The End of Software的观点。更智能的意义是帮助Top 1-10%的专家工作,或部分自动化,捕获更的多智能份额。这对社会的经济意义很大,但很不一定有商业意义,因为自动化部分的价值很难计算。如果真能算出来,那离“按价值收费”的个性化定价模式也不远了,对per seat定价的软件也许会是灾难
from 五源资本:

 在AI时代,用户的人均使用时长进一步增长的空间有限,而智能的提升潜力巨大。未来能拥有更多智能份额的公司,更有机会在基础设施持续完善、算力成本持续下降、模型能力持续提升的趋势中持续受益


5. C端数据准备期


本文的分析框架,即「模型产品体验 = 清晰需求定义 x 数据质量」,也解释了为什么B端,或者特别是针对Enterprise(理解成大企业)的应用能先起来:第一,严密组织的需求定义比个人组成群体的需求定义更明确,因为最小需求颗粒度从个人消费者上升到企业;第二,Enterprise在数据质量的积累远高于消费端,且企业内部有大量下游专家,生产额外数据的需求小

PS:SMB与落后地区会和C端更像,对专家定义和生产数据还是有依赖,而且公司确实能因此打造优势窗口。在我最近聊到的创业者中,有不少通过数据优势优化模型做到千万美元营收

从B端的角度看C端,有什么启示 —— 定义需求的结构性问题难以解决,但C端也许可以学习B端积累数据,微软的Recall有一定启发性。包括我在内很多从业者第一时间将Recall与Rewind联系起来。个人体验而言,Rewind十分鸡肋,我当时得出结论:“没有更精确的Decoding,更精确Encoding就没有意义。”后续Rewind转型做Limitless硬件让我坚信这一结论

回头细想,Encode了海量的Semantic Index,还是能筛选出不少高质量数据,只用来做检索这一Decode场景是不是太可惜了?我认为Rewind不是不想,而是创业公司精力有限,也没有生态去定义多样的需求,但是微软的运营能力和开发者生态可以做到。或许现在是一个等待AI硬件普及,等待消费者高质量数据积累的时期,C端应用还有一段路要走


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询