推荐语
AI产品实践中的深度思考与经验分享,25条核心认知助你把握AI产品脉搏。
核心内容:
1. 打破成功路径依赖,从基础理论到实践迭代
2. 寻找Model-Product-Market-Fit,匹配用户需求
3. 管理用户预期,通过收敛场景满足和超越预期
杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
1. 对过去成功路径的过度依赖,可能是未来成功的阻碍。无论一线还是管理层,都要从基础理论开始学习,上手体验和实践,保持迭代2. 找到Model-Product-Market-Fit是核心能力,模型能力(现状&未来)匹配用户需求(存量&增量)3. 用户需求是渐变的光谱,按过去的旧分类,AI只能替代存量解决方案,无法创造增量市场4. 给用户交付的一个结果,而非单纯做体验,通过管理用户预期,收敛场景,最终满足和超出用户预期5. 把AI封装为原子能力,通过工具->模板->内容,带来乘数效应,而非单纯的漏斗转化逻辑
前言
我从22年10月开始使用Midjourney,到23年初参与AI项目,做过亿级用户规模的AI特效,也做过更复杂的营销工具,还超前探索过AI文字、AI音乐、Agent,是我最累最忙的两年,在此期间积累了一些成功经验,更多是失败教训,但总体拿到的手感反馈的确比较多。在影像业务是比较幸运的,有大模型最丰富的落地场景,无论是文本、图片、视频还是音频,无论是单一模态还是多模态组合,并且可以立即拿到用户反馈,建立认知。在大家还不清楚大模型的时候,就开始思考怎么落地;在大家还不知道怎么落地时,已经拿到很多实践反馈;在大家开始实践时,已经往更深更广更远的维度来抽象思考了。
通过白板workshop,我也会跟其他业务的同学交流,把我总结的经验,基于其他业务的背景和诉求,提供一些思路和建议,避免我曾经走过的弯路。我从中收获的是,在更多场景来验证和完善我的思考,拓宽视野宽度,这样后续我做其他业务,避免局限自己的少量实践经验。
不过线下1v1交流的机会还是少的,于是把过去2年的经验总结为文档。字数比较多,因为我会讲一些非共识的内容,具体的信息和细节很重要。没必要试图记住这些原则,而是感受它,看哪些是有共鸣的,哪些是没经历过但后续要刻意关注的。里面也有不一定对,或者只在特定条件下成立,边看边甄别。
如何迭代认知
1. 理解大模型,需要理论和实践。你不上手,就很难真正的理解,也无法做出有价值的判断
需要建立认知框架,才能避免迷失在信息的乱流中,否则每天一睁眼,那么多AI信息,又多又快,让人焦虑。大模型原理掌握Transformer、Diffusion、DiT、RL等,这类课程其实网上非常多了,这里推荐OpenAI创始人之一Andrej Karpathy的Deep Dive into LLMs like ChatGPT(目前最好的LLM入门),还有张涛老师的Stable Diffusion 原理,Deepseek R1技术解读,建议先看科普视频,再看论文和文档,不然会很吃力,尤其是像我这样的文科生
理解原理的基础上,还要实际上手体验,否则就像你高中,上课听了都会,下课做题傻眼。那些自媒体说的颠覆性能力,算法跟你说咱们模型的各项评分多少,你是没有概念的。可能看似很高的分数,其实给用户使用依然是灾难。或者咱们的能力超过竞品模型,但在实际体验,用户感受不到这个差距。这里推荐用即梦体验生图生视频,在Liblib体验更复杂的workflow和训lora,还有Coze搭工作流,用TraeAI编程做点自己的小工具。
体验之后,最好有项目可以实践,在更大场景验证。你自己体验,跟做出产品给更多用户使用,依然有巨大的认知鸿沟。因为业务和岗位原因,你可能没有研发资源,那怎么办?先利用外部工具跑起来,验证收益再投入资源。我有推荐其他同学直接找供应商做AI音视频翻译,实现达人营销视频跨地区传播,用多模态来做push文案生成,或者用LLM给主播生成脚本。AI项目有高度不确定性,与其等老板给你资源立项,不如自己先思考起来,小步快跑去尝试,帮助个人提效和业务内部提效。我在23年参与到AI项目中时,其实已经提前半年甚至每周小组脑暴思考怎么把AI与业务结合了。
在项目实践中,不要当无脑的螺丝钉,成为分工细化的受害者。在大厂分工很细,有用户产品、框架产品、作者产品、策略产品、工具产品,一个项目经常要多个产品和不同方向的研发、算法来完成,分工的好处是可以把每件事做得很精细极致,适合规模化阶段。但是做AI产品,分工太细,不一定是好事,比如一个产品不管数据、策略、供给,只做前端交互用户体验,那可能做10个AI项目,都不是真的AI产品,或者一个算法产品只做标准、打标、清洗,而不管终端的用户场景,可能也是打标poc。要全链路都了解,从而形成你的判断力。在公司内因为文档被传阅的比较多,不少同学以为我是战略,而非产品经理,或以为是一个只会写文档不执行的产品经理,实际上并非如此。我没有那么强的快速信息吸收和判断能力,所以我需要自己做调研、分析内容、跟需求、甚至写产品使用手册,从大量的细节中,形成我的产品判断,找到新机会点和方向,我过去的系列文档,其实基于大量的细节来做总结,缺点就是费时间。AI项目0-1阶段协作很痛苦,需要团队对模型的理解形成共识,要么就小团队闭环
如果你做的AI项目,在业界已经是成熟模式,比如AI特效,需要更多人分工做大规模。但人一多,每个人对SD、DiT的效果理解不一样,会经历比较混乱的阶段,甚至各方会互相指责。这种情况下,就需要项目组内各位同学短期内多看、多体验,努力补课,团队成员在模型理解上达成共识,知道哪些是切入点,哪些优化空间不大。
偏探索性的AI项目,最好小团队闭环,减少沟通成本,组织的摩擦和繁重的会议,对精力的损耗超级大。想想你们一周那么累,但真正投入到有价值的事情的占比有多少?可能超过20%就算不错了。
人经常会高估个人的能力,低估组织的力量。deepseek的人才不一定是最顶尖的,也就一百多人,但当团队有共识,把精力都在投入到真正做事上,可能实际的产出会很大,短期更容易跑出来。

对过去成功路径的过度依赖,可能是未来成功的阻碍
很多年轻同学入职即大厂,一直在成熟产品上做ab优化,最擅长的就是分析数据拆漏斗,找到流失最大的环节,然后针对性优化,不清楚哪个手段更有效,再多分几个实验组,最后ab涨0.2%,开开心心推全实验。但如果把这套ab经验套在做0-1项目,可能会让你在错误的或不重要的方向上浪费时间。比如某个项目刚上线,使用导出率很低,有同学就担心怎么办,想优化漏斗。但我对生成的效果很有信心,所以判断不应该投入太多做雕花,更重要的是找到目标用户,透传价值,后面转化率自然就翻了几倍。
我意识到同学们还在用精细化AB的思维来做AI创新产品,没有勇气下判断,于是在团队内分享过去的0-1经验。比如疫情做腾讯课堂极速版,48小时上线,没有什么增长策略,2周DAU千万,1年用户破亿。当时公司有很多个教育业务做,为什么我们能成为最大的公立校网课平台?因为过去大家认为,公立校的决策者是校领导,所以产品架构要以学校为单位,但我们正月里开始接待教育局领导,发现老师数字化程度太低,学校的组织架构和课程表太复杂,果断采用一个老师手机号注册->一键开课->分享链接给学生,同期另一个相似形态的是腾讯会议,也起飞了。
还有某些高阶同学,做10-100阶段太久,方法论又复杂又酷炫,已经忘记当年0-1阶段的粗糙了,会形成一种幻觉,因为我很牛逼,所以当初能做成。很起飞很爆炸的项目,大概率不是因为方案本身做的多么精细,而是抓住了关键点和机遇。在0-1阶段,如果方案要非常精细完美面面俱到才能做成,那么这事儿可能就不成立,我工作这几年,数据好到远超预期的方案,都是很粗糙很赶做出来的,但都把握了最关键的点。
高阶PM做AI项目,尤其要警惕,你要避免过去具体的经验对你的干扰,觉得自己之前在抖音是这样做的,做成了,所以现在按同样的方法在新业务也能做成,但忽略了条件和时间点的变化。我转到新业务后,一方面是输出过去的经验,另一方面,会甄别哪些是有效的,哪些是无效的,如何做本地化,避免活成自己过去讨厌的样子。
移动互联网的数据飞轮、网络效应是构建业务壁垒的底层逻辑,但这个方法论在大模型还没被验证。大模型助手过去一年多都在搞投放,先圈用户,用户的行为和prompt构建数据飞轮,但实际上我们看到,用户被推荐引擎驯化的,表达能力已经非常糟糕了,用户的prompt非常的初级,低质,甚至糟糕,而模型训练需要优质的数据,所以价值不大。反倒没啥用户规模的deepseek,做出R1,然后一鸣惊人,0投放,成为史上增长最快的AI产品。
在不确定性的快速变化的领域,数据可能没那么重要,判断和信仰更重要
22年刚来字节,震惊于字节ab数据的先进性,觉得是产品经理的工业革命,但到后面越来越觉得,随着公司规模扩大,一些产品经理被数据和实验给异化了,逐渐丢失了深度思考的能力,没有从数据中,增加对用户的理解,挖掘新的机会点。
23年我们内部开玩笑说,后面大模型把我们产品的各种文档拿来训练,可能就可以把产品经理都裁掉了,而且数据分析AI做的比我们产品还精细全面。
过于迷恋数据,会导致我们陷入局部最优解,而局部最优解不一定是全局最优解,因为我们的信息和视野有限,拆解出来的路径可能不是最有效的路径。但人性都是短视的,就像AlphaGo,为什么能走出人类从来没有见过的神之一手,因为它看得更远,某一步貌似看臭棋,但是很多步之后,体现出它这步的精妙
我时刻提醒自己和身边的同学,脱离数据,自己能不能独立做判断,数据是辅助,而非出发点。其他公司都没有字节这样好的数据基建,那跳槽后,是不是都不知道该怎么做决策。很好玩的是,新同学landing到我们业务,需要参考优秀的需求单,一份是基于数据严谨推导的,另一份是我写的没有数据推导的需求单,但当时评审会上大家兴奋的让我赶紧做。
数据会骗人,通过充分信息和严谨的逻辑可以绕开数据的陷阱。不止一次,别人把数据扔在我脸上,我发现当跟我的逻辑推断不一样,我会有信心的让对方再算一遍,注意口径有没有问题。无论PM还是DA,都有可能犯数据错误,因为并行的事情太多,有时候就机械性地跑数据,而没有真正思考用户的场景。

5. 细节很重要,不要依赖别人抽象过的总结性汇报做产品判断在大厂各类专题汇报和周报很重要,是庞大组织能运行的机制保障,但汇报总结有效的前提是,我们充分共享了context,面对文档上的一句话,大家都能理解背后更丰富的信息,比如听到「扩供给」,都能大概想到有哪些策略,服务的目标是什么。但是面对新事物,如果还是依赖总结性的汇报,那很可能会做出错误的判断,比如说这个模型能力分数达到4.5分,行业第一,然后我们做个某某feature,就可以颠覆业界。或者说,用户的某某需求,目前人工操作很复杂,链条长,可以通过大模型agent来解决,替代人工。但实际上,一上手,可能都不大行。在正确的时间做正确的决策,依赖对细节的充分理解感受。多看case,多调研用户,多上手体验产品,这是最朴素但最有效的方法。人获取的信息和认知有限,所以经常驾驭不了一个很宏大很长周期的东西。但人又是没有安全感的生物,所以经常会在回忆中,美化和合理化自己的规划能力。这种甜蜜回忆越多,对不确定性的未来的掌控欲就越大。执着于过于复杂的计划和可预测的目标,反倒压制了真正的创新,错过了真正的机会。比如我们的不少晋级答辩文档,会写基于业务目标,我如何拆解,然后如何按计划实现,最终拿到结果。但我们其实都心知肚明,做事情的过程可能很多都是混乱,不断调整的,我们是最后关头才把过去的事情都点线面串起来,进行简化,然后让评委更好的理解。答辩这样很合理,但不要把答辩思维生搬硬套到日常的做事,除非你做的事情很成熟。这个世界充满了运气和变量,比如英伟达芯片最开始是为了让打游戏更快,后面没想到GPU很适合神经网络这类超大并行矩阵计算;辛顿他们设计出神经网络,但因为没有足够的算力,没啥效果,被视为异端而只能在加拿大默默研究;李飞飞最开始做ImageNet,花了不少钱,但这么大的数据集也没啥用。但当他们三者遇到一起,就开启了AI的关键时刻。不是某一个智者洞悉一切,安排上述三人按项目推进的。最近这半年VC也都有了思路转变,在移动互联网看项目,会算这个项目的业务壁垒、商业模式,看清楚了再投;但大模型其实很长时间都没有跑通商业模式,哪怕OpenAI,所以国内VC出钱很谨慎。现在VC投钱更看重,创始人是否靠谱,是否有发自内心的长期愿景,而具体的实现路径反倒没那么重要。7. 保持学习,保持交流,准备好自己迎接更大的机会过去风头最盛的是kimi、豆包这类聊天机器人,投放最猛,但我们也逐渐意识到,chatbot可能是一个中间态;最快商业化跑出来的是AI编程、AI特效,但更偏垂类的工具。业界常说的,移动互联网早期做手电筒,然后手机应用商店,最后发现抖音、微信、美团、拼多多才是移动互联网的真正大机会。当前我们可能在做手电筒,或应用商店(GPTs目前也没有跑通),应该还没有出现抖音级别的机会。但我们需要拿项目练手,总结,交流,学习,因为抖音不是第一天做移动互联网的人做出来的。张一鸣在九九房里做推荐引擎,但意识到这是小机会,然后把推荐引擎放在内涵段子、头条,直到在抖音,跟上下滑的短视频交互结合,一举反超腾讯。那么AI时代的抖音、微信、美团、淘宝可能都还没出来,大模型作为一个技术要素,会引发什么奇妙的化学反应呢?我们其实也没有真正看清楚,可能苹果和微信是生态位的终局赢家,比如微信搜索接入deepseek,可以通过智力串联起微信生态里的内容和服务。但也可能下一个抖音不是抖音的形态,我们只能先积累认知经验,识别身边的靠谱伙伴,等待更大机会的到来。如何找PMF
8. 找Model-Product-Market-Fit是核心能力
随着微信这个13亿月活的超级APP接入deepseek,意味着大模型渗透到每个用户,意味着你和我,无论在什么岗位,可能都要主动被动卷入大模型的应用。就像移动互联网早期,有移动互联网事业群,但后面几乎每个人都在做APP的业务,或者说端已经不重要了,业务本身最重要。所以你需要理解模型,就像你要理解4G、GPS、智能手机一样;不理解模型的原理,就会在一些错误的细节上白白浪费精力,比如大模型的幻觉,本质因为是next token prediction,是个概率问题,或者容易异想天开,过早做非常复杂的Agent项目。理解模型的边界,理解用户的需求,然后通过一套产品化解决方案来切入这个交叉点,是AI应用产品经理的核心能力。对模型的理解,要有定量和定性。不是读了多少篇论文,其实不少论文读得飞起的人,不一定理解模型在复杂现实环境里的能力;也不是做了很多测评,因为测评也是简化的环境,我被很多打分和榜单骗过。你用多了,看多了,就有判断,模型能做什么,做到什么程度。9. 目前AI有的是提供草稿起点,或解决最后一公里,比较难闭环完成所有工作即使到今天,AI还挺难完全取代完整的工作流。当你要做一个AI项目,可以思考,这个是给用户提供一个初始草稿,方便他快速二次修改,还是基于用户的操作,做最后的润色加工。比如23年初很亮眼的Gamma,就是输入prompt,给你一个不错的PPT草稿,然后你在PPT上继续修改文字,大大提高用户的效率,同时管理了用户的预期,不是拿着PPT直接去演讲的。还例如在nhentai这个全球某类漫画的历史排行榜,第二名Long Distance Train是作者hr555用diffusion生成的,共30页的剧情内容,作者自己画线稿,然后用AI上色,AI解决了最后一公里问题。大模型的幻觉、可控性差等问题,让我们做解决方案时非常棘手。因为过去移动互联网的解决方案,都是比较确定性的,用户每完成一个操作,都会对反馈有明确的预期,如果不符合预期,就会退出。想象你在视频编辑器里,点击添加某个手写字体,结果展示的是另一个手写字体,你就会觉得这是什么鬼。但另一方面,我们可以利用大模型善于创意、发散的特点,来给用户一些非刚需的好玩场景提供惊喜。比如AI特效,把照片变成粘土风,虽然脸也可能歪瓜裂枣的,但丑萌可爱。比如Sora出来后,我们预期会有奥斯卡般的高品质AI影视作品,但实际上到今天,DiT视频模型最大的应用场景还是在玩抽象,变身机甲战士,羊毛卷,AI打架。比如AI扩图,本来以为是一个实用工具,没想到变成搞笑的爆款玩法。可能吸引很多人的好玩东西,会逐渐演变出来更有价值的东西。比如短剧赛道,迪士尼请好莱坞导演做竖版短剧,失败了。结果真正跑出来的是,网文平台在抖音上投放的广告素材,从片头素材再演变为完整剧集,再超过电影行业的市场规模。比如B站最开始搞二次元和鬼畜,后面出来非常有质感的中视频;抖音最开始是跳舞小姐姐对口型,但现在也有非常有节奏感的竖版中视频。量变引起质变,先做出好玩好看的,有播放量,更多创作者进来,然后内容的质量和丰富性会不断起来。未来可能不是计划出来的,而是演化出来的。我们可能并不知道未来会怎么样,也可能我们对自己设想的未来的过度执着,反倒阻碍了未来的到来。
11. 用户需求是渐变的光谱,按过去的旧分类,AI只能替代存量解决方案,无法创造增量市场在23年6月参加美国的VidCon大会,听了全球最顶尖的内容平台、内容创作者、AI工具公司对未来内容创作的分享,对我形成系统性的AI认知超级重要,即使放在现在也没有那么过时。当时听到一句话特别印象深刻,AI对创作的价值:Save time(提高效率)、Improve(提高质量)、Power up(做之前做不到的事)。我很容易理解前两点,甚至觉得AI最容易的是提高效率,但实际做了发现很难,因为AI提高效率的代价是,降低效果,于是用户不满意。所以早期不少单纯提高效率的项目,其实都不是很成功。对Power up其实不是很理解,因为我觉得用户的需求就这些,那些做不到的事情,都是科幻小说异想天开,大模型也实现不了。但后面两年的AI应用发展,让我逐渐深入的理解了这个词。比如AI特效,不是save time提高效率,因为用户本身没啥需求,也不是对传统美颜的improve优化,因为效果很夸张,完全不真实。AI特效是 power up,让去不起天真蓝、也请不到画师的普通用户,导入一张照片,就可以变成梵高风,或者国风写真。这里反映的用户底层需求,是变美变有趣,而不是美颜的具体需求。比如AI音乐,在音乐性上,完全比不上版权真人音乐,但是大语言模型可以让叙事性更加个性化,可以根据每个人的故事,写一首,这是过去做不到的,也出现了「妈生鼻」这样的爆款,或者krea.ai用AI音乐说唱来给产品演示demo配bgm。22年因为Midjourney和Chatgpt,觉得应该会有AI产品替代figma,满足UI设计师的需求,一句话生成UI稿。国内外也有不少相关AI项目,但后面都没有成功,因为发现UI稿要求精度很高,AI生成的太粗糙,且编辑困难。但没想到claude sonnet 3.5出来后,AI编程爆发,零代码经验的也可以通过prompt做出一个小产品,从意图->UI-代码都实现了,AI编程不是取代程序员设计师,而是让有想法的人,也可以做出app或网页,创造了增长市场,通过AI编程做出来的产品,可能是满足某个长尾需求,或者给自己用,就不会像传统UI稿那么复杂。提高效率,提高质量,本质上都是在过去的分类下,找更优解,那么势必会与过去可能优化了10年的方案进行比较,很多时候比不过。我们有时候要回到用户最本质的需求,从渐变的光谱中,找到你的细分需求切片,然后满足它,可能是一个新的人群,新的场景,新的需求。不要试图解决痛点,因为真的大范围的痛点,可能都已经被满足了,而是先去找少数人的痒点,扩大后,再拿掉,就变成大部分人的痛点。就像外卖最开始,也只是服务大学寝室打游戏的男生,不是社会大部分人的痛点。12. 有些看似伪需求,但其实是偏情绪价值的真需求很多需求不是真实有用的需求,但是会让用户很舒服,比如清晰度问题,其实抖音、朋友圈都会压缩画质的,但用户在导出时,依然选择清晰度和帧率开到最大。AI超清是非常多APP的核心功能,我最开始有点困惑,用户绝大部分的照片都是比较清晰,而且朋友圈还会压画质,为什么还这么喜欢付费用AI超清?后面了解到,用了美颜滤镜之类的,会让画质柔化变糊,用户修图时放很大看,觉得糊,然后修完后,再一键AI超清,又清晰回来,就缓解了焦虑。但实际上,朋友圈其他人看是看不出来的。所以不要一直按理工直男的实用主义来理解用户的需求,用户是非理性的,不然可能会错失一些需求。13. 不同模态的生成、转化都蕴藏着模型应用层的新机会除了从生活的需求出发,来反推模型能力,形成解决方案。还可以拿着锤子找钉子,从模型的能力出发去找应用场景。下图是23年我看了很多竞品后,列出来的不同模态之间的转化,对应有什么模型能力,和产品化的机会。算是一种脑爆的思路框架。
但这个箭头不一定完整,比如最开始以为会先跑出来音频->视频,因为当时的一些demo是输入一段音乐,然后基于对音乐的理解生成视频,但实际上到现在没有跑出来。反倒视频->音频先跑出来了,从suno的拍视频生成音乐,再到抖音的拍照生成AI音乐大爆款。
14. 不同内容平台之间的内容迁移和转换,会带来新的工具机会随着TT的崛起,需要引入大量的内容,当其他平台的创作者纷纷涌入TT,但他们又不擅长做短视频,就诞生了工具化的机会,比如把Youtube的中长视频改为短视频,带来了OpusClip,比如Podsqueeze把音频播客转为短视频,比如Repurpose把Twitter帖子转为短视频。或者流光卡片把长文转为小红书图文卡片,甚至还有一些创业项目,根据你关注的话题,去网上搜索信息,然后自动整理为小红书图文卡片发布。这个迁移过程一直在进行,比如过去就有人把知乎的内容转到公众号、微博、小红书,因为创作者都是追逐流量的,当然这类工具其实有争议,很容易变成洗稿灰产。总之,需要持续关注下游大平台的变化,抓住机遇比努力更重要15. 低代码工具和模型开源,是孕育未来新一代产品的土壤大模型的泛化能力和开源,让ComfyUI、Coze之类的平台,创作者通过节点来创建和封装工作流,可以满足非常多的需求。创作者的创意,经常会超出你的想象。这也是为什么Midjourney、即梦、Liblib之类的产品,一定要在端内做社区,把用户通过工具做出来的内容,作为模板,来服务更多用户,甚至裂变出新的创意比如我们做AI特效,23年总结出的核心产品方法论是「新技术出现->大神用新技术创作爆款作品->把大神工作流一键产品化」,直到今天,我们依然在敏锐的观察着市场变化,我们inhouse这几个人的创意,远远比不上社区的创意。16. 不用上来就做个大产品,先从小场景切入,收敛用户预期,最大化模型效果等模型智力到达AGI了,可能会出现一个大产品,直接面向用户掌握信息和服务的分发,但现在,可以先踏踏实实做个小产品,解决一个具体的问题,满足一个具体的需求。大的机会,意味着形成了行业共识,那么竞争是非常激烈的,就像现在LLM领域的AI搜索、AI编程,多模态领域的AI特效。Captions这个产品是出乎我们意料的,核心功能是识别字幕,生成动画字幕,非常简单,但很早盈利,且用户粘性高。它通过大模型,把字幕识别准确率做得非常高,几乎不用改,并且再自动添加字幕动画,更符合TT短视频的风格效果,就能获得创作者的用钱投票。模型可以做很多事情,但很多事情也做不好。如果你觉得一个prompt对话框就可以解决大部分需求,那么你真的还没被AI毒打过。收敛场景,收敛需求,让模型相对稳定的交付结果,这样才有用户的留存。当你设计方案时,不要陷入交互的细节,而是思考,我要给用户交付的结果是什么。用户不是来细细品味你的交互审美的,而是要结果的。从这个目标倒推,哪些是通过交互解决,哪些是通过数据解决,哪些是通过模型解决,最终包装为一个完整方案。比如deepseek,交互很粗糙,但是它给用户交付的结果,即体现在智力上,很强,依然爆发增长。比如AI特效,关键是用户导入照片后,生成的图片好看有趣,所以关键的其实是内容选题、特效供给,而产品更多是做供给提效、消费侧性能优化,而没有折腾太多有的没的交互和流程。18. 用户的预期管理,显著影响用户对效果的满意度在产品宣发上,经常需要吹牛逼,搞颠覆,但当用户使用时,需要通过引导和路径设计,管理好用户的预期,让最终交付的结果符合或者超过用户预期。否则牛逼吹破天,来了很多用户,但都留不住。上面看似是简单的道理,但你如果不深刻理解,可能在产品方案上就会错过一些非常关键的细节,导致用户不满意,比如我们就是把解锁草稿的按钮换了一个位置,让用户更强的意识到,这是AI生成的草稿,而非最终成片,于是使用导出率显著提升了。如何在日常中实践这个原则,很简单,在用户使用你的功能时,问自己用户希望获得的最终结果是什么;以及用户每一步操作,问问自己他们对下一步的预期是什么。19. Prompt输入是强大、低效、高门槛的交互,不是万能药在早期,很多人对ChatGPT和Midjourney开创的对话式交互非常迷恋,因为很符合科幻电影里的画面。但你在做产品时,可千万不要想当然的加个prompt入口,因为大众用户不想打开键盘,也不知道填什么prompt,所以需要在产品设计上做好用户操作成本和最终效果的平衡。对话式交互是未来,但目前还无法取代传统图形化交互,在很长一段时间也不会。- 非必要,勿填prompt,让用户多填一个字,都是对用户规模和转化率的巨大折损;
- 如果有prompt的效果更好,那么把prompt做成选填,让专业用户有选择,又不影响小白用户;
- 如果必须填,尽可能填用户不需要额外思考的,通过推荐词降低输入门槛,并保证对prompt的响应,避免拔高用户预期后但结果又不符预期
- 信息:可以通过算法、或信息授权来获取用户意图和context背景信息,而不一定要手动输入
- 流程:把prompt填写留在最后一步,让用户先完成简单的熟悉的操作,增加沉没成本
- 生态:少数偏专业用户的prompt,沉淀在端内成为模板流转,服务更广大小白用户一键套用
20. 大模型的幻觉和耗时问题,需要新的交互范式解决大模型的推理成本,决定了耗时长,需要加载等待。加载loading看似是一个细节交互,但从更大范围看,反应了「AI大模型新的技术要素引入带来的新问题 vs 用户在移动互联网形成的惯性之间的gap」,需要一些新的交互范式,来解决这类大众用户预期冲突。一方面大模型的推理成本决定了AI产品的耗时,另一方面用户已经被移动互联网10年教育得对等待的容忍度是毫秒级,所以必须要做好加载阶段的体验,否则用户还没感受到交付的结果,就跑了。这里的关键是「过程同步」,就把你的用户当做你的协作方一样去及时同步,不要回避问题。同时带来一个额外的bonus,用户在百无聊赖的等待过程中,对信息的接受度反倒非常高,类似电梯广告逻辑。所以你可以在加载过程中,趁机做AI价值透传和用户教育。之前做美国和欧洲用户调研做可用性测试,在加载过程中告诉用户这是AI能力后,用户的尝鲜意愿、对结果的包容度、以及付费意愿都显著提升。大模型的另一个问题是不可控。比如23年做AI特效,海外最先火的芭比特效,会出现男女性别不准,肤色不准的问题,最开始我们想,要不要让用户自己改prompt,写上自己的性别或种族,但这种选项暴露给用户,会带来政治正确的问题,并且操作门槛太高,后面我们通过检测和反推,实现了最终生成的可控性,当然现在也都是行业通用做法了。还有比如为什么很多AI写真都是半身照,因为SD的手指生成有问题,很难彻底解决,不如就不展示。21. AI应用产品做不了预训练,但可以通过SFT,PE来优化结果前面说到用户要结果,而不是过程。那处于末端的AI应用层的产品,如何来保证模型能交付好的结果呢?我们还是回到模型的本质是什么,是给它大量的数据集,然后它通过大量的学习训练,就学会了。我们再来拆解,数据集都是什么,比如GPT是一段文本信息,让它在一定上下文窗口中基于前面的几个token猜下一个token,在ChatGPT阶段,给它喂对话的数据集,Q&A,然后它就学会了根据用户的提问来回答;比如Stable diffusion,数据集是一段文字描述+图片,这样它学会了根据prompt生成图片,再喂一批相似风格的图片,就可以训出粘土风lora,基于这个lora生成的图片都是粘土风;Sora的数据集则是一段文字描述+视频;这样你就会发现模型训练其实没有那么神秘,关键是定义你要的输入和输出结果,细化为测评标准,然后去获取和清洗对应的数据集,如果有又好又多的数据集,那么基于一个开源模型,其实可以训出来你想要的模型能力的。比如,为啥文生3D到现在都没有跑出来特别好的模型,因为3D数据集太稀缺了。关于PE,即Prompt Engineering,本质上是因为SD是通过prompt+图片训练的,用户输入的prompt通过关键词勾起大模型的回忆,如果训练数据集有宫崎骏和对应的图片,跟它说宫崎骏,它就立马回忆起来,生成宫崎骏画风的图片,但是如果给2024年的大模型,输入哪吒2的关键词,它就不知道哪吒的形象是有黑眼圈的。前面说到用户写不出好的prompt,因为prompt是训练模型的语言,而不是真正的自然语言,这里天然就存在一个gap,导致用户唤不起来模型的记忆。通过PE,把用户的普通prompt来润色为更具体丰富的文本信息,就可以让大模型根据具体的需求,来生成对应的结果。像midjourney、luma等很多产品,其实都会做PE优化,现在网上也有很多教程,使用deepseek做PE优化,再去即梦生图生视频。当然PE是提高下限,真正的效果上限还是靠底模本身的进步。21. 核心逻辑要简单稳定,如果模型A 80% x 模型B 50% x 模型C 40%...最终结果就是10%满足用户的需求,可能不是单个模型就能解决,不然就直接在ChatGPT的聊天窗了。在应用层解决方案上,我们更多是基于对用户需求场景的理解,可能需要调度组合多个模型。在前期验证需求阶段,可以快速搭建一个workflow,组合模型A和B,出来一个demo,来验证效果。到了后面,你会发现,每个模型都有幻觉、不可控的问题,以及模型跟模型之间的上下游协作,会存在信息丢失的情况,导致最终的结果就是 80%x50%x40%...=10%不可用,这也是为什么到今天Agent还没真正跑通。所以当我在看技术方案,如果核心链路非常绕、长、复杂,且每个环节都有不少bad case,就需要思考有没有其他的方式,或者把需求范围再收敛一下。不然通过大量的策略来兜底,会兜死过去。随着24年多模态和25年推理模型的进展,可以基于实际情况,考虑端到端的模型训练,减少环节和信息折损。当模型能力足够强,模型数量足够收敛,就能通过更简单的交互给用户提供更好的结果。22. 把AI封装为原子能力,带来乘数效应,而非单纯的漏斗转化逻辑乘数效应,听起来是个大词黑话,但这个概念对我们过去的实际工作是有真的指导意义,帮助我们在一些关键判断上,做出更长期有价值的决策。具体来说,你做的一个产品能力,是否用户用完即走,然后你需要费尽心思找更多入口导流,或者努力优化转化漏斗,才能维持这个产品的生命周期,还是说用户用完有资产沉淀,可以帮助他们未来更好的使用,或者服务和激发更多用户使用。剪映Capcut的月活达到8亿MAU,在人类历史上都没有一个创作工具,可以达到这种规模,毕竟全球网民也才50亿,你能想象每个月这世界上6个人中就有1个来剪视频不?这听起来就有点反常识。假如剪映只是把剪视频的工具,比Premiere做的更简单易用,是不可能做这么大的。这里的关键方法论是低门槛工具->模板生态。具体说,通过一键式能力和素材降低门槛,让有创意的创作者做出优质的模板,沉淀在端内进行分发,然后普通用户套用模板后做出爆款,再引发更多跟风创意。另一个类似的产品是2亿月活的Canva。之前在腾讯的时候,听张小龙分享,微信做产品是引入一个原子能力,然后在整个微信生态内引发化学反应,比如视频号不是单纯的上下滑feeds,而是嵌入到朋友圈、微信群、公众号、电商,当一个视频被流转,价值就不断增厚。如果视频号只是在微信里加个入口,那么其实流量也不大。再比如微信搜索接入deepseek,不是简单的AI搜索,而是把用户的私有数据和微信生态数据服务都通过大模型调动起来,聊天记录、公众号、视频号、问一问、小程序、小绿书、听一听,这里的想象空间非常大。与微信类似,剪映做原子能力,也是会在端内的模板生态和更大的抖音生态,引发创意的乘数效应。有些功能的渗透不高,但可以做出非常酷炫的内容,内容爆款对产品的活跃和增长是极大的,可以带来增量的规模。23. 没有差异化,很难追上竞品,哪怕你有很多资源过去有个误区,觉得大厂资源多,可以快速抄竞品,让竞品活不下去。一些AI创业公司的朋友,看到字节要做类似的产品,刚开始也很焦虑,但后面发现对他们的产品影响其实不大。这里有2个原因,一个是AI产品的大量在后端策略,而非前端交互,没那么容易抄和逆向;另一个是目前大模型跑通模式的更多在垂类,大厂没有那么多魄力All in。在大厂做AI产品,更多还是围绕产品的主路径和生态优势做,构建长期的价值。比如数字人,从效果上我们很难超过heygen,在2B渠道也没有优势,但是我们把数字人的改口型Loopy能力下放到大众场景,成为一个有趣的玩法,宝宝唱歌、宠物唱歌,反倒快速实现了爆发,甚至有点轻松。24. 模型首发能力,找到合适的场景,可以抵得过很多雕花模型能力胜过产品雕花,应该是很多一线同学的超强共鸣。当模型能力迭代带来一个领先的新体验,给用户提供其他竞品没有的结果,只要找到合适的应用场景,就能快速爆发。这里的case,数不胜数,比如:思考本质,做关键的且有长期价值的事情。而不要疲于做缓解焦虑的事情,陷入恶性循环。