我要投稿

深度复盘｜做AI产品近2年总结出来的25条核心认知

发布日期：2025-02-18 00:58:09 浏览次数： 5879 作者：Kenny 肯尼

1. 对过去成功路径的过度依赖，可能是未来成功的阻碍。无论一线还是管理层，都要从基础理论开始学习，上手体验和实践，保持迭代

2. 找到Model-Product-Market-Fit是核心能力，模型能力（现状&未来）匹配用户需求（存量&增量）

3. 用户需求是渐变的光谱，按过去的旧分类，AI只能替代存量解决方案，无法创造增量市场

4. 给用户交付的一个结果，而非单纯做体验，通过管理用户预期，收敛场景，最终满足和超出用户预期

5. 把AI封装为原子能力，通过工具->模板->内容，带来乘数效应，而非单纯的漏斗转化逻辑

前言

我从22年10月开始使用Midjourney，到23年初参与AI项目，做过亿级用户规模的AI特效，也做过更复杂的营销工具，还超前探索过AI文字、AI音乐、Agent，是我最累最忙的两年，在此期间积累了一些成功经验，更多是失败教训，但总体拿到的手感反馈的确比较多。

在影像业务是比较幸运的，有大模型最丰富的落地场景，无论是文本、图片、视频还是音频，无论是单一模态还是多模态组合，并且可以立即拿到用户反馈，建立认知。在大家还不清楚大模型的时候，就开始思考怎么落地；在大家还不知道怎么落地时，已经拿到很多实践反馈；在大家开始实践时，已经往更深更广更远的维度来抽象思考了。

通过白板workshop，我也会跟其他业务的同学交流，把我总结的经验，基于其他业务的背景和诉求，提供一些思路和建议，避免我曾经走过的弯路。我从中收获的是，在更多场景来验证和完善我的思考，拓宽视野宽度，这样后续我做其他业务，避免局限自己的少量实践经验。

不过线下1v1交流的机会还是少的，于是把过去2年的经验总结为文档。字数比较多，因为我会讲一些非共识的内容，具体的信息和细节很重要。没必要试图记住这些原则，而是感受它，看哪些是有共鸣的，哪些是没经历过但后续要刻意关注的。里面也有不一定对，或者只在特定条件下成立，边看边甄别。

如何迭代认知

1. 理解大模型，需要理论和实践。你不上手，就很难真正的理解，也无法做出有价值的判断

需要建立认知框架，才能避免迷失在信息的乱流中，否则每天一睁眼，那么多AI信息，又多又快，让人焦虑。大模型原理掌握Transformer、Diffusion、DiT、RL等，这类课程其实网上非常多了，这里推荐OpenAI创始人之一Andrej Karpathy的Deep Dive into LLMs like ChatGPT（目前最好的LLM入门），还有张涛老师的Stable Diffusion 原理，Deepseek R1技术解读，建议先看科普视频，再看论文和文档，不然会很吃力，尤其是像我这样的文科生

理解原理的基础上，还要实际上手体验，否则就像你高中，上课听了都会，下课做题傻眼。那些自媒体说的颠覆性能力，算法跟你说咱们模型的各项评分多少，你是没有概念的。可能看似很高的分数，其实给用户使用依然是灾难。或者咱们的能力超过竞品模型，但在实际体验，用户感受不到这个差距。这里推荐用即梦体验生图生视频，在Liblib体验更复杂的workflow和训lora，还有Coze搭工作流，用TraeAI编程做点自己的小工具。

体验之后，最好有项目可以实践，在更大场景验证。你自己体验，跟做出产品给更多用户使用，依然有巨大的认知鸿沟。因为业务和岗位原因，你可能没有研发资源，那怎么办？先利用外部工具跑起来，验证收益再投入资源。我有推荐其他同学直接找供应商做AI音视频翻译，实现达人营销视频跨地区传播，用多模态来做push文案生成，或者用LLM给主播生成脚本。AI项目有高度不确定性，与其等老板给你资源立项，不如自己先思考起来，小步快跑去尝试，帮助个人提效和业务内部提效。我在23年参与到AI项目中时，其实已经提前半年甚至每周小组脑暴思考怎么把AI与业务结合了。

在项目实践中，不要当无脑的螺丝钉，成为分工细化的受害者。在大厂分工很细，有用户产品、框架产品、作者产品、策略产品、工具产品，一个项目经常要多个产品和不同方向的研发、算法来完成，分工的好处是可以把每件事做得很精细极致，适合规模化阶段。但是做AI产品，分工太细，不一定是好事，比如一个产品不管数据、策略、供给，只做前端交互用户体验，那可能做10个AI项目，都不是真的AI产品，或者一个算法产品只做标准、打标、清洗，而不管终端的用户场景，可能也是打标poc。要全链路都了解，从而形成你的判断力。

在公司内因为文档被传阅的比较多，不少同学以为我是战略，而非产品经理，或以为是一个只会写文档不执行的产品经理，实际上并非如此。我没有那么强的快速信息吸收和判断能力，所以我需要自己做调研、分析内容、跟需求、甚至写产品使用手册，从大量的细节中，形成我的产品判断，找到新机会点和方向，我过去的系列文档，其实基于大量的细节来做总结，缺点就是费时间。

AI项目0-1阶段协作很痛苦，需要团队对模型的理解形成共识，要么就小团队闭环

如果你做的AI项目，在业界已经是成熟模式，比如AI特效，需要更多人分工做大规模。但人一多，每个人对SD、DiT的效果理解不一样，会经历比较混乱的阶段，甚至各方会互相指责。这种情况下，就需要项目组内各位同学短期内多看、多体验，努力补课，团队成员在模型理解上达成共识，知道哪些是切入点，哪些优化空间不大。

偏探索性的AI项目，最好小团队闭环，减少沟通成本，组织的摩擦和繁重的会议，对精力的损耗超级大。想想你们一周那么累，但真正投入到有价值的事情的占比有多少？可能超过20%就算不错了。

人经常会高估个人的能力，低估组织的力量。deepseek的人才不一定是最顶尖的，也就一百多人，但当团队有共识，把精力都在投入到真正做事上，可能实际的产出会很大，短期更容易跑出来。

对过去成功路径的过度依赖，可能是未来成功的阻碍

很多年轻同学入职即大厂，一直在成熟产品上做ab优化，最擅长的就是分析数据拆漏斗，找到流失最大的环节，然后针对性优化，不清楚哪个手段更有效，再多分几个实验组，最后ab涨0.2%，开开心心推全实验。但如果把这套ab经验套在做0-1项目，可能会让你在错误的或不重要的方向上浪费时间。比如某个项目刚上线，使用导出率很低，有同学就担心怎么办，想优化漏斗。但我对生成的效果很有信心，所以判断不应该投入太多做雕花，更重要的是找到目标用户，透传价值，后面转化率自然就翻了几倍。

我意识到同学们还在用精细化AB的思维来做AI创新产品，没有勇气下判断，于是在团队内分享过去的0-1经验。比如疫情做腾讯课堂极速版，48小时上线，没有什么增长策略，2周DAU千万，1年用户破亿。当时公司有很多个教育业务做，为什么我们能成为最大的公立校网课平台？因为过去大家认为，公立校的决策者是校领导，所以产品架构要以学校为单位，但我们正月里开始接待教育局领导，发现老师数字化程度太低，学校的组织架构和课程表太复杂，果断采用一个老师手机号注册->一键开课->分享链接给学生，同期另一个相似形态的是腾讯会议，也起飞了。

还有某些高阶同学，做10-100阶段太久，方法论又复杂又酷炫，已经忘记当年0-1阶段的粗糙了，会形成一种幻觉，因为我很牛逼，所以当初能做成。很起飞很爆炸的项目，大概率不是因为方案本身做的多么精细，而是抓住了关键点和机遇。在0-1阶段，如果方案要非常精细完美面面俱到才能做成，那么这事儿可能就不成立，我工作这几年，数据好到远超预期的方案，都是很粗糙很赶做出来的，但都把握了最关键的点。

高阶PM做AI项目，尤其要警惕，你要避免过去具体的经验对你的干扰，觉得自己之前在抖音是这样做的，做成了，所以现在按同样的方法在新业务也能做成，但忽略了条件和时间点的变化。我转到新业务后，一方面是输出过去的经验，另一方面，会甄别哪些是有效的，哪些是无效的，如何做本地化，避免活成自己过去讨厌的样子。

移动互联网的数据飞轮、网络效应是构建业务壁垒的底层逻辑，但这个方法论在大模型还没被验证。大模型助手过去一年多都在搞投放，先圈用户，用户的行为和prompt构建数据飞轮，但实际上我们看到，用户被推荐引擎驯化的，表达能力已经非常糟糕了，用户的prompt非常的初级，低质，甚至糟糕，而模型训练需要优质的数据，所以价值不大。反倒没啥用户规模的deepseek，做出R1，然后一鸣惊人，0投放，成为史上增长最快的AI产品。

在不确定性的快速变化的领域，数据可能没那么重要，判断和信仰更重要

22年刚来字节，震惊于字节ab数据的先进性，觉得是产品经理的工业革命，但到后面越来越觉得，随着公司规模扩大，一些产品经理被数据和实验给异化了，逐渐丢失了深度思考的能力，没有从数据中，增加对用户的理解，挖掘新的机会点。

23年我们内部开玩笑说，后面大模型把我们产品的各种文档拿来训练，可能就可以把产品经理都裁掉了，而且数据分析AI做的比我们产品还精细全面。

过于迷恋数据，会导致我们陷入局部最优解，而局部最优解不一定是全局最优解，因为我们的信息和视野有限，拆解出来的路径可能不是最有效的路径。但人性都是短视的，就像AlphaGo，为什么能走出人类从来没有见过的神之一手，因为它看得更远，某一步貌似看臭棋，但是很多步之后，体现出它这步的精妙

我时刻提醒自己和身边的同学，脱离数据，自己能不能独立做判断，数据是辅助，而非出发点。其他公司都没有字节这样好的数据基建，那跳槽后，是不是都不知道该怎么做决策。很好玩的是，新同学landing到我们业务，需要参考优秀的需求单，一份是基于数据严谨推导的，另一份是我写的没有数据推导的需求单，但当时评审会上大家兴奋的让我赶紧做。

数据会骗人，通过充分信息和严谨的逻辑可以绕开数据的陷阱。不止一次，别人把数据扔在我脸上，我发现当跟我的逻辑推断不一样，我会有信心的让对方再算一遍，注意口径有没有问题。无论PM还是DA，都有可能犯数据错误，因为并行的事情太多，有时候就机械性地跑数据，而没有真正思考用户的场景。

5. 细节很重要，不要依赖别人抽象过的总结性汇报做产品判断

在大厂各类专题汇报和周报很重要，是庞大组织能运行的机制保障，但汇报总结有效的前提是，我们充分共享了context，面对文档上的一句话，大家都能理解背后更丰富的信息，比如听到「扩供给」，都能大概想到有哪些策略，服务的目标是什么。

但是面对新事物，如果还是依赖总结性的汇报，那很可能会做出错误的判断，比如说这个模型能力分数达到4.5分，行业第一，然后我们做个某某feature，就可以颠覆业界。或者说，用户的某某需求，目前人工操作很复杂，链条长，可以通过大模型agent来解决，替代人工。但实际上，一上手，可能都不大行。在正确的时间做正确的决策，依赖对细节的充分理解感受。

多看case，多调研用户，多上手体验产品，这是最朴素但最有效的方法。

6. 未来更多是演化出来，而不一定是计划出来

人获取的信息和认知有限，所以经常驾驭不了一个很宏大很长周期的东西。但人又是没有安全感的生物，所以经常会在回忆中，美化和合理化自己的规划能力。这种甜蜜回忆越多，对不确定性的未来的掌控欲就越大。执着于过于复杂的计划和可预测的目标，反倒压制了真正的创新，错过了真正的机会。

比如我们的不少晋级答辩文档，会写基于业务目标，我如何拆解，然后如何按计划实现，最终拿到结果。但我们其实都心知肚明，做事情的过程可能很多都是混乱，不断调整的，我们是最后关头才把过去的事情都点线面串起来，进行简化，然后让评委更好的理解。答辩这样很合理，但不要把答辩思维生搬硬套到日常的做事，除非你做的事情很成熟。

这个世界充满了运气和变量，比如英伟达芯片最开始是为了让打游戏更快，后面没想到GPU很适合神经网络这类超大并行矩阵计算；辛顿他们设计出神经网络，但因为没有足够的算力，没啥效果，被视为异端而只能在加拿大默默研究；李飞飞最开始做ImageNet，花了不少钱，但这么大的数据集也没啥用。但当他们三者遇到一起，就开启了AI的关键时刻。不是某一个智者洞悉一切，安排上述三人按项目推进的。

最近这半年VC也都有了思路转变，在移动互联网看项目，会算这个项目的业务壁垒、商业模式，看清楚了再投；但大模型其实很长时间都没有跑通商业模式，哪怕OpenAI，所以国内VC出钱很谨慎。现在VC投钱更看重，创始人是否靠谱，是否有发自内心的长期愿景，而具体的实现路径反倒没那么重要。

7. 保持学习，保持交流，准备好自己迎接更大的机会

过去风头最盛的是kimi、豆包这类聊天机器人，投放最猛，但我们也逐渐意识到，chatbot可能是一个中间态；最快商业化跑出来的是AI编程、AI特效，但更偏垂类的工具。业界常说的，移动互联网早期做手电筒，然后手机应用商店，最后发现抖音、微信、美团、拼多多才是移动互联网的真正大机会。

当前我们可能在做手电筒，或应用商店（GPTs目前也没有跑通），应该还没有出现抖音级别的机会。但我们需要拿项目练手，总结，交流，学习，因为抖音不是第一天做移动互联网的人做出来的。张一鸣在九九房里做推荐引擎，但意识到这是小机会，然后把推荐引擎放在内涵段子、头条，直到在抖音，跟上下滑的短视频交互结合，一举反超腾讯。

那么AI时代的抖音、微信、美团、淘宝可能都还没出来，大模型作为一个技术要素，会引发什么奇妙的化学反应呢？我们其实也没有真正看清楚，可能苹果和微信是生态位的终局赢家，比如微信搜索接入deepseek，可以通过智力串联起微信生态里的内容和服务。但也可能下一个抖音不是抖音的形态，我们只能先积累认知经验，识别身边的靠谱伙伴，等待更大机会的到来。

如何找PMF

8. 找Model-Product-Market-Fit是核心能力

随着微信这个13亿月活的超级APP接入deepseek，意味着大模型渗透到每个用户，意味着你和我，无论在什么岗位，可能都要主动被动卷入大模型的应用。就像移动互联网早期，有移动互联网事业群，但后面几乎每个人都在做APP的业务，或者说端已经不重要了，业务本身最重要。

所以你需要理解模型，就像你要理解4G、GPS、智能手机一样；不理解模型的原理，就会在一些错误的细节上白白浪费精力，比如大模型的幻觉，本质因为是next token prediction，是个概率问题，或者容易异想天开，过早做非常复杂的Agent项目。

理解模型的边界，理解用户的需求，然后通过一套产品化解决方案来切入这个交叉点，是AI应用产品经理的核心能力。对模型的理解，要有定量和定性。不是读了多少篇论文，其实不少论文读得飞起的人，不一定理解模型在复杂现实环境里的能力；也不是做了很多测评，因为测评也是简化的环境，我被很多打分和榜单骗过。你用多了，看多了，就有判断，模型能做什么，做到什么程度。

9. 目前AI有的是提供草稿起点，或解决最后一公里，比较难闭环完成所有工作

即使到今天，AI还挺难完全取代完整的工作流。当你要做一个AI项目，可以思考，这个是给用户提供一个初始草稿，方便他快速二次修改，还是基于用户的操作，做最后的润色加工。

比如23年初很亮眼的Gamma，就是输入prompt，给你一个不错的PPT草稿，然后你在PPT上继续修改文字，大大提高用户的效率，同时管理了用户的预期，不是拿着PPT直接去演讲的。还例如在nhentai这个全球某类漫画的历史排行榜，第二名Long Distance Train是作者hr555用diffusion生成的，共30页的剧情内容，作者自己画线稿，然后用AI上色，AI解决了最后一公里问题。

10. 好玩比有用可能更容易跑出来

大模型的幻觉、可控性差等问题，让我们做解决方案时非常棘手。因为过去移动互联网的解决方案，都是比较确定性的，用户每完成一个操作，都会对反馈有明确的预期，如果不符合预期，就会退出。想象你在视频编辑器里，点击添加某个手写字体，结果展示的是另一个手写字体，你就会觉得这是什么鬼。

但另一方面，我们可以利用大模型善于创意、发散的特点，来给用户一些非刚需的好玩场景提供惊喜。比如AI特效，把照片变成粘土风，虽然脸也可能歪瓜裂枣的，但丑萌可爱。比如Sora出来后，我们预期会有奥斯卡般的高品质AI影视作品，但实际上到今天，DiT视频模型最大的应用场景还是在玩抽象，变身机甲战士，羊毛卷，AI打架。比如AI扩图，本来以为是一个实用工具，没想到变成搞笑的爆款玩法。

可能吸引很多人的好玩东西，会逐渐演变出来更有价值的东西。比如短剧赛道，迪士尼请好莱坞导演做竖版短剧，失败了。结果真正跑出来的是，网文平台在抖音上投放的广告素材，从片头素材再演变为完整剧集，再超过电影行业的市场规模。比如B站最开始搞二次元和鬼畜，后面出来非常有质感的中视频；抖音最开始是跳舞小姐姐对口型，但现在也有非常有节奏感的竖版中视频。

量变引起质变，先做出好玩好看的，有播放量，更多创作者进来，然后内容的质量和丰富性会不断起来。未来可能不是计划出来的，而是演化出来的。我们可能并不知道未来会怎么样，也可能我们对自己设想的未来的过度执着，反倒阻碍了未来的到来。

11. 用户需求是渐变的光谱，按过去的旧分类，AI只能替代存量解决方案，无法创造增量市场

在23年6月参加美国的VidCon大会，听了全球最顶尖的内容平台、内容创作者、AI工具公司对未来内容创作的分享，对我形成系统性的AI认知超级重要，即使放在现在也没有那么过时。

当时听到一句话特别印象深刻，AI对创作的价值：Save time（提高效率）、Improve（提高质量）、Power up（做之前做不到的事）。我很容易理解前两点，甚至觉得AI最容易的是提高效率，但实际做了发现很难，因为AI提高效率的代价是，降低效果，于是用户不满意。所以早期不少单纯提高效率的项目，其实都不是很成功。

对Power up其实不是很理解，因为我觉得用户的需求就这些，那些做不到的事情，都是科幻小说异想天开，大模型也实现不了。但后面两年的AI应用发展，让我逐渐深入的理解了这个词。

比如AI特效，不是save time提高效率，因为用户本身没啥需求，也不是对传统美颜的improve优化，因为效果很夸张，完全不真实。AI特效是 power up，让去不起天真蓝、也请不到画师的普通用户，导入一张照片，就可以变成梵高风，或者国风写真。这里反映的用户底层需求，是变美变有趣，而不是美颜的具体需求。

比如AI音乐，在音乐性上，完全比不上版权真人音乐，但是大语言模型可以让叙事性更加个性化，可以根据每个人的故事，写一首，这是过去做不到的，也出现了「妈生鼻」这样的爆款，或者krea.ai用AI音乐说唱来给产品演示demo配bgm。

22年因为Midjourney和Chatgpt，觉得应该会有AI产品替代figma，满足UI设计师的需求，一句话生成UI稿。国内外也有不少相关AI项目，但后面都没有成功，因为发现UI稿要求精度很高，AI生成的太粗糙，且编辑困难。但没想到claude sonnet 3.5出来后，AI编程爆发，零代码经验的也可以通过prompt做出一个小产品，从意图->UI-代码都实现了，AI编程不是取代程序员设计师，而是让有想法的人，也可以做出app或网页，创造了增长市场，通过AI编程做出来的产品，可能是满足某个长尾需求，或者给自己用，就不会像传统UI稿那么复杂。

提高效率，提高质量，本质上都是在过去的分类下，找更优解，那么势必会与过去可能优化了10年的方案进行比较，很多时候比不过。我们有时候要回到用户最本质的需求，从渐变的光谱中，找到你的细分需求切片，然后满足它，可能是一个新的人群，新的场景，新的需求。不要试图解决痛点，因为真的大范围的痛点，可能都已经被满足了，而是先去找少数人的痒点，扩大后，再拿掉，就变成大部分人的痛点。就像外卖最开始，也只是服务大学寝室打游戏的男生，不是社会大部分人的痛点。

12. 有些看似伪需求，但其实是偏情绪价值的真需求

很多需求不是真实有用的需求，但是会让用户很舒服，比如清晰度问题，其实抖音、朋友圈都会压缩画质的，但用户在导出时，依然选择清晰度和帧率开到最大。

AI超清是非常多APP的核心功能，我最开始有点困惑，用户绝大部分的照片都是比较清晰，而且朋友圈还会压画质，为什么还这么喜欢付费用AI超清？后面了解到，用了美颜滤镜之类的，会让画质柔化变糊，用户修图时放很大看，觉得糊，然后修完后，再一键AI超清，又清晰回来，就缓解了焦虑。但实际上，朋友圈其他人看是看不出来的。

所以不要一直按理工直男的实用主义来理解用户的需求，用户是非理性的，不然可能会错失一些需求。

13. 不同模态的生成、转化都蕴藏着模型应用层的新机会

除了从生活的需求出发，来反推模型能力，形成解决方案。还可以拿着锤子找钉子，从模型的能力出发去找应用场景。下图是23年我看了很多竞品后，列出来的不同模态之间的转化，对应有什么模型能力，和产品化的机会。算是一种脑爆的思路框架。

但这个箭头不一定完整，比如最开始以为会先跑出来音频->视频，因为当时的一些demo是输入一段音乐，然后基于对音乐的理解生成视频，但实际上到现在没有跑出来。反倒视频->音频先跑出来了，从suno的拍视频生成音乐，再到抖音的拍照生成AI音乐大爆款。

14. 不同内容平台之间的内容迁移和转换，会带来新的工具机会

随着TT的崛起，需要引入大量的内容，当其他平台的创作者纷纷涌入TT，但他们又不擅长做短视频，就诞生了工具化的机会，比如把Youtube的中长视频改为短视频，带来了OpusClip，比如Podsqueeze把音频播客转为短视频，比如Repurpose把Twitter帖子转为短视频。

或者流光卡片把长文转为小红书图文卡片，甚至还有一些创业项目，根据你关注的话题，去网上搜索信息，然后自动整理为小红书图文卡片发布。

这个迁移过程一直在进行，比如过去就有人把知乎的内容转到公众号、微博、小红书，因为创作者都是追逐流量的，当然这类工具其实有争议，很容易变成洗稿灰产。

总之，需要持续关注下游大平台的变化，抓住机遇比努力更重要

15. 低代码工具和模型开源，是孕育未来新一代产品的土壤

大模型的泛化能力和开源，让ComfyUI、Coze之类的平台，创作者通过节点来创建和封装工作流，可以满足非常多的需求。创作者的创意，经常会超出你的想象。这也是为什么Midjourney、即梦、Liblib之类的产品，一定要在端内做社区，把用户通过工具做出来的内容，作为模板，来服务更多用户，甚至裂变出新的创意

比如我们做AI特效，23年总结出的核心产品方法论是「新技术出现->大神用新技术创作爆款作品->把大神工作流一键产品化」，直到今天，我们依然在敏锐的观察着市场变化，我们inhouse这几个人的创意，远远比不上社区的创意。

16. 不用上来就做个大产品，先从小场景切入，收敛用户预期，最大化模型效果

等模型智力到达AGI了，可能会出现一个大产品，直接面向用户掌握信息和服务的分发，但现在，可以先踏踏实实做个小产品，解决一个具体的问题，满足一个具体的需求。大的机会，意味着形成了行业共识，那么竞争是非常激烈的，就像现在LLM领域的AI搜索、AI编程，多模态领域的AI特效。

Captions这个产品是出乎我们意料的，核心功能是识别字幕，生成动画字幕，非常简单，但很早盈利，且用户粘性高。它通过大模型，把字幕识别准确率做得非常高，几乎不用改，并且再自动添加字幕动画，更符合TT短视频的风格效果，就能获得创作者的用钱投票。

模型可以做很多事情，但很多事情也做不好。如果你觉得一个prompt对话框就可以解决大部分需求，那么你真的还没被AI毒打过。收敛场景，收敛需求，让模型相对稳定的交付结果，这样才有用户的留存。

如何设计产品

17. 给用户交付一个结果，而非单纯做工具体验

当你设计方案时，不要陷入交互的细节，而是思考，我要给用户交付的结果是什么。用户不是来细细品味你的交互审美的，而是要结果的。从这个目标倒推，哪些是通过交互解决，哪些是通过数据解决，哪些是通过模型解决，最终包装为一个完整方案。

比如deepseek，交互很粗糙，但是它给用户交付的结果，即体现在智力上，很强，依然爆发增长。比如AI特效，关键是用户导入照片后，生成的图片好看有趣，所以关键的其实是内容选题、特效供给，而产品更多是做供给提效、消费侧性能优化，而没有折腾太多有的没的交互和流程。

18. 用户的预期管理，显著影响用户对效果的满意度

在产品宣发上，经常需要吹牛逼，搞颠覆，但当用户使用时，需要通过引导和路径设计，管理好用户的预期，让最终交付的结果符合或者超过用户预期。否则牛逼吹破天，来了很多用户，但都留不住。

上面看似是简单的道理，但你如果不深刻理解，可能在产品方案上就会错过一些非常关键的细节，导致用户不满意，比如我们就是把解锁草稿的按钮换了一个位置，让用户更强的意识到，这是AI生成的草稿，而非最终成片，于是使用导出率显著提升了。

如何在日常中实践这个原则，很简单，在用户使用你的功能时，问自己用户希望获得的最终结果是什么；以及用户每一步操作，问问自己他们对下一步的预期是什么。

19. Prompt输入是强大、低效、高门槛的交互，不是万能药

在早期，很多人对ChatGPT和Midjourney开创的对话式交互非常迷恋，因为很符合科幻电影里的画面。但你在做产品时，可千万不要想当然的加个prompt入口，因为大众用户不想打开键盘，也不知道填什么prompt，所以需要在产品设计上做好用户操作成本和最终效果的平衡。对话式交互是未来，但目前还无法取代传统图形化交互，在很长一段时间也不会。

在获取用户意图上，我们总结了一系列的有效经验

交互：

非必要，勿填prompt，让用户多填一个字，都是对用户规模和转化率的巨大折损；
如果有prompt的效果更好，那么把prompt做成选填，让专业用户有选择，又不影响小白用户；
如果必须填，尽可能填用户不需要额外思考的，通过推荐词降低输入门槛，并保证对prompt的响应，避免拔高用户预期后但结果又不符预期

信息：可以通过算法、或信息授权来获取用户意图和context背景信息，而不一定要手动输入
流程：把prompt填写留在最后一步，让用户先完成简单的熟悉的操作，增加沉没成本
生态：少数偏专业用户的prompt，沉淀在端内成为模板流转，服务更广大小白用户一键套用

20. 大模型的幻觉和耗时问题，需要新的交互范式解决

大模型的推理成本，决定了耗时长，需要加载等待。加载loading看似是一个细节交互，但从更大范围看，反应了「AI大模型新的技术要素引入带来的新问题 vs 用户在移动互联网形成的惯性之间的gap」，需要一些新的交互范式，来解决这类大众用户预期冲突。

一方面大模型的推理成本决定了AI产品的耗时，另一方面用户已经被移动互联网10年教育得对等待的容忍度是毫秒级，所以必须要做好加载阶段的体验，否则用户还没感受到交付的结果，就跑了。这里的关键是「过程同步」，就把你的用户当做你的协作方一样去及时同步，不要回避问题。

同时带来一个额外的bonus，用户在百无聊赖的等待过程中，对信息的接受度反倒非常高，类似电梯广告逻辑。所以你可以在加载过程中，趁机做AI价值透传和用户教育。之前做美国和欧洲用户调研做可用性测试，在加载过程中告诉用户这是AI能力后，用户的尝鲜意愿、对结果的包容度、以及付费意愿都显著提升。

大模型的另一个问题是不可控。比如23年做AI特效，海外最先火的芭比特效，会出现男女性别不准，肤色不准的问题，最开始我们想，要不要让用户自己改prompt，写上自己的性别或种族，但这种选项暴露给用户，会带来政治正确的问题，并且操作门槛太高，后面我们通过检测和反推，实现了最终生成的可控性，当然现在也都是行业通用做法了。还有比如为什么很多AI写真都是半身照，因为SD的手指生成有问题，很难彻底解决，不如就不展示。

21. AI应用产品做不了预训练，但可以通过SFT，PE来优化结果

前面说到用户要结果，而不是过程。那处于末端的AI应用层的产品，如何来保证模型能交付好的结果呢？我们还是回到模型的本质是什么，是给它大量的数据集，然后它通过大量的学习训练，就学会了。

我们再来拆解，数据集都是什么，比如GPT是一段文本信息，让它在一定上下文窗口中基于前面的几个token猜下一个token，在ChatGPT阶段，给它喂对话的数据集，Q&A，然后它就学会了根据用户的提问来回答；比如Stable diffusion，数据集是一段文字描述+图片，这样它学会了根据prompt生成图片，再喂一批相似风格的图片，就可以训出粘土风lora，基于这个lora生成的图片都是粘土风；Sora的数据集则是一段文字描述+视频；

这样你就会发现模型训练其实没有那么神秘，关键是定义你要的输入和输出结果，细化为测评标准，然后去获取和清洗对应的数据集，如果有又好又多的数据集，那么基于一个开源模型，其实可以训出来你想要的模型能力的。比如，为啥文生3D到现在都没有跑出来特别好的模型，因为3D数据集太稀缺了。

关于PE，即Prompt Engineering，本质上是因为SD是通过prompt+图片训练的，用户输入的prompt通过关键词勾起大模型的回忆，如果训练数据集有宫崎骏和对应的图片，跟它说宫崎骏，它就立马回忆起来，生成宫崎骏画风的图片，但是如果给2024年的大模型，输入哪吒2的关键词，它就不知道哪吒的形象是有黑眼圈的。

前面说到用户写不出好的prompt，因为prompt是训练模型的语言，而不是真正的自然语言，这里天然就存在一个gap，导致用户唤不起来模型的记忆。通过PE，把用户的普通prompt来润色为更具体丰富的文本信息，就可以让大模型根据具体的需求，来生成对应的结果。像midjourney、luma等很多产品，其实都会做PE优化，现在网上也有很多教程，使用deepseek做PE优化，再去即梦生图生视频。当然PE是提高下限，真正的效果上限还是靠底模本身的进步。

21. 核心逻辑要简单稳定，如果模型A 80% x 模型B 50% x 模型C 40%...最终结果就是10%

满足用户的需求，可能不是单个模型就能解决，不然就直接在ChatGPT的聊天窗了。在应用层解决方案上，我们更多是基于对用户需求场景的理解，可能需要调度组合多个模型。

在前期验证需求阶段，可以快速搭建一个workflow，组合模型A和B，出来一个demo，来验证效果。到了后面，你会发现，每个模型都有幻觉、不可控的问题，以及模型跟模型之间的上下游协作，会存在信息丢失的情况，导致最终的结果就是 80%x50%x40%...=10%不可用，这也是为什么到今天Agent还没真正跑通。

所以当我在看技术方案，如果核心链路非常绕、长、复杂，且每个环节都有不少bad case，就需要思考有没有其他的方式，或者把需求范围再收敛一下。不然通过大量的策略来兜底，会兜死过去。

随着24年多模态和25年推理模型的进展，可以基于实际情况，考虑端到端的模型训练，减少环节和信息折损。当模型能力足够强，模型数量足够收敛，就能通过更简单的交互给用户提供更好的结果。

22. 把AI封装为原子能力，带来乘数效应，而非单纯的漏斗转化逻辑

乘数效应，听起来是个大词黑话，但这个概念对我们过去的实际工作是有真的指导意义，帮助我们在一些关键判断上，做出更长期有价值的决策。具体来说，你做的一个产品能力，是否用户用完即走，然后你需要费尽心思找更多入口导流，或者努力优化转化漏斗，才能维持这个产品的生命周期，还是说用户用完有资产沉淀，可以帮助他们未来更好的使用，或者服务和激发更多用户使用。

剪映Capcut的月活达到8亿MAU，在人类历史上都没有一个创作工具，可以达到这种规模，毕竟全球网民也才50亿，你能想象每个月这世界上6个人中就有1个来剪视频不？这听起来就有点反常识。

假如剪映只是把剪视频的工具，比Premiere做的更简单易用，是不可能做这么大的。这里的关键方法论是低门槛工具->模板生态。具体说，通过一键式能力和素材降低门槛，让有创意的创作者做出优质的模板，沉淀在端内进行分发，然后普通用户套用模板后做出爆款，再引发更多跟风创意。另一个类似的产品是2亿月活的Canva。

之前在腾讯的时候，听张小龙分享，微信做产品是引入一个原子能力，然后在整个微信生态内引发化学反应，比如视频号不是单纯的上下滑feeds，而是嵌入到朋友圈、微信群、公众号、电商，当一个视频被流转，价值就不断增厚。如果视频号只是在微信里加个入口，那么其实流量也不大。再比如微信搜索接入deepseek，不是简单的AI搜索，而是把用户的私有数据和微信生态数据服务都通过大模型调动起来，聊天记录、公众号、视频号、问一问、小程序、小绿书、听一听，这里的想象空间非常大。

与微信类似，剪映做原子能力，也是会在端内的模板生态和更大的抖音生态，引发创意的乘数效应。有些功能的渗透不高，但可以做出非常酷炫的内容，内容爆款对产品的活跃和增长是极大的，可以带来增量的规模。

一键化，模板化，是我过去2年工作的关键词。

23. 没有差异化，很难追上竞品，哪怕你有很多资源

过去有个误区，觉得大厂资源多，可以快速抄竞品，让竞品活不下去。一些AI创业公司的朋友，看到字节要做类似的产品，刚开始也很焦虑，但后面发现对他们的产品影响其实不大。这里有2个原因，一个是AI产品的大量在后端策略，而非前端交互，没那么容易抄和逆向；另一个是目前大模型跑通模式的更多在垂类，大厂没有那么多魄力All in。

在大厂做AI产品，更多还是围绕产品的主路径和生态优势做，构建长期的价值。比如数字人，从效果上我们很难超过heygen，在2B渠道也没有优势，但是我们把数字人的改口型Loopy能力下放到大众场景，成为一个有趣的玩法，宝宝唱歌、宠物唱歌，反倒快速实现了爆发，甚至有点轻松。

24. 模型首发能力，找到合适的场景，可以抵得过很多雕花

模型能力胜过产品雕花，应该是很多一线同学的超强共鸣。当模型能力迭代带来一个领先的新体验，给用户提供其他竞品没有的结果，只要找到合适的应用场景，就能快速爆发。这里的case，数不胜数，比如：