我要投稿

关于提示词的认知更新—2025

发布日期：2025-02-26 05:32:52 浏览次数： 1860 作者：AllaboutAI

提示词不需要了？

Deepseek R1发布之后我们看到很多文章都在提出所谓的“提示词不存在了”，我们跟大模型的交互被进一步的降低了门槛，从Deepseek app和下载和日活的一路飙升的结果确实也间接验证了，特别是DS在中文写作上的能力更加加速了这个出圈的效应，可以想想如果只有数学和编程上的领先肯定到不了这种程度，claude就是典型的例子，同时这也是一个产品通过模型能力实现跨越式增长的典范了，只要证明了产品和模型的飞轮有一部分还是生效的，模型能力上能有多出0.5左右的体验（当然也必须是大众能直接感知到的场景）升级，可能就已经可以弥补产品、市场营销上的各种不足了。

同时这里也有一个很有意思的点，Deepseek其实发的这个模型核心是在侧重推理能力，但是开出了中文创作上的花，可能也间接说明了通往AGI的道理上不需要太在意我们需要去适配哪些场景，只需要把智能程度拉满就可以了，反观有些号称针对XXX场景做的专属模型可能效果并没有那么好，以及这次通过Deepseek对小模型进行蒸馏的效果，更加说明了一个通用的足够智能的大模型的重要性

但是这些具体现象和结果的背后，我们需要进一步的去看看提示词这个事情到底发生了什么变化，是降低了门槛不假，但是是完全不需要了吗？或者更加广义一点，我们和模型的交互重点到底应该是什么？比较之前的文章中也有提到，提示词是我们与模型的唯一交互的方式，这个形式是值得我们持续关注和思考的

提示词的发展

提示词的发展可以说是跟大模型的发展相辅相成的，模型持续迭代进化的同时我们也可以看到提示词的持续地变化，透过这个变化可能可以更好的帮助我们找到这个事情的本质

时间	具体模型	提示词的变化和表现
2022年底	chatGPT刚发布的时候	刚发布的时候，大家发现直接通过自然语言就可以与AI对话，特别是相较于以前的chatbot，不仅能理解我们的需求，还可以结合上下文来理解和对话，提示词基本就是自然语言，直接提出需求
2023年~2024年初	各种大模型产品持续发布	各种提示词的框架层出不穷，或者我们叫公式也行。大家发现通过一些固定的格式可以获得模型更好的效果。也是这个阶段大家提出了提示词的门槛，甚至提示词是可以进行交易的
2024年年中	Claude 3.5	基于xml或者编程语言来编写提示词的方式开始盛行，这个阶段大家发现大模型对于编程语言的理解更加精准，所以相关的提示词的效果也被广泛传播。这个阶段的提示词可以让大众感觉提示词的门槛越来越高了
2025年初	DeepSeek R1	R1的发布直接并且无限量的使用，特别是把思考过程都放出来大家突然发现好像也不需要写那么复杂的提示词就可以获得一个好的回答，提示词的需求好像又回到了原点

提示词的核心

我们回顾提示词的发展过程，找到每个不同的阶段的好的提示词来分析一下，会发现其实好的提示词的本质是一直没有变化的，不管是结构化的提提示词还是R1简化的提示词

? 提示词的核心 = 认知（思考方式，how）+信息（上下文，What）

认知/思考方式/how

之前有个关于AI使用的认知就是需要把模型能力结合所谓的行业know how，大家发现大模型是可以理解自然语言，但是好像思考不太行，就是大家说的“快思考”，所以我们需要通过提示词加上慢思考来实现更好的效果
这个how其实就是指的怎么做一个事情，很多结构化提示词里面workflow的部分就是所谓的how
本质在于告诉模型具体的步骤，怎么更好地完成当前的任务，以及模型的指令跟随能力也是大家关注的一个重点能力
R1回答时的思考过程其实就是how，我来给你直接生成一个，这个过程是基于你的原始需求我思考出来的，这个推理的能力就是当前推理模型的最大的差异
当然这个时候也存在一个问题，不知道大家有没有关注到，有时候我们问R1问题最后给你的结果你的感受是，非常好但是好像不是我要的，如果我们去回看对应的思考过程就会发现，模型自己思考的how可能跟我们想要的不一样，特别是我们自己对于这个任务期望怎么做有明确的路径时，这种情况会更加容易出现
这个时候就其实也引发了一个思考，我们为什么觉得R1的回答更好，因为可能很多情况下大模型自己思考的how已经能超过我自己的认知了，我们不需要去提供对应的方法了。但是同时我们也会需要去思考自己提出的how真的就比大模型自己推理出来的更好吗？所以在用Deepseek的时候，非常推荐大家去仔细看看思考过程，这个价值有时候可能比回答本身更加重要
所以R1降低提示词的门槛本质是，提示词里面关于how的部分现在不是那么重要了，推理模型可以自己去思考所谓的how，而且大部分时候是比用户自己思考的更加全面的

信息/上下文/What

随着how的部分进一步的降低门槛，what变得更加重要了，因为变成了唯一的核心，甚至how可能都需要基于what来推理和生成
上下文变得更加重要了，包括大家看到各种R1使用技巧里面提到的：你是谁？你在哪？你想要干什么？当前的具体场景是什么？你的具体目标是什么等等？
无疑这个发展的趋势和方向进一步强化了AI产品的核心是解决更加无感的获取、存储和管理用户的上下文的能力，这部分的能力决定了产品的最终体验

稍微发散一些思考：

我们知道有些只可意会，不可言传的知识和经验一直是靠所谓的师徒制度来传承的，这部分的认知应该怎么传承呢？这些可能就是之前大家提到的一些总结不了的行业know how

一个小小的暴论，跟AI无关，其实这些知识和经验的价值可能不在所谓的know how，说的直白一点就是可能how其实很简单，但是难的部分是告诉你了你也做不到。

难的是执行，是融会贯通，是形成潜意识和思考。怎么做可能并不是什么秘密，怎么知行合一地做到才是关键，比如大家喜欢问的“怎么赚100W？（这个问题感觉可以荣登人类与模型提问最多的问题）”，其实这个答案可能并不在AI那里，或者其实你在哪都可以找到所谓的答案，答案一直都在，只是你一直都在视而不见，你一直在看、在思考、在想，但是永远没有实际的动作。生活可能也是如此，一切都在我们眼前，只是我们习惯了视而不见而已

推理+执行

Deepclaude：这个开源项目火起来了，其实就是充分的发挥了当前效果最好的推理模型和指令跟随模型来实现1+1大于2的效果

推理用R1，当前最好的推理模型，解决具体推理过程和怎么做的问题
把怎么做给到当前最好的指令跟随模型claude 3.5（没错，这个模型的指令跟随能力非常好，也是在后训练过程中做了特殊处理的）
当前可以预见的是，大概率后续新的模型会把这两种能力整合到一起，毕竟用户不需要知道哪个模型的某个能力更好，就像之前的MoE一样，对于用户都是黑盒子，只需要体验到整体使用的感受
当然R1当前的指令跟随其实也是不错的，所以如果你是有自己特定的know how的需求，也是可以在提示词里面说明。不过模型的few-short能力有点问题，所以举例子的提示词技巧就需要慎用了
这个模型整合的趋势应该已经是比较清晰了，就像OpenAI之前就提到过可能会把O系列和GPT系列做整合，包括最近发布的Deep Research就有点类似的味道
同时也补充一个小的技巧，使用R1（客户端产品）的使用，单次对话的效果更好，甚至你不借助这个框架，把R1的思考过程手动复制到其他大模型里面去使用也可以获得还不错的效果。但是R1的多轮对话的效果可能就没有那么好了，主要的原因是为了上下文的长度，多轮对话的时候其实是只带了最近一轮你的思考过程的，缺少前面的思考过程会导致多轮对话时候的割裂感，模型缺少对于完整上下文的获取，导致效果可能没有那么好。解决方案其实也很简单，你可以自己接入API的时候，把每一次的思考都带入上下文，不过就是会带来token的爆炸增长，以及能支持的对话轮数也会减少。

幻觉问题

最后聊一下幻觉问题，这可能也是大众对于出圈的大模型最容易出现的误区了，特别是有些新的模型发布之后被各种专业人士推荐的时候，大众用户用了之后发现有幻觉问题，就觉得其实没什么大不了的，或者一直在计较一下幻觉带来的问题觉得模型是不可用的

首先幻觉是这一轮大模型底层技术带来的最根本的问题，只有最底层的一直是基于概率的持续预测，那幻觉就会一直存在，只是我们可以通过各种手段去减少幻觉，但是没办法完全没有幻觉，甚至有些人还会直接认为幻觉是大模型的一种特性，不是一个bug，更加说明了幻觉的底层特性
其次幻觉的控制和模型推理能力是两码事，甚至更所谓的模型的综合能力也不是一码事，幻觉控制可能只能算是其中一个维度，可能还不是那么重要的维度，所以我们看到不断地有各种新的模型出现，不要单纯以为大模型就不会胡说了，这不是一个维度的事情。当前从理论上来说，模型能力变强，幻觉控制能力是大概率会变好的，但是还是之前提到的，只是减少，不会消失
最后，虽然我们说幻觉是一直存在的，但是不代表我们可以无视它，特别是在模型能力越来越强的时候，我们对于AI输出的内容会越来越难判断的。比如OpenAI的Deep Research，一些测评都要提到很强还是也不够稳定，这个不够稳定里面就有幻觉问题带来的影响，你想想假如在一个你不是太专业和熟悉的领域，AI十分钟给你搞了一个超过万字的分析报告，有模有样，你能很好的判断的里面哪里可能是有问题的吗？这个难度明显是增加了的

R1只是起点

虽然上一篇文章中已经强调了R1重要的不是模型本身，虽然模型已经带着产品非常出圈了，核心是新的思路和方向，同时开源的方式也会加速这个新方向的高速发展，所以我们对于AGI的未来确实也会越来越乐观

以及一些专业人员的视角下，可能R1-Zero的意义更大，包括当前大模型做的很多为了人类自然语言的理解做的对齐微调，可能都是在某个维度限制模型的智能程度，是在“迁就”人类的理解水平

按照NLP领域对语言的理解，人类的自然语言并不是最完美的推理语言。在R1-Zero的进一步进化过程中，或许可以构建出更适合推理的混合语言IR，建立更高效的推演体系。

同时对于这些能力可能已经远超人类的模型的持续优化，怎么更好地协作和使用，也带来了新的挑战

关于Deepseek的各种自媒体的文章和解读已经非常多了，但是还是非常推荐大家从本质出发，去看看那篇他们发布的技术文档，里面藏着非常多的细节，以及这篇文章，这篇百科性质的文章基本把技术文档用更加通俗的语言重新解读了一遍，也非常推荐。

文章中关于应用场景的一些解读也非常值得关注，比如已经提到的被大家发现非常亮眼的问答和写作，同时关于文档分析与上下文的理解感觉也是可以尝试的，有两个比较典型的场景

搜索+推理：这个官方和秘塔AI已经给出样例了，效果确实不错
稍微衍生一下，是不是RAG里面我们用R1也可以获得更好的效果呢？这部分暂时还没有看到太多的应用出现，相信后面也会有一些案例，比较R1是开源的，还发了一些蒸馏的模型，对于私有化的RAG有非常好的适配性，这部分其实也是可是期待的

能局限我们的只能是我们自己了

最后回到我们的主题，在模型能力持续进化的同时，我们与AI的交互和协作上能最大的瓶颈可能只有我们自己了

自己的认知边界能不能持续的扩展，能去探索那些自己可能都不知道自己不知道的问题和领域？
自己提供的信息量和上下文够不够？能不能有意识的收集和提供更多的场景、事实、目标、数据和背景信息来驱动模型给出更好的答案
自己能不能放下ego，获得更加全面的视角，接受自己的局限性，承认自己的局限性，最后打破自己的局限性

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业