微信扫码
与创始人交个朋友
我要投稿
点击上方蓝字关注我
大家都知道,想要跟上Prompt 技术的最新发展,光从网上看看新闻报道、解读文章是远远不够的。那些动辄给自己戴上"专家"、"大师"头衔到处蒙人的人,十个有九个连这张图里的东西都说不清楚。
上周,我发表了一篇介绍Prompt系统的调查研究报告。
重磅 | 最新最系统的Prompt调查,谁再打着提示词大师的旗号蒙你,把这篇甩给他
因为篇幅原因,有几张非常重要要的图片没有给大家仔细解释,结果发现文章有一堆抄袭的,关键是都抄不对重点,即便是翻译图片的英文也翻译不对。为了能让大家擦亮眼睛,特写此文章以正视听。
要说这篇报告中最有价值的部分,毫无疑问当属上面这三张图。你看,1000次以上引用的Few-Shot、Zero-Shot, Chain-of-Thought这些引用量最高的技术,可以说是 Prompting 领域的几大支柱。任何一个真正在做 Prompt 研究的人,不可能不了解
它们的来龙去脉。反过来说,如果有谁对这些技术一窍不通,却还在到处宣扬什么Prompt 秘籍、Prompt提升,那真是太让人笑掉大牙。放心,我这篇文章一出,不出所料,他又会给你一堆核心论文,或者再搞一个什么核心研读提升元认知,再搞个什么精品课程。。。
再看看这张模型使用的统计,GPT、BERT 高居榜首,用得最多,这不是废话吗?这些顶级的语言模型,性能好,能力强,当然是各种 Prompt 方法争相尝试的"香饽饽"。如果连这个都不懂,还指望玩转Prompt?
最后这张图就更要命了,CoQA、MMLU、HellaSwag……这些可都是 Prompt 领域的标准测试数据集。
这三张图中最重要的是这张每种prompt技术的具体引用数量。好吧,你如果不知道,为什么引用,让我来告诉你:
高引用量意味着这个prompt技术适用面广,跨任务、跨领域的泛化能力强,具备工业环境部署的实用性。什么 CoT Prompting、Selection-Inference 这些,看着就犀利。还有 Self-Consistency、Least-to-Most Prompting 等技术,都是在不同角度上增强了Prompt 的表现力和鲁棒性,让模型能更好地理解任务需求,给出高质量的响应。还有就是,引用多了,围绕这项技术的各种改进、优化、融合的尝试也就多了。学界有个著名的"马太效应",好的技术天然吸引更多目光,大家在它基础上做文章,反过来又进一步提升了它的引用量。这是个良性循环。引用量Top榜上的这些Prompt方法,可以说不仅代表了当下最实用的技术,也奠定了未来进一步创新的基础。
你研究一篇高引用论文至少应该这样整理
这些论文有37篇,用程序跑出来的中英文摘要近70000字。当然,你也可以用下文这些蓝色的关键字检索、检索、再检索,看到了吗?《The Prompt Report A Systematic Survey of Prompting Techniques》这篇报告的作者的对Few shot这篇原文的引用量是1000多一些(限定研究范围1565篇论文),实际上引用(Cited)是26975这个数字,可谓这是绝对技术,也就意味着你每次写Prompt写一些Few-Shot是大概率上正确的,原因在这里。
接下来,我将对上图的技术做些简要介绍,"纸上得来终觉浅,绝知此事要躬行"希望本文能抛砖引玉,让您获得“良知”。
37个 提示技术简要介绍 :
1. Few-Shot Learning:利用少量标注样本进行学习,减少了对大规模标注数据的依赖。这种方法通过对样本进行精心设计和选择,让模型能快速理解任务要求,在小样本上也能有不错的泛化能力。
2. Zero-Shot Reasoning:更进一步,在没有任何标注数据的情况下进行推理。通常借助大量无标注数据进行预训练,让模型学会通用的语言理解和推理能力,然后直接应用到下游任务中。这为开放域问答、知识图谱推理等任务带来了新的可能。
3. Good In-Context Examples:通过在提示中嵌入一些高质量的示例,让模型更好地理解任务需求。这些示例不仅告诉模型"what to do",还告诉它"how to do",从而引导模型生成更准确、更合理的响应。
4. Self-Consistency:通过对同一输入生成多个响应,然后比较它们的一致性,来提高输出的可靠性。这种方法能有效降低模型的hallucination,生成更稳定、更可信的结果。
5. Chain-of-Thought Prompting:引导模型进行逐步推理,将复杂问题分解为一系列简单、易解的小步骤。通过这种方式,即使是需要多轮推理的任务,模型也能有条不紊地给出答案,且推理过程清晰、易于解释。
6. Least-to-Most Prompting:先给出一个简单的提示,引导模型给出初步的响应;然后逐步增加提示的复杂度,引导模型不断细化、完善答案。这种渐进式的交互方式,能帮助模型更好地理解任务,给出更精准的结果。
7. Program of Thoughts:将推理过程表示为一个可执行的程序。通过将自然语言问题转化为程序,引导模型进行符号化推理,增强了推理的可解释性和可控性。
8. Prompt Retrieval:从大规模语料库中检索与当前任务最相关的提示,来帮助模型更好地理解任务。这种方法能自动找出高质量的示例,省去了人工设计提示的繁琐过程。
9. Automatic CoT:自动生成链式推理的提示,引导模型进行逐步推理。相比人工设计的CoT 提示,这种方法能根据具体问题动态生成推理步骤,适用性更广。
10. Self-Ask:模型自己提出一系列的澄清或引导性问题,然后逐步回答,最终得出结果。这种自问自答的过程,可以帮助模型更深入地理解问题,找出关键信息。
11. Tree of Thoughts:将复杂推理过程组织成一棵树状结构。通过对不同思路的探索和比较,找出最优的推理路径,得到最终答案。
12. Complexity-Based Prompting:根据问题的复杂度,动态调整提示的详细程度。对于简单问题,给出简洁的提示;对于难题,则给出更详尽的指导。这种自适应的提示策略,能提高模型的效率和准确率。
13. Decomposed Prompting:将复杂任务分解为多个子任务,对每个子任务分别进行提示。这种分而治之的策略,可以降低每个步骤的难度,最终实现对原任务的解决。
14. Maieutic Prompting:以苏格拉底问答的方式引导模型进行思考。通过一系列启发性的问题,激发模型的潜在知识,帮助它得出正确答案。这种方法在哲学、辩论等任务中特别有效。
15. Graph of Thoughts:用图结构来表示推理过程。图中的节点表示不同的观点或论据,边表示它们之间的逻辑关系。通过图上的推理,可以得出最终的结论。这种方法能增强模型推理的可解释性。
16. Plan-and-Solve Prompting:先引导模型生成解决问题的计划,再根据计划一步步执行。这种"思考->执行"的两阶段过程,可以提高问题求解的针对性和效率。
17. Faithful CoT:在生成链式推理时,引入额外的监督信号,确保每个推理步骤严格遵循逻辑规则。这可以帮助模型生成更合理、更可靠的推理过程。
18. Deductive Verification:对模型生成的推理过程进行演绎验证,确保其逻辑的合理性和一致性。通过形式化的逻辑检查,可以大大提高模型推理的准确性。
19. Cumulative Reasoning:在推理过程中,随时总结已有的中间结果,并将其反馈给后续的推理步骤。这种累积式的推理方式,可以帮助模型随时校准思路,不偏离正确方向。
20. Question Decomposition:将复杂问题自动分解为多个简单的子问题,然后对每个子问题进行回答,最后整合结果。这个过程可以通过语法分析、语义角色标注等技术自动完成,大大提高了处理复杂问题的能力。
21. Self-Generated ICL:模型根据当前任务,自动生成相关的上下文学习示例。相比人工设计的示例,这种自生成的示例往往更多样、更贴近任务本身,有助于提高上下文学习的效果。
22. Step-Aware Verification:在生成每一步推理的同时,实时进行验证,确保推理过程的正确性。一旦发现错误或不一致,就及时修正。这种实时监控和纠错机制,可以大大提高推理的准确率。
23. Support Examples:除了直接给出指导性的提示外,还提供一些支持性的例子,帮助模型更好地理解任务。这些例子可以是正例,展示"应该怎么做";也可以是负例,展示"不应该怎么做"。通过这种正反对比,模型可以学到更细致入微的任务要求。
24. kNN Prompting:利用最近邻算法,从历史数据中找出与当前任务最相似的k 个样本,并将它们作为提示。这种基于相似度的提示方式,可以提供更个性化、更有针对性的指导。
25. Unified Demo Retriever:构建一个统一的示例检索器,可以从不同来源(如手工设计、自动生成、检索等)中获取示例,并根据任务需求动态选择最合适的示例组合。这种混合式的示例选择策略,兼具了灵活性和多样性。
26. Tree-of-Thought:与 Tree of Thoughts 类似,也是用树状结构表示复杂的思维过程。不同之处在于,Tree-of-Thought 更强调对不同思路的探索和比较,找出最优解;而 Tree of Thoughts 更强调对推理过程的组织和管理。
27. Automate-CoT:将链式推理的生成过程进一步自动化。不仅可以自动生成每一步的推理内容,还可以自动决定推理的步数和顺序。这种全自动的推理生成,大大提高了CoT Prompting 的适用性和效率。
28. Chain-of-Verification:在链式推理的基础上,加入验证环节。对每一步推理的结果,都进行检验和确认,确保推理链条的可靠性。这种严格的逐步验证,可以有效防止误导或错误累积。
29. Demonstration Ensembling:将多个示例进行组合,形成一个更强大的"示例集成"。通过对不同示例的取长补短、优势互补,可以为模型提供更全面、更鲁棒的指导。
30. Memory-of-Thought:在推理过程中引入外部记忆模块,用于存储和管理重要的中间结果、先验知识等。这种增强的记忆能力,可以帮助模型处理更长、更复杂的推理任务。
31. Rephrase and Respond:模型先对用户的问题进行复述,以确保准确理解问题意图。然后再根据复述后的问题,给出回答。这个过程可以消除问题表述的歧义,提高回答的针对性。
32. Active Prompting:在提示过程中引入主动交互。模型可以根据当前的理解状态,主动向用户提出问题或要求澄清,以获取更多信息。这种双向交互,可以帮助模型更准确地把握用户需求。
33. LLMs as Optimizers:将大语言模型用作优化器,搜索最优的提示或任务解决方案。通过对语言空间的探索和优化,可以自动发现高质量的提示,或找到创新的问题求解策略。
34. Human-Level Prompting:生成与人类专家水平相当的提示。通过对专家提示的学习和模仿,模型可以生成更专业、更有洞察力的指导,为用户提供近乎人类专家的帮助。
35. Complexity-Based Prompting:根据问题的复杂度,动态调整提示的详细程度。对于简单问题,给出简洁的提示;对于难题,则给出更详尽的指导。这种自适应的提示策略,能提高模型的效率和准确率。
36. In-Context Learning Survey:对上下文学习进行全面调查和总结。系统梳理现有的ICL技术和应用,分析其优势和局限,并提出未来改进的方向。这项工作为后续的ICL研究提供了重要的参考和指引。
37. Selection-Inference Prompting:将提示过程分为两个阶段:选择和推理。首先从候选集中选出最相关的知识和示例,然后基于选中的信息进行推理,得出最终答案。这种分步骤的提示,可以提高知识利用的精准度和推理的有效性。
十一个重要的Prompt评测数据集
1. GSM8K (Grade School Math 8K):
- 包含8.5K多道小学数学应用题,题目来自真实的教材、考试和网络。
- 每道题都需要常识推理和多步解题,全面考察模型的数学推理能力。
- 被广泛用于评测Prompting模型在算术推理方面的性能,如Chain-of-Thought Prompting等。
2. MMLU (Massive Multitask Language Understanding):
- 一个庞大的多任务基准测试,涵盖57个学科,包括人文、社会科学、STEM等。
- 共有14K个多选题,每个学科有若干个子类别。题目取材于高中和大学课程。
- 全面评估模型在不同领域知识的掌握和运用能力,被视为语言模型通才能力的检验标准。
3. AQUA-RAT (Algebra Question Answering with Rationales):
- 包含约100K道代数问题,每道题都要求给出详细的解题步骤。
- 题目根据难度分为Easy、Medium、Hard三个等级,涵盖了代数的方方面面。
- 不仅考察模型的数学运算能力,更注重解题过程的逻辑性和可解释性。
4. TruthfulQA:
- 一个侧重事实准确性的问答数据集,包含多个不同领域的问题。
- 除了给出答案外,还需判断答案是否真实可信,以及给出可信度评分。
- 旨在评估模型对事实的判断力,以及面对误导、违规内容时的鲁棒性。
5. HellaSwag:
- 一个考察常识推理的数据集。给定一个场景描述,要求从多个候选中选出最合理的后续。
- 候选答案往往差异很subtle,需要模型深入理解语境,捕捉细微线索。
- 评测模型在日常场景下的推理判断能力,体现其常识知识的掌握。
6. QASC (Question Answering via Sentence Composition):
- 一个基于语义组合的问答数据集。每个问题都需要组合多个事实才能回答。
- 事实来自一个大规模的语料库,涉及多个领域。评测模型的多轮推理和知识整合能力。
- 被认为是一个很有挑战的数据集,对知识型问答系统的构建具有重要价值。
7. CommonsenseQA:
- 一个侧重常识推理的问答数据集。给定一个问题,要求从多个候选中选出最合理的答案。
- 问题涉及日常生活的方方面面,评测模型对世界知识的理解和运用。
- 被广泛用于评测模型在常识推理任务上的表现,如Promptless One-Shot learning等。
8. WinoGrande:
- 一个考察指代消歧的数据集。给定一个句子和一个代词,要求判断该代词指代的是哪个名词。
- 需要模型深入理解句子语义,利用常识知识进行推理判断。
- 评测模型在复杂语境下进行指代消歧的能力,对自然语言理解有重要意义。
9. BIG-bench (Beyond the Imitation Game Benchmark):
- 一个全面评估大语言模型能力的基准测试,包含150+个不同类型的任务。
- 任务涵盖阅读理解、常识推理、数学计算、创意生成等多个方面,难度不一。
- 被视为评判大模型综合能力的"体检表",在业界和学界都有广泛影响力。
10. BBH (Big Bench Hard):
- BIG-bench的一个子集,精选了其中最具挑战性的23个任务。
- 这些任务对大模型的推理、记忆、算法等能力提出了极高要求,堪称"模型杀手"。
- 常被用来评判不同大模型的真正实力,在Prompt优化研究中受到格外关注。
11. FLEX (Flexible Language Understanding Evaluation):
- 一个测试模型语言理解灵活性的数据集,囊括了多个不同领域和形式的任务。
- 任务类型包括分类、抽取、生成等,评判模型在不同场景下的适应能力。
- 填补了现有基准测试中"大杂烩式"综合评估的空白,在Prompt研究中有独特价值。
这些数据集从不同侧面对Prompt方法进行了全方位的考察。这些数据集为Prompt研究树立了标杆,其中既有对通用能力的评估,如MMLU、BIG-bench;也有对专项能力的检验,如GSM8K之于数学推理,HellaSwag之于常识判断;还有对鲁棒性的挑战,如TruthfulQA、BBH等。对这些数据集的深入理解,也能帮助我们认清Prompt方法的优势和局限。比如针对数学推理薄弱,可重点参考GSM8K、AQUA-RAT的结果;针对事实性判断不足,可着眼优化TruthfulQA的表现;而要突破极限,挑战自我,BBH则是不二之选。
在Prompt研究中经常使用的Model
GPT系列:
1. GPT-3:OpenAI开发的第三代语言预训练模型,1750亿参数,掀起了大语言模型的热潮。
2. GPT-4:GPT-3的升级版,参数量更大,性能更强,但具体细节尚未完全公开。
3. InstructGPT:在GPT-3的基础上进行指令微调,使其更好地适应指令型任务。
4. Codex:基于GPT-3的代码生成模型,经过在大量代码上的微调,擅长编程任务。
开源大语言模型:
1. BLOOM:BigScience开源的1760亿参数语言模型,多语种,在推理和生成任务上表现不俗。
2. BLOOMZ:BLOOM的升级版,在零样本学习等方面进行了优化。
3. OPT:Meta开源的1750亿参数模型,与GPT-3性能相当,且完全开放。
4. LLaMA:Meta开源的650亿参数模型,在开源大模型中性价比极高。
5. Codellama:在LLaMA的基础上专门用于代码生成任务的模型。
其他大语言模型:
1. Lambda:Anthropic公司的大语言模型,以安全性和对齐性著称。
2. PaLM:Google发布的5400亿参数模型,在推理和问答任务上表现出色。
3. LLaVA:一种通过视觉语义对齐训练的多模态模型,在图像理解任务上有独特优势。
4. CODEGEN:Salesforce的开源代码生成模型,规模达到160亿参数。
5. SynthIE:一种用于信息抽取的语言模型,通过合成数据进行训练。
BERT及其变体:
1. BERT:Google推出的预训练语言模型,以双向Transformer为基础,开创了NLP的新时代。
2. RoBERTa:BERT的改进版,通过优化训练目标和数据处理,在多个任务上取得更好性能。
3. BioBERT:在BERT的基础上用生物医学领域语料进行预训练,用于生物信息学任务。
4. FinBERT:类似BioBERT,但预训练语料来自金融领域,用于金融文本分析。
5. GatorTron:一种基于BERT的多任务学习框架,在自然语言推理等任务上表现优异。
生成式预训练模型:
1. BART:结合BERT和GPT优点的Seq2Seq模型,同时具备编码和生成能力。
2. FLAN:一种多任务指令微调方法,可有效提升语言模型在不同任务上的零样本学习能力。
视觉语言模型:
1. CLIP:OpenAI开发的跨模态模型,通过对齐图像和文本表征,实现零样本图像分类等任务。
2. BLIP-2:Salesforce的多模态模型,在视觉问答、图像描述等任务上表现优秀。
3. CoCoOp:一种协同提示的方法,通过图像-文本对比学习,提升视觉语言模型的泛化能力。
4. Flamingo:DeepMind的视觉语言模型,通过少样本学习,实现图像描述、视觉问答等。
5. Grounding DINO:一种通过语言监督增强视觉表征的方法,可用于物体检测等任务。
6. VLP:全称Vision-Language Pre-training,代表一类通过跨模态预训练来实现视觉语言理解的模型。
7. XMem:一种跨模态记忆网络,通过外部存储来增强视觉语言模型的长期记忆能力。
其他视觉模型:
1. Vision Transformer:将Transformer架构应用到计算机视觉,在图像分类等任务上取得突破性进展。
2. YOLOv5m:YOLO系列目标检测模型的最新版本,速度快精度高,适合实时场景。
3. CLIPSeg:一种结合CLIP和语义分割的方法,实现开放词汇的图像分割。
4. DreamFusion:Google提出的一种无监督3D感知方法,通过2D图像合成实现3D重建。
5. SAM:Meta开发的分割任意物体的模型,具有卓越的零样本分割能力。
以上就是这些模型的大致情况。这份Prompt研究所使用的模型主要分为三大类:大语言模型、多模态模型和视觉模型。
其中大语言模型是目前的研究重点,从GPT-3到各种开源模型,无不在竞相追逐更大规模、更强能力;多模态模型则是Prompt未来的一个重要方向,通过对齐不同模态的语义表征,实现更自然、更灵活的人机交互;而视觉模型虽然与Prompt结合相对较少,但也在CLIP、Grounding DINO等工作中显示出了巨大潜力。
这些模型大多基于Transformer架构,或对其进行了改进创新。Transformer强大的并行计算和长程依赖捕获能力,使其成为驱动大模型发展的核心引擎。从另一个侧面反映了Prompt研究所依赖的技术根基。
当然,模型只是故事的一半,数据和算法同样不可或缺。类似BioBERT、FinBERT这样的针对特定领域的预训练,正是数据和模型结合的典范;而FLAN、CoCoOp等Prompt优化方法的提出,则为通用大模型的适配应用开辟了新路径。
作为Prompt的研究者和实践者,我们要心怀敬畏和谦逊,认真学习这些先进的技术,深刻领会其中的精髓。所以啊,识货不能光看表面功夫,底下这些门道才是真功夫!你要是稍微对这些热门Prompt技术有所了解,自然就明白它们频频被引用的道理。某些自称专家的,怕是连个门都不知道在哪里,就跑出来现眼,希望这篇文章能帮大家擦亮眼睛。
作为Prompt开发者,咱还是要多读论文,多跟进顶会,扎实功底是关键。积累点真本事,才配谈创新,才能不负众望地推动Prompt技术持续进步!
<本文完结>
想把方法论转化为复杂提示词?Prompt心法与算法高级指南,帮你从知到行升维实践
第一性原理下的Prompt,助你跃升为大师的指导手册
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-08-13
2024-05-10
2024-05-28
2024-04-26
2024-04-12
2024-04-25
2024-05-06
2024-07-25
2024-05-14