我要投稿

想做专属智能体？先学文本及多模态提示词，然后......

发布日期：2024-07-13 04:17:48 浏览次数： 2652

作者：AIGC新知

微信搜一搜，关注“AIGC新知”

《The Prompt Report: A Systematic Survey of Prompting Techniques》这篇论文通过系统性的元分析，建立了一个包含33个专业术语和58种文本提示技术的分类法，探讨了多语言和多模态提示的应用，扩展了提示技术到代理的使用，并讨论了提示工程中的安全和对齐问题。

此外，通过基准测试和案例研究，展示了提示技术在实际问题中的应用效果，为理解和改进与生成式人工智能系统交互的方式提供了宝贵的资源和见解。

研究背景：基于 Transformer 的 LLMs模型依赖于用户提供输入“提示”，模型会根据该提示生成输出作为响应。

论文探讨的几方面

研究范围：提示技术目录、离散前缀提示、硬（离散）提示。

提示词是生成式 AI 模型的输入，用于指导内容输出，可以由文本、图像、声音、视频或其他媒体组成。

提示词通常通过提示词模板构建，它是一种包含一个或多个变量的函数，变量将被某些媒体（通常是文本）替代以创建提示词，将该提示词视为模板的实例。

将文章分类为积极的或消极的：{文章内容}

接下来介绍提示词包含的一些术语，讨论它们如何适应提示，如下图：

图：提示词术语词汇表

指令，许多提示通过指令或问题的形式明确其核心目的，这通常被称为“意图”。

示例，亦称为样本，用以引导其完成特定的任务。

为了满足特定的信息需求，设计以多种格式输出数据，包括但不限于 CSV 或 Markdown 格式。

样式指令是一种输出格式，从风格上修改输出。

角色定义了具有什么样的技能和属性，可以改进写作和文本风格。

通常需要在提示词中包含附加信息，有时被称为“上下文”。

基于文本提示词

SUMMER

提出了 58 种基于文本的提示技术的综合分类本体，分为 6 个主要类别。

夏

天

In - Context Learning (ICL)：

Few - Shot Prompting：研究如何选择示例以提高模型性能，包括示例数量、顺序、标签分布、质量、格式和相似性等设计决策。相关技术有K - Nearest Neighbor (KNN)、Vote - K、Self - Generated In - Context Learning (SG - ICL)、Prompt Mining等。
Zero - Shot：使用零示例的技术，包括Role Prompting（角色提示）、Style Prompting（风格提示）、Emotion Prompting（情感提示）、System 2 Attention (S2A)、SimToM、Rephrase and Respond (RaR)、Re - reading (RE2)、Self - Ask等，以创造更符合期望的输出。
Thought Generation：通过提示模型阐述推理过程来解决问题，如Chain - of - Thought (CoT) Prompting（包括Zero - Shot - CoT、Step - Back Prompting、Analogical Prompting、Thread - of - Thought (ThoT) Prompting、Tabular Chain - of - Thought (Tab - CoT)）、Few - Shot CoT、Contrastive CoT Prompting等技术，可显著提升模型在数学和推理任务中的性能。
Decomposition：将复杂问题分解为简单子问题的技术，如Least - to - Most Prompting、Decomposed Prompting (DECOMP)、Plan - and - Solve Prompting、Tree - of - Thought (ToT)等，有助于模型更好地解决问题。
Ensembling：使用多个提示来解决同一问题并聚合响应的技术，如Demonstration Ensembling (DENSE)、Mixture of Reasoning Experts (MoRE)、Max Mutual Information Method等，可减少模型输出的方差并提高准确性。
Self - Criticism：让模型批评自己的输出以改进答案的技术，如Self - Calibration、Self - Refine、Reversing Chain - of - Thought (RCoT)等，有助于提高模型的性能和可靠性。
Zero - Shot：与ICL中的Zero - Shot部分类似，包括一些不使用示例的技术，旨在通过特定的提示方式引导模型生成输出，如角色、风格、情感等方面的提示。
Thought Generation：重点是促使模型生成推理步骤的技术，如Chain - of - Thought (CoT) Prompting及其各种变体，通过让模型展示推理过程，提高其在解决问题和推理任务中的表现。
Decomposition：主要涉及将复杂问题分解为更简单子问题的方法，以便模型更有效地解决这些问题，相关技术如Least - to - Most Prompting等有助于模型逐步解决问题。
Ensembling：通过组合多个提示的响应来提高模型的性能和准确性，不同的技术如DENSE、MoRE等采用了不同的方式来实现这一目标。
Self - Criticism：关注模型对自己输出的自我评估和改进，通过各种技术如Self - Calibration、Self - Refine等，使模型能够识别和纠正错误，提高输出的质量。

多语言提示词

SUMMER

多语言提示词是在处理多语言任务时使用的一系列技术，旨在提高语言模型在非英语语言环境下的性能。

夏

天

论文中提到的7种多语言提示词技术如下：

Translate First Prompting（翻译先行提示）：将非英语输入示例先翻译成英语，使模型利用英语优势理解内容。翻译工具包括使用外部机器翻译系统、提示多语言语言模型或提示语言模型进行翻译。

Chain - of - Thought (CoT)扩展到多语言设置：

XLT (Cross - Lingual Thought) Prompting（跨语言思维提示）：利用包含六个单独指令的提示模板，包括角色分配、跨语言思维和CoT。
Cross - Lingual Self Consistent Prompting（跨语言自我一致提示）：引入集成技术，构建不同语言的推理路径来回答相同问题。

ICL扩展到多语言设置：

X - InSTA Prompting：探索三种不同的方法来对齐上下文示例与输入句子进行分类任务，包括使用语义相似的示例、具有相同标签的示例以及两者的结合。
In - CLT (Cross - lingual Transfer) Prompting：利用源语言和目标语言创建上下文示例，激发多语言语言模型的跨语言认知能力，提升跨语言任务性能。
In - Context Example Selection（上下文示例选择）：在多语言环境中，选择与源文本语义相似的上下文示例对多语言语言模型的性能有重要影响，同时使用语义不同（奇特）的示例也可能增强性能，在处理模糊句子时，选择具有多义词或罕见词意义的示例可能有助于提高性能。

Prompt Template Language Selection（提示模板语言选择）：在多语言提示中，用英语构建提示模板通常比使用任务语言更有效，因为英语数据在语言模型预训练中占主导地位，导致翻译错误在任务语言模板中可能会传播不正确的语法和语义，从而影响任务性能。然而，一些多语言提示基准如BUFFET或LongBench使用任务语言提示来满足特定语言使用场景的需求，并且不同的翻译方法和模板在不同任务和模型中的效果可能不同。

Prompting for Machine Translation（用于机器翻译的提示）：包括Multi - Aspect Prompting and Selection (MAPS)、Chain - of - Dictionary (CoD)、Dictionary - based Prompting for Machine Translation (DiPMT)、Decomposed Prompting for MT (DecoMT)等技术，用于辅助准确和细致的翻译。

Human - in - the - Loop（人机交互）：

Interactive - Chain - Prompting (ICP)（交互式链提示）：通过让语言模型生成关于输入短语中任何歧义的子问题，并由人类回答这些问题，然后将这些信息纳入生成最终翻译的过程中，以解决翻译中的潜在歧义。
Iterative Prompting（迭代提示）：先提示语言模型创建翻译草稿，然后通过自动化检索系统或直接人类反馈获得的监督信号来进一步完善草稿。

多模态提示词

SUMMER

多模态提示词是一种用于扩展语言模型应用范围的技术，它涵盖了图像、音频、视频等多种模态。

多模态提示词使语言模型能够处理和融合多种模态的信息，从而提升其在各种复杂任务中的表现和应用能力。

夏

天

论文中提到的4种多模态提示词技术如下：

Image Prompting（图像提示）：涵盖了与图像相关的多种任务，如图像生成、字幕生成、图像分类、图像编辑等。

常见的图像提示技术包括使用Prompt Modifiers（提示修饰符）来改变生成图像的效果，

以及Negative Prompting（负向提示）来数值化地调整模型对某些术语的重视程度，以避免生成不期望的内容。

Multimodal In - Context Learning（多模态上下文学习）：例如

Paired - Image Prompting（配对图像提示），展示两张图像（一张在变换前，一张在变换后），然后让模型对新图像进行相应的转换；
Image - as - Text Prompting（图像转文本提示）则生成图像的文本描述，以便将图像轻松纳入文本提示中。

Multimodal Chain - of - Thought（多模态思维链）：

Chain - of - Images（图像链），使用“Let’s think image by image”的提示让模型生成SVG图像，从而进行视觉推理；
Duty Distinct Chain - of - Thought (DDCoT)（职责分明的思维链）将Least - to - Most prompting扩展到多模态设置，创建子问题并解决它们以获得最终响应；
Multimodal Graph - of - Thought（多模态思维图）将Graph - of - Thought扩展到多模态，使用两步推理和回答过程。

Segmentation Prompting（分割提示）：可用于语义分割等任务，提示模型对图像或其他数据进行分割。

这些多模态提示词技术丰富了提示的形式和应用场景，使模型能够处理和结合多种模态的数据，从而拓展了其能力和应用范围。

提示词扩展-agent

SUMMER

提示词扩展（代理）是指在自然语言处理中，为了增强语言模型（LLM）的能力和功能，使其能够与外部系统进行交互并解决更复杂的任务，而采用的一系列技术。

夏

天

论文中提到的4种提示词扩展（代理）技术如下：

Tool Use Agents（工具使用代理）：这类代理是GenAI系统，能通过提示链与外部系统交互，以实现用户目标。

例如，MRKL System包含一个提供对多个工具访问的LLM路由器，可进行多次调用以获取信息并生成最终响应；Self - Correcting with Tool - Interactive Critiquing (CRITIC)先生成响应，然后使用工具进行验证或修正；Toolformer和Gorilla等也提出了类似的技术，涉及一些微调。

Code - Generation Agents（代码生成代理）：如Program - aided Language Model (PAL)将问题直接转化为代码，发送到Python解释器生成答案；Tool - Integrated Reasoning Agent (ToRA)则交错进行代码和推理步骤以解决问题；TaskWeaver能将用户请求转化为代码，并可利用用户定义的插件。

Observation - Based Agents（基于观察的代理）：一些代理通过接收观察信息插入提示来解决问题，如Reasoning and Acting (ReAct)生成思想、采取行动、接收观察并重复该过程，所有信息都插入提示中以形成记忆；Reflexion在ReAct基础上增加了自省层，通过评估成功或失败来生成反思，并将其添加到提示中作为工作记忆。

Retrieval Augmented Generation (RAG)（检索增强生成）：在GenAI代理中，RAG是一种范式，通过从外部源检索信息并将其插入提示来增强知识密集型任务的性能。

例如，Verify - and - Edit通过生成多个思维链并选择一些进行编辑，同时检索相关外部信息让LLM进行扩充；Demonstrate - Search - Predict先分解问题为子问题，然后使用查询解决并组合响应；Interleaved Retrieval guided by Chain - of - Thought (IRCoT)则交错使用CoT和检索来回答多跳问题；Iterative Retrieval Augmentation技术如Forward - Looking Active REtrieval augmented generation (FLARE)和Imitate, Retrieve, Paraphrase (IRP)通过多次检索和注入知识来改进长文本生成。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业