支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


提示词(prompt)那些事

发布日期:2025-04-15 14:31:00 浏览次数: 1556 作者:堆栈future
推荐语

探索人工智能语言模型的提示词技术,解锁高效沟通与创作的秘密。

核心内容:
1. 提示词的定义及其在大模型中的应用
2. 深入解析提示词工程和token化处理
3. 大模型LLMs的原理及其与提示词的互动关系

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

知是行之始,行是知之成。 ——王阳明

1.总纲

2. 按照步骤讲解

1、什么是提示词(prompt)

提示词是一段文字指令,用来引导大模型(如ChatGPT)理解需求。

2、什么是提示词工程

提示词工程是通过设计、优化输入指令(Prompt),引导大语言模型(LLM)生成更符合预期输出的技术。其核心在于:

  • 控制输出:通过结构化指令减少模型的随机性。
  • 激发能力:解锁模型在特定任务(如推理、创作、分析)中的潜在表现。
  • 对齐意图:将人类需求转化为模型可理解的表达。

3、什么是token

在自然语言处理(NLP)中,token 是模型处理文本的最小单位。

1.token化

  • 将输入文本拆分为模型可理解的离散单元(如单词、子词、符号)
  • 例如:句子 "ChatGPT is powerful!" 可能被拆分为 ["Chat", "G", "PT", " is", " powerful", "!"](具体分词方式取决于模型的分词器)。

2.token意义

  • 模型通过 Token 的序列理解上下文关系,并基于概率预测下一个 Token

3. token限制

  • 模型对输入和输出的 Token 总数有上限(如 GPT-4 支持 8k/32k/128k Tokens)。
  • Token 数量直接影响模型的计算量和 API 调用费用
  • 每个 Token 承载的语义信息不同(如标点符号 vs 专业术语)。

4、token与提示词关系

1. 提示词是 Token 的序列

  • 提示词会被分词器(Tokenizer)转换为 Token 序列,模型基于这些 Token 生成输出
  • 例如:提示词 “写一首关于秋天的五言绝句” → Token 序列 [写, 一首, 关于, 秋天, 的, 五言, 绝句]。

2. token 数量决定模型的“视野”

上下文窗口

模型能处理的 Token 总数限制(如 4096 Tokens),超出部分会被截断。提示词越长,占用 Token 越多,留给输出的 Token 越少。

位置敏感

模型对 Token 的位置编码敏感,关键指令应靠前放置(避免被截断)。

注意力权重

自注意力机制中,不同 Token 的权重不同。示例:在提示词中重复关键 Token(如“代码、Python、高效”)可强化模型关注点。

5、什么是LLMs

1. 什么是大模型LLM

大模型是指参数量巨大(通常达到数十亿甚至数千亿)的语言模型,它们基于深度学习技术(尤其是Transformer架构),能够理解和生成人类语言。

典型代表:OpenAI的GPT系列(如GPT-3、GPT-4)、Google的PaLM、Meta的LLaMA、Anthropic的Claude等。

2. Transformer架构

  • 自注意力机制使模型能够捕捉Token之间的长距离依赖关系
  • Transformer的并行计算能力使其能够高效处理大规模数据

3. 大规模预训练

  • 大模型通过大规模无监督学习进行预训练(生成下一个token)

4. 参数规模

  • 大模型的参数量通常在数十亿到数千亿之间

例如,GPT-3有1750亿参数,更大的参数量意味着模型能够存储更多的知识

5. 上下文窗口

  • 大模型能够处理长文本序列,上下文窗口(Context Window)决定了模型能够同时处理的Token数量

例如,GPT-4的上下文窗口扩展到32K Token。 长上下文窗口使模型能够更好地理解复杂的任务和长文档

6. 微调与对齐

  • 预训练后,大模型可以通过微调(Fine-tuning)或对齐(Alignment)适应特定任务或人类偏好
  • 微调:在特定数据集上进行有监督学习,优化模型性能
  • 对齐:通过人类反馈强化学习(RLHF),使模型输出更符合人类价值观

6、从prompt到输出经历哪些步骤

  • 1、用户输入指令(prompt)
  • 2、指令预处理

文本清洗:去除乱码/敏感词

  • 3、向量编码

分词:将句子拆解为token(如"深度学"+"习"):向量化:每个token转为n维数学向量;位置编码:标记词语顺序

  • 4、LLM计算

注意力机制: 1、找出关键词(类似人类阅读时高亮重点) 2、知识检索:激活相关记忆区块(如问「量子计算」则加载物理知识树) 3、逻辑推理:执行if-then判断(如检测到"对比"指令则启动比较模块)

  • 5、内容生成层

文本解码:将数学向量转回文字

  • 6、结果优化层

格式美化:自动添加Markdown

  • 7、交付响应层

交互设计:添加操作按钮(如"精炼答案"/"展开案例")

7、提示词工程技术

很强的提示词文档:https://www.promptingguide.ai/zh/techniques/cot

8、注意

1、‌提示词本身无记忆

每次输入都是独立事件

2、会话级短期记忆‌

连续对话时自动保留上下文(最长约4000字)

3、长期记忆需定制‌

通过「记忆库+向量检索」实现(需开发接口)

3. prompt实战总结

后期会出相关提示词与大模型工程的开发,敬请期待。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询