微信扫码
添加专属顾问
我要投稿
今天主要介绍下BERT和GPT的区别,以及GPT为什么可以回答问题。
首先我们知道,NLP和LLM的核心逻辑是“猜概率”。
比如说,“我今天被我朋友xxxx”,经过大量的数据训练后,AI预测出现最高概率的词是“放鸽子了”,那么“放鸽子了”就会被填到这个空格中,从而输出——“我今天被我朋友放鸽子了”。(既然是概率,那每次结果可能是不一样的)
在目前“猜概率”逻辑下,有两个主流的两个方向,即BERT和GPT。本质上,他们都是基于Transformer架构进行的改进。
BERT和GPT的差别
BERT以其双向上下文感知能力在理解和提取答案方面表现出色,而GPT则利用其文本生成能力来生成流畅的答案。
相信很多人看不懂这句话,具体解释如下:
BERT是由Google在2018年提出的,它利用了Transformer架构来捕捉词与词之间的关系。BERT的一个显著特点是它的双向训练策略,即在训练时同时考虑上下文中的左侧和右侧信息。
在BERT的预训练任务中,主要使用“填空题"的方式来完成预训练:即采用随机MASK的方式替换输入的一些文字,BERT要做的是根据上下文信息、句子中MASK前后文字预测什么被MASK了。比如“我今天被我朋友xxxx,我讨厌言而无信的人”。(什么是MASK:比如用一个特殊的符号替换句子中的一个词,或者把某一个字换成另一个字)
GPT是由OpenAI在2018年提出的,它通过预测下一个词来生成文本。GPT的训练方式是单向的,即仅考虑前面的词来预测下一个词。
在GPT的预训练任务中,主要采用“续写”的方式来完成预训练:即模型接收一个句子序列作为输入,然后尝试预测序列中下一个词是什么。这种训练方式使得GPT能够学习到语言中的长距离依赖关系,并且生成连贯且语法正确的文本。例如,给定一个句子序列“我今天被我朋友放鸽子了,我讨厌”,GPT的任务是预测序列中下一个词。在训练过程中,模型会学习到根据前文信息来预测最合适的下一个词,可能是“言而无信”、“爽约”、“善良”、“丑”等。
所以,可以看到BERT更侧重于理解问题和文本的上下文关系,从而准确地定位或提取答案;而GPT则侧重于生成一个流畅且符合语法的答案,也就难免GPT会出现“幻觉”问题。
比如说在智能客服场景中,BERT可以做到根据用户的问题,从FAQ库中挑选并返回最合适的答案;而GPT可以做到在没有明确答案的情况下生成自然语言答案。
看到这里应该清楚BERT和GPT的区别,但还有一个问题:GPT只是预测下一个词,为什么他能“回答”而不是“续写”你的输入呢?GPT为什么可以Chat ?
这是“指令遵循数据集”的功劳。
指令遵循数据集是用于训练和评估模型的一种数据集,它包含了一系列的指令和对应的正确执行结果,用于训练模型理解自然语言指令并正确执行这些指令的能力。
大模型通过在海量文本数据上的预训练后,掌握了文字和词之间的复杂关系,从而能够以自然语言的方式准确预测接下来的词。这种预测能力从第一个词的输出就开始了。如何输出呢?它依据学习到的指令和模式,逐步构建出连贯且符合上下文的文本序列。以下是网上找到的“指令遵循数据集”例子:
{"instruction": "Rewrite the following sentence in the third person","input": "I am anxious","output": "She is anxious."}, {"instruction": "What are the three primary colors?","input": "","output": "The three primary colors are red, blue, and yellow."}
指令遵循数据集也有成千上万条,通常包含以下几个特点:
指令清晰:数据集中的指令应该是清晰和明确的,以便模型能够容易理解。
多样化:指令应该涵盖多种类型,比如请求信息、执行操作等。
正确执行:对于每个指令,数据集都应提供正确的执行结果。
上下文信息:有时候,执行指令需要一定的上下文信息,数据集也需要包含这些信息。
错误示例:某些数据集可能还会包含错误执行的示例,用于训练模型识别和纠正错误。
总之,GPT通过指令遵循数据集进行微调,学习如何根据给定的指令进行正确的反应。同时,它强大的语言理解和生成能力,以及经过大规模预训练和微调后的语言知识,使其能够根据问题的上下文生成恰当的回答。
以上。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-29
10万元跑满血版DeepSeek,这家公司掀了一体机市场的桌子|甲子光年
2025-04-29
谷歌大神首次揭秘Gemini预训练秘密:52页PPT干货,推理成本成最重要因素
2025-04-29
一文说清:什么是算法备案、大模型备案、大模型登记 2.0
2025-04-29
MCP:AI时代的“万能插座”,大厂竞逐的焦点
2025-04-29
打起来了!MCP VS A2A,谁才是Agent的未来事实标准?
2025-04-29
Google 的 A2A 与 MCP 该如何选择?还是两种都用?
2025-04-29
一站式AI应用开发平台 Firebase Studio
2025-04-29
精华好文!用LLM评估LLM,真的靠谱吗?技术上如何实现?
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-04-29
2025-04-29
2025-04-29
2025-04-28
2025-04-28
2025-04-28
2025-04-28
2025-04-28