我要投稿

BERT和GPT的区别，以及GPT为什么可以回答问题而不仅是续写

发布日期：2024-08-27 07:38:53 浏览次数： 2307 作者：车三七的AGI世界

今天主要介绍下BERT和GPT的区别，以及GPT为什么可以回答问题。

首先我们知道，NLP和LLM的核心逻辑是“猜概率”。

比如说，“我今天被我朋友xxxx”，经过大量的数据训练后，AI预测出现最高概率的词是“放鸽子了”，那么“放鸽子了”就会被填到这个空格中，从而输出——“我今天被我朋友放鸽子了”。（既然是概率，那每次结果可能是不一样的）

在目前“猜概率”逻辑下，有两个主流的两个方向，即BERT和GPT。本质上，他们都是基于Transformer架构进行的改进。

BERT和GPT的差别

BERT以其双向上下文感知能力在理解和提取答案方面表现出色，而GPT则利用其文本生成能力来生成流畅的答案。

相信很多人看不懂这句话，具体解释如下：

BERT是由Google在2018年提出的，它利用了Transformer架构来捕捉词与词之间的关系。BERT的一个显著特点是它的双向训练策略，即在训练时同时考虑上下文中的左侧和右侧信息。

在BERT的预训练任务中，主要使用“填空题"的方式来完成预训练：即采用随机MASK的方式替换输入的一些文字，BERT要做的是根据上下文信息、句子中MASK前后文字预测什么被MASK了。比如“我今天被我朋友xxxx，我讨厌言而无信的人”。（什么是MASK：比如用一个特殊的符号替换句子中的一个词，或者把某一个字换成另一个字）

GPT是由OpenAI在2018年提出的，它通过预测下一个词来生成文本。GPT的训练方式是单向的，即仅考虑前面的词来预测下一个词。

在GPT的预训练任务中，主要采用“续写”的方式来完成预训练：即模型接收一个句子序列作为输入，然后尝试预测序列中下一个词是什么。这种训练方式使得GPT能够学习到语言中的长距离依赖关系，并且生成连贯且语法正确的文本。例如，给定一个句子序列“我今天被我朋友放鸽子了，我讨厌”，GPT的任务是预测序列中下一个词。在训练过程中，模型会学习到根据前文信息来预测最合适的下一个词，可能是“言而无信”、“爽约”、“善良”、“丑”等。

所以，可以看到BERT更侧重于理解问题和文本的上下文关系，从而准确地定位或提取答案；而GPT则侧重于生成一个流畅且符合语法的答案，也就难免GPT会出现“幻觉”问题。

比如说在智能客服场景中，BERT可以做到根据用户的问题，从FAQ库中挑选并返回最合适的答案；而GPT可以做到在没有明确答案的情况下生成自然语言答案。

看到这里应该清楚BERT和GPT的区别，但还有一个问题：GPT只是预测下一个词，为什么他能“回答”而不是“续写”你的输入呢？GPT为什么可以Chat ？

这是“指令遵循数据集”的功劳。

指令遵循数据集是用于训练和评估模型的一种数据集，它包含了一系列的指令和对应的正确执行结果，用于训练模型理解自然语言指令并正确执行这些指令的能力。

大模型通过在海量文本数据上的预训练后，掌握了文字和词之间的复杂关系，从而能够以自然语言的方式准确预测接下来的词。这种预测能力从第一个词的输出就开始了。如何输出呢？它依据学习到的指令和模式，逐步构建出连贯且符合上下文的文本序列。以下是网上找到的“指令遵循数据集”例子：

{"instruction": "Rewrite the following sentence in the third person","input": "I am anxious","output": "She is anxious."}, {"instruction": "What are the three primary colors?","input": "","output": "The three primary colors are red, blue, and yellow."}

指令遵循数据集也有成千上万条，通常包含以下几个特点：