AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


BERT和GPT的区别,以及GPT为什么可以回答问题而不仅是续写
发布日期:2024-08-27 07:38:53 浏览次数: 1624



今天主要介绍下BERT和GPT的区别,以及GPT为什么可以回答问题。

首先我们知道,NLP和LLM的核心逻辑是“猜概率”。

比如说,“我今天被我朋友xxxx”,经过大量的数据训练后,AI预测出现最高概率的词是“放鸽子了”,那么“放鸽子了”就会被填到这个空格中,从而输出——“我今天被我朋友放鸽子了”。(既然是概率,那每次结果可能是不一样的)

在目前“猜概率”逻辑下,有两个主流的两个方向,即BERT和GPT。本质上,他们都是基于Transformer架构进行的改进。

BERT和GPT的差别

BERT以其双向上下文感知能力在理解和提取答案方面表现出色,而GPT则利用其文本生成能力来生成流畅的答案。

相信很多人看不懂这句话,具体解释如下:

BERT是由Google在2018年提出的,它利用了Transformer架构来捕捉词与词之间的关系。BERT的一个显著特点是它的双向训练策略,即在训练时同时考虑上下文中的左侧和右侧信息

在BERT的预训练任务中,主要使用“填空题"的方式来完成预训练:即采用随机MASK的方式替换输入的一些文字,BERT要做的是根据上下文信息、句子中MASK前后文字预测什么被MASK了。比如“我今天被我朋友xxxx,我讨厌言而无信的人”。(什么是MASK:比如用一个特殊的符号替换句子中的一个词,或者把某一个字换成另一个字)

GPT是由OpenAI在2018年提出的,它通过预测下一个词来生成文本。GPT的训练方式是单向的,即仅考虑前面的词来预测下一个词

在GPT的预训练任务中,主要采用“续写”的方式来完成预训练:即模型接收一个句子序列作为输入,然后尝试预测序列中下一个词是什么。这种训练方式使得GPT能够学习到语言中的长距离依赖关系,并且生成连贯且语法正确的文本。例如,给定一个句子序列“我今天被我朋友放鸽子了,我讨厌”,GPT的任务是预测序列中下一个词。在训练过程中,模型会学习到根据前文信息来预测最合适的下一个词,可能是“言而无信”、“爽约”、“善良”、“丑”等。

所以,可以看到BERT更侧重于理解问题和文本的上下文关系,从而准确地定位或提取答案;而GPT则侧重于生成一个流畅且符合语法的答案,也就难免GPT会出现“幻觉”问题。

比如说在智能客服场景中,BERT可以做到根据用户的问题,从FAQ库中挑选并返回最合适的答案;而GPT可以做到在没有明确答案的情况下生成自然语言答案。

看到这里应该清楚BERT和GPT的区别,但还有一个问题:GPT只是预测下一个词,为什么他能“回答”而不是“续写”你的输入呢?GPT为什么可以Chat ?

这是“指令遵循数据集”的功劳。

指令遵循数据集是用于训练和评估模型的一种数据集,它包含了一系列的指令和对应的正确执行结果,用于训练模型理解自然语言指令并正确执行这些指令的能力。

大模型通过在海量文本数据上的预训练后,掌握了文字和词之间的复杂关系,从而能够以自然语言的方式准确预测接下来的词。这种预测能力从第一个词的输出就开始了。如何输出呢?它依据学习到的指令和模式,逐步构建出连贯且符合上下文的文本序列。以下是网上找到的“指令遵循数据集”例子:

{"instruction": "Rewrite the following sentence in the third person","input": "I am anxious","output": "She is anxious."}, {"instruction": "What are the three primary colors?","input": "","output": "The three primary colors are red, blue, and yellow."}

指令遵循数据集也有成千上万条,通常包含以下几个特点:

  • 指令清晰:数据集中的指令应该是清晰和明确的,以便模型能够容易理解。

  • 多样化:指令应该涵盖多种类型,比如请求信息、执行操作等。

  • 正确执行:对于每个指令,数据集都应提供正确的执行结果。

  • 上下文信息:有时候,执行指令需要一定的上下文信息,数据集也需要包含这些信息。

  • 错误示例:某些数据集可能还会包含错误执行的示例,用于训练模型识别和纠正错误。 


总之,GPT通过指令遵循数据集进行微调,学习如何根据给定的指令进行正确的反应。同时,它强大的语言理解和生成能力,以及经过大规模预训练和微调后的语言知识,使其能够根据问题的上下文生成恰当的回答。

以上。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询