我要投稿

大语言模型名词扫盲

发布日期：2024-04-10 21:01:27 浏览次数： 2181 作者：深码洞悉

2024年，是时候学习些大语言模型的名词了，不然牛皮都吹不动了！

1. LLM: Large Language Mode，大语言模型。“语言模型”中的语言是指自然语言，就是“人话”，而不是Java, C#， go, Ruby。为什么称为“大”语言模型，哪里大了？都大，需要大量的预训练数据，需要大量的资源，不仅是GPU，还包括水、电、煤气，加班费等。总之，It's B...i...g（自行脑补昆汀在Jimmy show中的对话场景）

2. NLP: Natural Language Processing，自然语言处理。

3. AGI: 以前经常听到AI（人工智能），现在更多地称为AGI,Artifical General Intelligence，通用人工智能，意思是可以应用到任何领域。就像LLM不仅可能处理文本输入，也可以处理语音、图片。

4. Transform模型：目前比较火的LLM都是基于此模型开发的。知道是现在大火的LLM的基座模型即可。如果想学习更多，可以搜索《Attention is all your need》

5. ChatGpt: Chat是聊天，GPT代表Generative Pre-trained Transform，生成式预训练模型。

6. Pre-trained：预训练，顾名思义就是提前训练好的。常用的训练方式包括：

a) 监督学习：提前为各类数据做好分类、打上标签，然后用这种带有标签的数据来训练大语言模型。

b) 无监督学习：用不任何带有标签的数据作为机器学习的数据源，由机器自行理解、并掌握各个字、词之间的联系。

c) 强化学习：测试机器学习的结果，并对结果给出不同等级的评分。

预训练出的模型，一般不能用于对话，比如：你问它一句“世界上最美的女人是谁？”它可能回答你“世界上最高的山峰在哪？”；而能进行对话的模型，一般都需要微调。

7. Finetuning: 微调，它是为了让模型能更好地适应某些特定场合或领域而进行的二次训练。目前最常见的微调框架称为Lora。所谓的垂直大模型，其实就是使用特定领域的数据微调后得到模型。

8. Hallucination：你向LLM问一些它不知道，或者虚假的事实时（比如，你输入“请告诉我，鲁智深倒拔林妹妹，是发生在哪一年”），它也会一本正经地胡说八道，这种情况，专业术语叫幻觉，这可能是由于数据不完整，训练不充分等造成的。

9. Prompt：提示词，发送给LLM的请求；简单的一句话，也是一个提示词，但不是一种良好、有效的提示词，往往不能得到你满意的答案。一个优秀的提示词，一定要包含当前LLM的定位（比如，你现在是一名神棍、光着身子坐在天桥底下），并提供所问题的上、下文（如，你已经被依法取缔了多次，此时的你满身大汉，请问如何使用咒语逃出生天）！

10. token：大语言模型都是按token计费的，token并不是一个中文汉字也不是一个英文单词。一个汉字、单词可能会被拆分成多个token。在使用LLM时，所有的自然语言都会先被tokne化，然后才会进行预测。不同的语言，有不同的token API，不同的分词器，分出的token长度也会不同。

11.LangChain：大语言模型是不感知上下文的。每次提问其实都是单独地调用一次API。因此，每次的提问对它来说都是全新的，它不会记住你上次问了什么，除非你在本次提问时，同时把上次的提问和答案一并告诉它。而LangChain就是用来做API调用时保留上下文的。当然，它的能力不止如此！

未完待续。。。