我要投稿

Karpathy大神3小时课程，让我对Ai的认知，超越了99%的人，完整精华笔记整理！！

发布日期：2025-03-28 06:52:29 浏览次数： 1630 作者：逃离焦虑

随着这轮deepseek大火，短视频各类话题不断，刷了几个月，听了各路大神讲解，一直没有形成整体的认知。直到发现了Open AI创始人之一，Andrej Karpathy大语言模型-3.5小时的课程，感谢大神，反复拜读，将完整笔记整理记录如下：

大语言模型如ChatGPT是怎么诞生的呢？

一、预训练阶段

让模型通过海量文本数据学习语言的基础规律，包括词汇、语法、语义关联等，形成通用的语言生成与理解能力。

1、全网抓取数据形成数据集

需要过滤掉广告、不良信息、种族歧视、成人网站等

2、tokenization分词化

原始数据格式都是html，转化为文本后，将文本分割为模型可处理的词元（Token），通过合并高频字符组合减少词表规模，每一个token是神经网络训练的基础单元。

3、训练神经网络

我们通过代码和数学表达式（万亿级输入到输出的固定数学表达式），构建了神经元，信息通过神经元流动，使我们可以根据已有词元（0-n个）预测下一个词元，直到我们得到预测。词元预测，即推理，初始时预测的概率随机，通过不断训练优化神经网络，调整参数，使得下一个适合词元的概率提高，最后将特定的参数权重固定下来，chatgpt就有一组特定的权重，效果很好。

demo：GTP2的复现过程

对每一个词元进行预测更新，每一行代码都是对神经网络的更新，每行都在改善训练集中所有词元的预测，我们可以通过关注损失函数观测训练的过程，100万词元，预计训练2天，训练的数据集质量越好，硬件设施更好，运行模型的软件更好优化，会使训练成本越低。

4、基础模型

实质是互联网文档模拟器，源代码（标准的）+参数（不标准的，真正价值所在），eg： GPT2 、LLMA3

与基础模型互动推荐网站：Hyperbolic

基础模型不是助手（assistant），如果你问问题，他只会根据训练集的统计数据自动补全，且系统是随机的，相同的词元总会得到不同的答案。基础模型对整个数据集的内容进行有损压缩，类似于存储了对这个世界整体的模糊概念，这些信息并没有明确储存在任何参数中，它具体模糊性概率性和统计性，经常出现的内容容易被模型记住。

二、后训练阶段-监督协调

将LLM转化为助手，使输出符合人类需求

1、训练

通过创建对话数据集隐式编程，创建一个从未被训练的特色词元，LLM引入这个词元，使模型学习到，这是一轮对话的开始，最终通过某种编码，把对话都变成了一维的词元序列，继续完成推理

2、模型幻觉

LLM完全捏造信息

模型在模仿训练集，比如，x是谁，训练集都有自信、准确的答案，模型在尽量模仿采用这种风格的回答，可能就会编造,我们可以要求模型借助网络搜索，减少幻觉

3、更好的提示词

1）大模型的记忆类似于我们自己学习过的东西，但上下文窗口信息，类似于我们几分钟前正在经历、感知的东西，比如，直接让他总结某书文字的内容，不如直接贴这本书里具体内容给他，再给提示词

2）教模型更好的推理，并在词元之间扩展计算，模型是在一个从坐到右的一维序列中工作，每个词元的计算量有限，我们应该将推理和计算分布在多个词元。

Eg：案例，明显第一个训练集的答案更差。因为它把所有的计算量都先塞入了3这个词元。第二个是从左至右，创建中间步骤，让模型逐步得到结论。

3）直接让模型计算等于我们的心算，学会让他使用工具，比如code

三、强化学习（RL）

大模型像我们上学一样，需要接受教育

1、强化学习

根据不同问题尝试多种不同种类的解决方案，每次尝试都是不同的路径，我们会鼓励那些正确的方式（不是靠人类，因为模型知道最终的正确答案，会自身发现哪种形式有效，它会发现正确答案甚至合适解决方案中其他好的特征，据此进行训练。一旦参数更新，模型会更倾向于选择这条路径，这个过程不是人类的标注，而且来自模型本身。

2、RL在推理或思考上超越人类的可能性？

学习微调的过程一般都是在各LLM公司内部进行，但deepseek公开讨论了RL以及它在大预言模型中的重要性，研究发现模型正在回溯、思考用更多词元试图解决问题，它正在做很多我们人类在解决数学问题过程中所做的事，它在重新发现发生在人类脑海中的事项，而不是你在解决方案案例中给它的示例。

模型学习了思维链！！incredible！模型正在发现思考的方法，如何处理一个问题，如何从不同角度看待它，如何引入类比或做一些不同的事以及如何随着时间推移尝试许多不同的东西。我们唯一需要给的是正确答案，模型视图解决他们的过程中产生了以上不可思议的变化，这是否意味着RL在推理或思考上超越人类的可能性？

3、特例：对于可验证领域的学习，解决方案都有唯一的正确答案，那对于诗歌、写作等这类不可验证领域，给不同的解决方案评分就变得很困难，此时我们需要引入模型奖励以及人类介入排序，在人工数据上不断更新奖励模型。

4、Thinking

RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）：