微信扫码
添加专属顾问
我要投稿
深入理解AI语言模型的必修课,Karpathy带你洞悉AI的奥秘。 核心内容: 1. 大语言模型的预训练阶段解析 2. 后训练阶段如何使模型更符合人类需求 3. 提升模型准确性的关键技巧与实践
随着这轮deepseek大火,短视频各类话题不断,刷了几个月,听了各路大神讲解,一直没有形成整体的认知。直到发现了Open AI创始人之一,Andrej Karpathy大语言模型-3.5小时的课程,感谢大神,反复拜读,将完整笔记整理记录如下:
大语言模型如ChatGPT是怎么诞生的呢?
一、预训练阶段
让模型通过海量文本数据学习语言的基础规律,包括词汇、语法、语义关联等,形成通用的语言生成与理解能力。
1、全网抓取数据形成数据集
需要过滤掉广告、不良信息、种族歧视、成人网站等
2、tokenization分词化
原始数据格式都是html,转化为文本后,将文本分割为模型可处理的词元(Token),通过合并高频字符组合减少词表规模,每一个token是神经网络训练的基础单元。
3、训练神经网络
我们通过代码和数学表达式(万亿级输入到输出的固定数学表达式),构建了神经元,信息通过神经元流动,使我们可以根据已有词元(0-n个)预测下一个词元,直到我们得到预测。词元预测,即推理,初始时预测的概率随机,通过不断训练优化神经网络,调整参数,使得下一个适合词元的概率提高,最后将特定的参数权重固定下来,chatgpt就有一组特定的权重,效果很好。
demo:GTP2的复现过程
对每一个词元进行预测更新,每一行代码都是对神经网络的更新,每行都在改善训练集中所有词元的预测,我们可以通过关注损失函数观测训练的过程,100万词元,预计训练2天,训练的数据集质量越好,硬件设施更好,运行模型的软件更好优化,会使训练成本越低。
4、基础模型
实质是互联网文档模拟器,源代码(标准的)+参数(不标准的,真正价值所在),eg: GPT2 、LLMA3
与基础模型互动推荐网站:Hyperbolic
基础模型不是助手(assistant),如果你问问题,他只会根据训练集的统计数据自动补全,且系统是随机的,相同的词元总会得到不同 的答案。基础模型对整个数据集的内容进行有损压缩,类似于存储了对这个世界整体的模糊概念,这些信息并没有明确储存在任何参数中,它具体模糊性概率性和统计性,经常出现的内容容易被模型记住。
二、后训练阶段-监督协调
将LLM转化为助手,使输出符合人类需求
1、训练
通过创建对话数据集隐式编程,创建一个从未被训练的特色词元,LLM引入这个词元,使模型学习到,这是一轮对话的开始,最终通过某种编码,把对话都变成了一维的词元序列,继续完成推理
2、模型幻觉
LLM完全捏造信息
模型在模仿训练集,比如,x是谁,训练集都有自信、准确的答案,模型在尽量模仿采用这种风格的回答,可能就会编造,我们可以要求模型借助网络搜索,减少幻觉
3、更好的提示词
1)大模型的记忆类似于我们自己学习过的东西,但上下文窗口信息,类似于我们几分钟前正在经历、感知的东西,比如,直接让他总结某书文字的内容,不如直接贴这本书里具体内容给他,再给提示词
2)教模型更好的推理,并在词元之间扩展计算,模型是在一个从坐到右的一维序列中工作,每个词元的计算量有限,我们应该将推理和计算分布在多个词元。
Eg:案例,明显第一个训练集的答案更差。因为它把所有的计算量都先塞入了3这个词元。第二个是从左至右,创建中间步骤, 让模型逐步得到结论。
3)直接让模型计算等于我们的心算,学会让他使用工具,比如code
三、强化学习(RL)
大模型像我们上学一样,需要接受教育
1、强化学习
根据不同问题尝试多种不同种类的解决方案,每次尝试都是不同的路径,我们会鼓励那些正确的方式(不是靠人类,因为模型知道最终的正确答案,会自身发现哪种形式有效,它会发现正确答案甚至合适解决方案中其他好的特征,据此进行训练。一旦参数更新,模型会更倾向于选择这条路径,这个过程不是人类的标注,而且来自模型本身。
2、RL在推理或思考上超越人类的可能性?
学习微调的过程一般都是在各LLM公司内部进行,但deepseek公开讨论了RL以及它在大预言模型中的重要性,研究发现模型正在回溯、思考用更多词元试图解决问题,它正在做很多我们人类在解决数学问题过程中所做的事,它在重新发现发生在人类脑海中的事项,而不是你在解决方案案例中给它的示例。
模型学习了思维链!!incredible!模型正在发现思考的方法,如何处理一个问题,如何从不同角度看待它,如何引入类比或做一些不同的事以及如何随着时间推移尝试许多不同的东西。我们唯一需要给的是正确答案,模型视图解决他们的过程中产生了以上不可思议的变化,这是否意味着RL在推理或思考上超越人类的可能性?
3、特例:对于可验证领域的学习,解决方案都有唯一的正确答案,那对于诗歌、写作等这类不可验证领域,给不同的解决方案评分就变得很困难,此时我们需要引入模型奖励以及人类介入排序,在人工数据上不断更新奖励模型。
4、Thinking
RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习):
1)run RL➡️results in better model
2)allows people to contribute their supervision(监督)even without having to do extremely difficult tasks
1)运行的RL不基于人类和实际的人类判断,仅基于一个有损的人类模拟,或可能产生mislesding
2)RL很擅长欺骗模型,长期运行可能会产生对抗性例子,目前只能硬编码这类对抗性例子
So,目前比较好的方案,运行RLHF,模型变得更好,在这个阶节点就停止更新 ,不能对着干奖励模型进行过多的运行,因为优化开始利用它
四、总结及未来思考
1、Multimodal 多模态将迅速在单一模型内部完成应用,我们可以创建音频和图像的词元流,并交错使用
2、模型暂时没能力以连贯的方式修正错误尤其是long periods of time,我们将会看到更多long running agents
3、人类将成为更多代理人物的监督者(人机代理的比例)
4、Be pervasive and invisible(普遍的、隐形的)因为它将被整合到工具中并无处不在
5、这个领域需要更多的新思路(人的大脑可以不断学习,但模型训练的参数是固定的)
6、最新的AI咨询来源:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-31
MCP 重构 Agent 生态,深入探讨其现状与未来
2025-03-30
大模型领域常见的7个术语
2025-03-30
忘掉 Manus 吧,MCP 才是 AI Agent 的版本答案!
2025-03-30
Spring AI MCP:AI智能体与本地数据无缝集成详解来了!
2025-03-30
SGLang:比vLLM吞吐还要大5倍的推理引擎
2025-03-30
究竟什么是踏马的MCP?Cursor+MCP长期被低估,短期被高估!
2025-03-30
专利答复3天→3小时!AI神器Claude 3.7如何让审查员秒批你的申请?
2025-03-30
专利看不懂、筛选困难?Claude 3.7/DeepSeek让专利分析效率暴增10倍!
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-03-30
2025-03-30
2025-03-28
2025-03-27
2025-03-27
2025-03-27
2025-03-27
2025-03-26