微信扫码
添加专属顾问
我要投稿
探索人工智能语言模型的革命性进化,从Transformer架构到DeepSeek-R1的创新突破。核心内容:1. Transformer架构的诞生及其对自然语言处理的影响2. 从BERT、GPT到GPT-3的演变及面临的挑战3. DeepSeek-R1的开源设计和对AI领域的深远影响
2025年初,中国推出了具有开创性且高性价比的「大型语言模型」(Large Language Model — LLM)DeepSeek-R1,引发了AI的巨大变革。本文回顾了LLM的发展历程,起点是2017年革命性的Transformer架构,该架构通过「自注意力机制」(Self-Attention)彻底重塑了自然语言处理。
到2018年,BERT和GPT等模型崭露头角,显著提升了上下文理解和文本生成能力。2020年,拥有1750亿参数的GPT-3展示了卓越的「少样本」和「零样本」学习能力。然而,「幻觉」问题 — —即生成内容与事实不符,甚至出现「一本正经地胡说八道」的现象 — — 成为了一个关键挑战。2022年,OpenAI通过开发「对话式」的ChatGPT应对这一问题,采用了「监督微调」(SFT)和「基于人类反馈的强化学习」(RLHF)。到2023年,像GPT-4这样的「多模态模型」整合了文本、图像和音频处理能力,使LLM能够以更接近人类的「听」、「说」、「看」能力。
近期推出的OpenAI-o1和DeepSeek-R1「推理模型」(Reasoning Model)在复杂问题解决方面取得突破,赋予LLM更接近人类「系统2思维」的深度推理能力,标志着人工智能在模拟人类思维模式上迈出了重要一步。此外,DeepSeek-R1模型以其「超成本效益」和「开源」设计挑战了AI领域的传统规范,推动了先进LLL的普及,并促进了各行业的创新。
1. 什么是语言模型 (Language Models)?
「语言模型」是一种「人工智能系统」,旨在处理、理解和生成类似人类的语言。它们从大型数据集中学习模式和结构,使得能够产生连贯且上下文相关的文本,应用于翻译、摘要、聊天机器人和内容生成等领域。
「语言模型」(LMs)和「大型语言模型」(LLMs)这两个术语虽然经常被互换使用,但实际上它们基于规模、架构、训练数据和能力指代不同的概念。LLMs 是 LMs 的一个子集,其规模显著更大,通常包含数十亿个参数(例如,GPT-3 拥有 1750 亿个参数)。这种更大的规模使 LLMs 能够在广泛的任务中表现出卓越的性能。
“LLM”这一术语在 2018 至 2019 年间随着基于 Transformer 架构的模型(如 BERT 和 GPT-1)的出现开始受到关注。然而,在 2020 年 GPT-3 发布后,这个词才被广泛使用,展示了这些大规模模型的重大影响力和强大能力。
在数学上,LLM 是一个概率模型(Probabilistic Model),根据之前的输入文本预测下一个字 的概率分布。这可以表示为:
在文本生成任时,LLM通过解码算法(Decoding Algorithm)来确定下一个输出的字。
LLMs的自回归特性使其能够基于前文提供的上下文逐词生成文本。从「提示」(prompt)开始,如下图,模型通过迭代预测下一个词,直到生成完整的序列或达到预定的停止条件。为了生成对提示的完整回答,LLM通过将先前选择的标记添加到输入中进行迭代生成,尤如「文字接龙」游戏。
LLM的文本生成尤如「文字接龙」游戏。
这种生成能力推动了多种应用的发展,例如创意写作、对话式人工智能以及自动化客户支持系统。
2. Transformer革命 (2017)
Vaswani等人在2017年通过其开创性论文“Attention is All You Need”引入了Transformer架构,标志着NLP的一个分水岭时刻。它解决了早期模型如循环神经网络(RNNs)和长短期记忆网络(LSTMs)的关键限制,这些模型在长程依赖性和顺序处理方面存在困难。
这些问题使得使用RNN或LSTM实现有效的语言模型变得困难,因为它们计算效率低下且容易出现梯度消失等问题。另一方面,Transformers克服了这些障碍,彻底改变了这一领域,并为现代大型语言模型奠定了基础。
自注意力和Transformer架构
前馈网络(FFN)和层归一化(Layer Norm):每个Transformer层包括应用于每个标记的前馈网络,以及层归一化和残差连接。这些稳定了训练并支持更深的架构。
位置编码:由于Transformers本身不编码标记顺序,因此添加了位置编码(位置和频率的正弦函数)以表示词序,在不牺牲并行化的情况下保留顺序信息。
Transformer架构的引入为构建能够以前所未有的精确性和灵活性处理复杂任务的大规模高效语言模型奠定了基础。
3. 预训练Transformer模型时代 (2018–2020)
2017年Transformer架构的引入为NLP的新时代铺平了道路,其特点是预训练模型的兴起和对扩展的前所未有的关注。这一时期见证了两个有影响力的模型家族的出现:BERT和GPT,它们展示了大规模预训练和微调范式的强大功能。
BERT的关键创新包括:
BERT的影响:BERT的双向训练使其在GLUE(通用语言理解评估)和SQuAD(斯坦福问答数据集)等基准测试中取得了突破性的表现。它的成功证明了上下文嵌入的重要性 — — 这些表示根据周围词语动态变化 — — 并为新一代预训练模型铺平了道路。
GPT (2018)GPT的第一个版本于2018年发布,是一个大规模的Transformer模型,经过训练以预测序列中的下一个词,类似于传统语言模型。
GPT-2 (2019)在原版GPT的成功基础上,OpenAI发布了GPT-2,这是一个参数量达15亿的更大模型。GPT-2展示了令人印象深刻的零样本(Zero-shot)能力,意味着它可以在没有任何特定任务微调的情况下执行任务。例如,它可以生成连贯的文章、回答问题,甚至在语言之间翻译文本,尽管没有明确针对这些任务进行训练。
GPT-3 (2020)GPT-3的发布标志着语言模型规模扩展的一个转折点。凭借惊人的1750亿参数(175B parameters),GPT-3突破了大规模预训练的可能性界限。它展示了显著的少样本(Few-short)和零样本(Zero-short)学习能力,在推理时只需提供最少或无需示例即可执行任务。GPT-3的生成能力扩展到了创意写作、编程和复杂推理任务,展示了超大模型的潜力。
GPT模型的引入,特别是GPT-3,标志着AI的一个变革时代,展示了自回归架构和生成能力的强大功能。这些模型为内容创作、对话代理和自动推理等应用开辟了新的可能性,在广泛的任务中达到了接近人类的表现。GPT-3凭借其1750亿参数证明了规模的深远影响,表明在大规模数据集上训练的更大模型可以树立新的AI能力标杆。
语言建模性能随着模型大小、数据集大小和训练使用的计算量的增加而平稳提升。https://arxiv.org/pdf/2001.08361
在2018年至2020年间,该领域由对规模的不懈追求驱动。研究人员发现,随着模型规模的增长 — — 从数百万到数十亿参数 — — 它们在捕捉复杂模式和泛化到新任务方面变得更好。这种规模效应得到了三个关键因素的支持:
这个规模扩展的时代不仅提升了语言模型的性能,还为未来的AI突破奠定了基础,强调了规模、数据和计算在实现最先进结果中的重要性。
4. 后训练对齐:弥合AI与人类价值观之间的差距 (2021–2022)
GPT-3(一个拥有1750亿参数的LLM)生成几乎无法与人类写作区分的文本的能力引发了关于AI生成内容的真实性和可信度的重大担忧。
尽管这一成就标志着AI发展的一个重要里程碑,但也突显了确保这些模型与人类价值观、偏好和期望保持一致的关键挑战。一个主要问题是「幻觉」(Hallucination),即LLM生成与事实不符、无意义或与输入提示矛盾的内容,给人一种「一本正经地胡说八道」的印象。
为了解决这些挑战,2021年和2022年的研究人员专注于改善与人类意图的一致性并减少幻觉,导致了监督微调(SFT)和基于人类反馈的强化学习(RLHF)等技术的发展。
这些演示经过精心策划,以反映预期的行为和结果,确保模型学会生成准确且符合上下文的响应。
然而,SFT本身有局限性:
为了克服这些挑战,需要一种更具可扩展性和效率的方法,为下一步铺平了道路:基于人类反馈的强化学习(Reinforcement Learning from Human Feedback — RLHF)。
这个两阶段过程 — — 结合SFT和RLHF — — 使模型不仅能够准确遵循指令,还能适应新任务并持续改进。通过将人类反馈整合到训练循环中,RLHF显著增强了模型生成可靠、符合人类输出的能力,为AI对齐和性能设定了新标准。
ChatGPT基于GPT-3.5和InstructGPT,OpenAI于2022年11月推出了ChatGPT,这是一种突破性的对话式AI模型,专门为自然的多轮对话进行了微调。ChatGPT的关键改进包括:
ChatGPT的推出标志着AI的一个关键时刻,通常被称为「ChatGPT时刻」(ChatGPT moment),因为它展示了对话式AI改变人机交互的潜力。
5. 多模态模型:连接文本、图像及其他 (2023–2024)
在2023年至2024年间,像GPT-4V和GPT-4o这样的多模态大型语言模型(MLLMs)通过将文本、图像、音频和视频整合到统一系统中重新定义了AI。这些模型扩展了传统语言模型的能力,实现了更丰富的交互和更复杂的问题解决。
2023年,OpenAI推出了GPT-4V,将GPT-4的语言能力与先进的计算机视觉相结合。它可以解释图像、生成标题、回答视觉问题,并推断视觉中的上下文关系。其跨模态注意力机制允许文本和图像数据的无缝集成,使其在医疗保健(如分析医学图像)和教育(如互动学习工具)等领域具有价值。
到2024年初,GPT-4o通过整合音频和视频输入进一步推进了多模态。它在一个统一的表示空间中运行,可以转录音频、描述视频或将文本合成音频。实时交互和增强的创造力 — — 如生成多媒体内容 — — 使其成为娱乐和设计等行业的多功能工具。
现实世界的影响: MLLMs革新了医疗保健(诊断)、教育(互动学习)和创意产业(多媒体制作)等领域。它们处理多种模态的能力解锁了创新的新可能性。
6. 开源和开放权重模型 (2023–2024)
在2023年至2024年间,开源和开放权重AI模型获得了动力,使先进AI技术的访问民主化。
7. 推理模型:从「系统1」到「系统2」思维的转变 (2024)
2024年,AI开发开始强调增强「推理」(Reasoning),从简单的模式识别转向更逻辑化和结构化的思维过程。这一转变受到认知心理学双重过程理论的影响,区分了「系统1」(快速、直觉)和「系统2」(缓慢、分析)思维。虽然像GPT-3和GPT-4这样的早期模型在生成文本等「系统1」任务上表现出色,但在深度推理和问题解决方面却有所欠缺。
「系统1」与「系统2」思维
推理时间计算与能力
8. 成本高效的推理模型:DeepSeek-R1 (2025)
LLMs通常需要极其庞大的计算资源来进行训练和推理。像GPT-4o和OpenAI-o1这样的最先进LLM模型的闭源性质限制了对尖端AI的「普及化」。
DeepSeek-V3的发布引发了全球科技抛售,危及1万亿美元的市值,并导致英伟达股票盘前下跌13%。DeepSeek-V3的价格为每百万输出标记2.19美元,约为OpenAI类似模型成本的1/30。
DeepSeek 蒸馏DeepSeek模型
DeepSeek-R1在各种基准测试中表现出竞争力,包括数学、编码、常识和写作。根据使用模式,它相比OpenAI的o1模型等竞争对手提供了显著的成本节省,使用成本便宜20到50倍。
结论
从2017年Transformer架构的引入到2025年DeepSeek-R1的发展,大型语言模型(LLMs)的演变标志着人工智能领域的一个革命性篇章。LLMs的崛起由四个里程碑式的成就标示:
编辑:场长
原文参考:
https://medium.com/@lmpo/%E5%A4%A7%E5%9E%8B%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E7%AE%80%E5%8F%B2-%E4%BB%8Etransformer-2017-%E5%88%B0deepseek-r1-2025-cc54d658fb43
相关阅读:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-25
智能体互联网(Agentic Web)
2025-02-25
DeepSeek | 央企接入DeepSeek应用观察:“3T”特点、8大用途
2025-02-25
最新!Claude 3.7 Sonnet 即将揭秘:各种关键领域达到顶尖水平
2025-02-25
Claude 3.7 Sonnet深夜上线,AI编程的天又被捅破了。
2025-02-25
对谈张亚勤:我预演中的AGI地图
2025-02-25
DeepSeek与Grok3全面对比研究
2025-02-25
Claude的MCP(模型上下文协议):标准化AI与数据集成的开放协议
2025-02-25
Model Context Protocol (MCP): 在 AI 和你的世界中构建一座桥梁
2024-08-13
2024-06-13
2024-09-23
2024-08-21
2024-05-28
2024-08-04
2024-04-26
2024-07-31
2024-07-09
2024-09-17