微信扫码
添加专属顾问
我要投稿
探索AI领域的核心力量,了解大模型对技术进步的深远影响。 核心内容: 1. 大模型的定义和起源,及其在自然语言处理中的应用 2. 自监督学习和无标注文本在大模型训练中的作用 3. 大模型的基本特点与涌现能力,及其对AI技术的影响
起源:大语言模型(Large language Models,LLMs),围绕自然语言处理任务而创建的一系列模型。
发展:基础模型(Foundation Models),可以处理多模态数据,不局限于自然语言。
下图粗略地概括了工人智能、机器学习、深度学习、大模型之间的关系。
定义1:是一种由包含数百亿以上参数的深度神经网络构建的语言模型,通常使用自监督学习方法,通过大量无标注文本进行训练。---出自书籍《大规模语言模型从理论到实践》
定义2:任意的在大规模数据上训练并且可以适配(例如微调)广泛下游任务的模型。---出自论文《On the Opportunities and Risks of Foundation Models》
自监督学习是一种机器学习范式,它不依赖人工标注的数据,而是通过数据自身提供的内在结构或隐藏信息来生成监督信号,从而进行模型训练。它可以被看作是一种特殊的无监督学习,因为它不需要人工标签,但它的训练方式类似于监督学习。
无标注文本(Unlabeled Text)指的是没有附加人工标注信息的文本数据,通常只是原始的自然语言数据,不包含类别标签、情感评分、实体标注等额外信息。
无标注文本在自然语言处理(NLP)任务中被广泛使用,尤其在自监督学习(Self-Supervised Learning)和无监督学习(Unsupervised Learning)中,它们用于预训练语言模型,帮助模型学习语言结构和语义信息,而无需人工标注数据。
1.大规模参数量,超过百亿参数规模的神经网络模型。
2.大规模训练数据,通过海量数据进行自监督预训练。
3.涌现能力,表现出了人类才会有的智能(上下文学习、思维链)。
4.多模态数据多领域适应性(通用人工智能,AGI,artificial general intelligence),经适当微调或提示,能应用于不同领域,且效果显著。
5.超长上下文感知,基于Transformers的注意力机制(Google的论文《Attention is All You Need》)保证其能充分理解信息,并做出合理推断。
6.不是搜索引擎,无法感知实时数据。(这个不足可以能过联网搜索来加以弥补,但不是大模型本身的推理能力即离开了互联网大模型将缺失这种能力)
1.模型同质化。当前大模型都是以Transformer为基础衍生而来的
2.大力出奇迹。参数规模与预训练语料量级是模型性能的关键影响因素。例如与GPT-2的15亿参数相比,GPT-3有1750亿个参数,从而在性能方面有关质的提升。
3.从开源走向闭源。某些模型根本不会对外发布或只对少数提供API访问权限(如openai的模型),甚至一些数据集(如GPT-2)也没有公开发布
4.头部垄断。由于数据资源与算力制约,中小型企业基本无法与头部科技公司竞争。
来自复旦大学张奇等人编写书籍《大规模语言模型从理论到实践》
让人们看到了通用人工智能乃至强人工智能的希望
➢ 功能极其强大,(ChatGPT)远超同期其他模型
➢ 可以完成跨领域、跨模态任务
在ChatGPT之前,还没有大模型能通过图灵测试。它不仅可以进行日常对话,还能够完成复杂任务,如撰写文章、回答问题等。令人惊讶的是,所有这些任务 都由一个模型完成。在许多任务上,ChatGPT的性能甚至超过了针对单一任务进行训练的有监督算法。这对于 人工智能领 域具有重大意义。
注:什么是图灵测试?
在对话框中提出你的需求即可,ChatGPT活跃用户数一个月内就破亿。
GPT是英文“Generative Pre-trained Transformer”的缩写,它的中文全称是生成式预训练变换器,是一种生成式模型。
模型输入:我们
模型输出:发明了一个新的和简单的模型
文本生成的过程本质就是单字接龙。
那么单字接龙为什么可以产生这么大的威力?
ChatGPT构建主要包含四个阶段:预训练、有监督微调、奖励建模、强化学习。这四个阶段都需要不同规模 数据集合 以及不同类型的 算法 ,会产出不同类型的 模型 ,同时所需要的 计算资源 也有非常大的差别。
通过上图,我们也较容易归纳出“人工智能发展的三大因素:数据(上图中的数据集合)、算法(上图中的算法)和算力(上图中的资源需求)”。上图中还有一个内容“模型”,它其实是数据集合与算法的产物。
上图中相关专业术语解释:
自监督预训练,英文全称”Unsupervised pre-training“
核心思路:利用前k个词(token)预测第k+1个词。
设有语料?={?1,…,??}
,其中 ??
表示语料中的第 i
个词(token)。
预训练的目标是最大化以下 对数似然函数 :
其中,P(ui∣ui−k,...,ui−1;θ)
表示在给定前 k
个词 ui−k,...,ui−1
的条件下,模型预测下一个词是 ui
的概率。?
表 示模型中的可变参数。
概括性地说,上述内容描述一种通过利用前 k
个词来预测下一个词的语言模型预训练方法,并通过最大化对数似然函数来优化模型参数。
海量训练数据包括互联网网页、维基百科、书籍、GitHub、论文、问答网站等,构建包含数千亿甚至数万亿单词 的具有多样性的内容。
基础大模型构建了 长文本建模能力 ,隐含的构建了包括 事实性知识 和 常识知识 在内的 世界知识 ,根据输入的提示 词(Prompt),模型可以 生成文本补全句子 。
有监督微调/指令微调。英文全称Supervised Fine-tuning / Instruction Tuning。
有监督微调(Supervised Fine-tuning,SFT)也称为指令微调(Instruction Tuning),在阶段一的模型上继续训练。 训练数据为高质量数据集合,包含用户输入的提示词(Prompt)和对应的理想输出结果。 用户输入包括问题、闲聊对话、任务指令等多种形式和任务。
提示词(Prompt):复旦大学有几个校区?
理想输出:复旦大学现有4个校区,分别是邯郸校区、新江湾校区、枫林校区和张江校区。其中邯郸校区是复旦大学的主校区,邯郸校区与新江湾校区都位于杨浦区,枫林校区位于徐汇区,张江校区位于浦东新区。
经过微调后的有监督微调(SFT)模型具备了初步的指令和上下文理解能力,能够完成开放领域问题、阅读理解、 翻译、生成代码等能力,也具备了一定的对未知任务的泛化能力。
奖励建模,英文全称”Reward Modeling“。
奖励建模(Reward Modeling)阶段的目标是构建一个文本质量评估模型。
奖励建模(Reward Modeling)用来对SFT模型的输出文本进行质量评估。
为训练得到奖励模型,须人工标注百万量级的样本库,奖励模型的训练过程独立于GPT模型。
奖励建模(Reward Modeling)阶段的目标是构建一个文本质量评估模型。
把同一个提示词多次传入SFT模型,会得到多个不同输出结果,奖励模型可以对这些结果的质量进行排序。
强化学习。英文全称是”Reinforcement Learning“。
强化学习(Reinforcement Learning)阶段是对指令微调(SFT)模型的进一步训练。
根据数十万用户给出的提示词,SFT模型生成相应输出,然后再利用奖励模型(RM)对这些输出进行质量评估。 结合评估结果再对SFT模型 进一步调整 ,最终得到ChatGPT。
在模型中被处理的数据单元并不是单词/词语,而是token。
token是文本处理过程中的基本单元,通常是指一个单词、标点符号或者是由空格分隔的文本片段。
token是大模型世界中的“单词”,所有文本都可以由token组合而来。
英文语料中1个token约有4个英文字母,100个token约等于75个单词的长度(平均起来大概5.3个英文字母对应一个英文单词)。
中文里1个token绝大部分情况对应1~2个字,1个字居多。
大模型的token字典一般跨语种,字典中token数量为十万量级。
token从海量语料中统计而来,有不同的统计方法,其一般由高频词和低频词的子词组成。
token要保留原始文本中单词间的语义关系。
尽可能避免出现未登录词(即不在训练数据中的词。英文全称Out-Of-Vocabulary,简称OOV),但字典又不能太大。
AIGC(Artificial Intelligence Generated Content)是指利用人工智能技术来生成全新的、逼真的、有用的数据,如 文本、图像、音频和视频等,可以在一定程度上模仿人类的创造力和写作风格。
在此之前的内容生成方式主要为:
Sora文生视频: https://www.bilibili.com/video/BV1m4421F7Yc/?spm_id_from=333.337.search-card.all.click&vd_source=0b5fe5d5aa31f64bf7462d1d094b70a2
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-21
Deep Research 类产品深度测评:下一个大模型产品跃迁点到来了吗?
2025-04-21
Anthropic 官方发布Claude Code 最佳实践
2025-04-21
从“大模型热”到“Agent 潮”,“真风口”还是“伪命题”?
2025-04-21
复盘字节扣子空间开发历程:瞄准工作场景,做一个 Agent 系统
2025-04-21
OpenAI 发布企业 AI 集成技术手册:从评估到自动化
2025-04-21
我所理解的大模型:语言的幻术
2025-04-21
字节 Trae 支持 MCP 了
2025-04-21
星火X1全新升级!首个全国产通用深度推理大模型
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-04-21
2025-04-21
2025-04-20
2025-04-18
2025-04-16
2025-04-13
2025-04-13
2025-04-13