我要投稿

大模型知识入门

发布日期：2025-01-24 17:36:57 浏览次数： 1771 作者：飞哥数智谈

如果想要了解“当前火热的大模型到底能做什么”可以直接跳转“大模型的能力”章节。

什么是大模型

钢铁侠的贾维斯大家应该都有所耳闻，“大模型”其实就相当于一个简化版的“贾维斯”。或许，现在的他还不够科幻、不够全能，但无疑“贾维斯”的一些功能，“大模型”已经可以实现了。

名词解释

大模型

大模型是指具有大规模参数和复杂计算结构的机器学习模型。以GPT-4为例，参数约1.8万亿个参数，训练的数据集约13万亿个参数，使用了约25000个A100 GPU。

训练

两点确定一条线，三个点确定一个面，类似的，N个数据，可以确定一个很复杂的函数。这个确定函数的过程就是训练，训练出来的函数就是“大模型”。

Token

由于中文词语不定长的特性，大模型的训练是基于“token”进行的。“token”通常指的是文本中的一个词语或者一个标点符号，它是文本分析中的一个基本单位。比如：“今天天气真好。” 在进行分词（tokenization）之后，这句话会被分成以下tokens：[“今天”,“天气”,“真”,“好”,“。”]。

上下文

类似现实中聊天的语境、项目背景，如果缺少这部分信息，我们的理解、沟通就会很容易出现偏差。

微调

大模型是基于大量数据进行训练的通用模型，能处理很多事项，就像是一个师范专业毕业的老师，已经具备各科教学的通用能力。但如果我们希望这位老师能教授小学数学，就需要她针对小学数学专门备课，这个备课过程就是“微调”。

微调不是改变模型的核心智慧，而是调整他应用知识的方式，让他在小学数学这个特定领域表现得更加出色。

Agent（智能体）

如果大模型相当于人体的大脑，会理解、会推理，那agent就像人体的手、脚等器官，可以实际地去执行某些动作，或者协同完成某些复杂的事项。

大模型为何成为新晋网红

大模型其实并不能算是一个完全新颖的东西，这一概念最早可以追溯到1950年“人工智能”的提出，后续经历了“统计机器学习”-“神经网络”-“深度学习”-“大模型”多个阶段的发展，才形成目前我们所认识的“大模型”。在这个发展过程中，其实也已经诞生了很多落地的应用，比如：机器翻译、OCR识别等。

上图引自中国人工智能学会《中国人工智能系列白皮书 ——大模型技术（2023 版）》

这次大模型的爆火，其实是一系列因素共同作用的结果：

技术进步：人工智能方向长期的积累发展；计算机行业算力的整体提升，尤其是GPU的升级及大规模集群的出现。
社会变革：社会各行业数字化转型的沉淀；各类智慧应用的推广。
商业潜力：区块链、数字孪生等概念的增长已经到达了一定的峰值，需要一个新的热点引领风潮。
资本推动：风险投资和产业资本的大量涌入，进一步推动风口的形成。
认知影响：公众和媒体对于大模型所展示的“未来感”充满好奇和讨论，再一次扩大了影响面。

行业新动向

技术

谷歌Gemini：可同时识别文本、图像、音频、视频和代码五种类型信息；马斯克Grok：拥有3140 亿参数的模型开源。
阿里通义Qwen1.5-110B：1100亿参数的模型开源。
OpenAI文生视频模型Sora：能够根据文本描述，生成长达60秒的视频，其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。
生数科技联合清华大学发布的Vidu：国内对标Sora，是中国首个长时长、高一致性、高动态性的视频大模型，能够一键生成长达16秒、分辨率高达1080P的高清视频内容。

应用

“华为云盘古气象大模型”是首个精度超过传统数值预报方法的AI模型，速度相比传统数值预报提速10000倍以上。
“天工SkyMusic”是昆仑万维推出的AI音乐生成大模型，具备高质量音乐制作、逼真人声合成、精准歌词控制、多元风格适应及复杂歌唱技巧学习等五大特点。
“阿里巴巴EMO”能够捕捉到人类表情的细微差别和个体面部风格的多样性，从而生成高度逼真和富有表现力的动画。比如：“高启强”普法、蒙娜丽莎唱歌、马斯克跳科目三。

生态

百度千帆、阿里百炼、字节扣子等社区平台发布

通过智能体（Agent）扩展大模型能力、通过应用商店（Store）汇聚创意推动生态。
通过可视化工作流简化大模型应用发布过程。

政策

《国家新一代人工智能标准体系建设指南》
《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》
《关于支持建设新一代人工智能示范应用场景的通知》
《北京市促进通用人工智能创新发展的若干措施》
《上海市推动人工智能大模型创新发展若干措施（2023-2025年）》

资本

艾瑞咨询预测，2023年中国AIGC产业规模约为143亿元，并预计在2028年将达到7202亿元，到2030年有望突破万亿元。
2023年，人工智能领域新诞生了10家独角兽企业，其中AIGC及大模型相关企业占了近一半，包括智谱AI、百川智能、零一万物、Minimax 名之梦、月之暗面等。
OpenAI完成了103亿美元的B+轮融资，百川智能完成了3亿美元的A轮融资，月之暗面（Moonshot AI）完成了超过10亿美元的B轮融资。