我要投稿

学会区分大模型——大模型的分类，让你更清晰的认识大模型

发布日期：2024-08-13 12:35:27 浏览次数： 1946 作者：AI探索时代

“ 乱花渐欲迷人眼，学会从根本上认识问题”

现在市面上大模型如百花齐放，对很多人来说一堆大模型带来的不是简单方便，而是乱七八糟以及迷茫。

因为不知道不同的大模型之间有什么区别，也不知道自己需要什么样的大模型；就拿huggingface来说，上面的模型有几十万，有几个人能弄明白它们都是干什么的？‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

因此，我们首先需要学会的就是大模型的分类，对大模型分门别类之后就知道哪些大模型是做什么的，自己需要的是什么了。‍‍‍‍‍‍‍‍‍‍‍‍

—

大模型的分类

事实上直接说大模型并不是特别准确，大模型指的是具有庞大参数的机器学习或者深度学习模型。

根据模型的参数量可以分为大/中/小三种类型，不同的模型对资源要求不同，应用的场景也不同；比如一些小模型可能会安装到移动设备之上。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

按任务类型分类

根据任务类型，大模型可以分为生成式模型，判别式模型和混合模型。‍

生成式模型：这种模型主要用于生成内容，包括文本，图像，音视频等；典型的比如GPT模型。‍‍‍‍‍‍‍‍‍‍‍‍‍‍

判别式模型：判别式模型主要应用于分类，预测等任务；如图像分类，文本分类等；比如Bert模型。‍‍‍‍‍‍‍‍‍‍‍‍

混合模型：混合模型结合生成式和判别式模型的能力，能够在生成内容的同时进行分类或判别任务。‍‍‍‍‍‍

当然，这个按任务分类只是进行简单的分类，如果再细化还有更多的分类方式，比如情感分析等。‍‍

按数据模态分类

根据数据模态，大模型主要分为两类，一类是单模态模型，一类是多模态模型。‍‍‍

单模态模型：单模态就是仅支持一种模态数据的模型，比如支持文本或者图片等类型的模型；如ResNet处理图像，BERT模型处理文本。‍‍‍‍‍‍‍‍‍‍‍

多模态模型：能够同时处理多种类型的数据，如文本，图像，音视频等；如CLIP模型结合了文本和图像处理的功能。‍‍‍‍‍‍‍‍‍‍‍

按训练方法分类‍

按训练方法进行分类，主要有预训练模型，从零训练模型和迁移学习模型。‍‍‍‍‍‍‍‍‍

预训练模型：通常在大规模数据集上进行预训练，然后通过微调适应特定任务，如GPT，BERT等。‍‍‍‍‍‍‍‍‍

从零训练模型：从头开始训练的模型，通常在特定任务上训练，数据集要求较高。‍‍‍‍

迁移学习模型：迁移学习通常是指在一个任务中学习的知识迁移到另一个相关任务中；能够减少训练时间并提升性能。‍‍‍‍‍‍

按应用领域分类

按照应用领域分类，主要分为自然语言处理，计算机视觉模型，以及语音处理模型等。‍‍‍‍‍‍‍‍

自然语言处理模型：专门用于处理和理解人类的语言，如文本生成，翻译，情感分析等任务。

计算机视觉模型：用于处理和理解图像或视频数据，如图像分类，目标检测，图像生成等任务。‍‍‍‍‍

语音处理模型：用于处理语音信号，包括语音识别，合成，情感分析等任务。‍‍

基于自然语言处理的人工智能机器人：‍‍‍‍‍‍‍‍

按模型架构分类‍‍

按模型架构分类，主要分为transformer架构，卷积神经网络和循环神经网络以及长短期记忆网络。‍‍‍‍‍‍

transformer架构：transformer架构应该就不用多说了，大名鼎鼎的GPT就是基于Transformer架构，广泛应用于自然语言处理和多模态任务中。‍‍‍‍‍

卷积神经网络：主要应用于计算机视觉任务中。‍‍‍

循环神经网络和长短期记忆网络：传统上用于处理时间序列数据或语音处理任务。‍‍‍‍‍

当然，大模型的分类还有多种不同的形式，以上分类方式是目前比较主流的方式而已。比如说有应用于代码开发的代码生成模型，用于数据处理的数据分析模型等。

弄清楚模型的分类，有助于加深对模型的理解；比如说有人提到GPT，你就能知道它是一个基于Transformer架构的，能够进行自然语言处理与生成的预训练模型。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-22

阿里、蚂蚁、腾讯纷纷推出 AI 组件库，React / Vue 全覆盖，AI 组件库超全汇总来啦！

2025-04-22

白话解析 DPO：如何让 AI 直接学习人类偏好？

2025-04-22

我对2025年AI发展的几点预测

2025-04-21

独家｜百度上线“心响”App，平替版Mauns来了？

2025-04-21

Deep Research 类产品深度测评：下一个大模型产品跃迁点到来了吗？

2025-04-21

Anthropic 官方发布Claude Code 最佳实践

2025-04-21

从“大模型热”到“Agent 潮”，“真风口”还是“伪命题”？

2025-04-21

复盘字节扣子空间开发历程：瞄准工作场景，做一个 Agent 系统

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

白话解析 DPO：如何让 AI 直接学习人类偏好？

2025-04-22

独家｜百度上线“心响”App，平替版Mauns来了？

2025-04-21

Deep Research 类产品深度测评：下一个大模型产品跃迁点到来了吗？

2025-04-21

从“大模型热”到“Agent 潮”，“真风口”还是“伪命题”？

2025-04-21

OpenAI 官方定义：到底什么是 AI Agent？

2025-04-20

大概念模型（Large Concept Models）会取代提示工程吗？

2025-04-18

LLM中的Token和Embedding到底是啥？

2025-04-16

探秘 LLM Agents：ReAct 框架藏着哪些惊喜？

2025-04-13

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB