我要投稿

不要上来就大模型，从训练一个小模型开始

发布日期：2024-09-30 11:35:24 浏览次数： 2597

作者：AI探索时代

微信搜一搜，关注“AI探索时代”

“ 从训练一个小模型开始，大模型太复杂小模型刚刚好 ”

有句老话叫眼高手低，最近发现有些人就是眼高手低的现实案例，在什么都不懂的情况下就想搞大模型，小模型还看不上。

但其实最好的方式是从一个小模型开始，至于原因就是因为小模型相对比较简单一点，其次就是硬件要求较低，普通人能够玩的转。

从小模型开始

为什么建议大家从小模型开始，特别是一些开源小模型？

之所以建议大家刚开始以小模型为主，原因就是因为从技术原理来说，大模型和小模型没有本质上的区别；只不过大模型和小模型由于量变导致的质变，大模型的复杂度与小模型不能同日而语。

而从学习和使用的角度来说，大模型和小模型最大的差距就是对算力的需求；虽然从效果上来说，小模型远不如大模型，但学习和使用小模型能够让我们快速地摸清大模型技术的脉络和主要框架。

最重要的是小模型有很强的实操性，因为其算力成本低，甚至可以在个人电脑上进行部署和运维，而且使用个人电脑也可以对它们进行训练和微调，这样就大大降低了我们的学习难度。

以个人的经历来说，在刚开始学习大模型技术的时候，也是和很多人一样，要学就学技术最牛逼的；但等真的把大模型技术应用到工作之后才发现，原来大模型技术也没有想象中的那么复杂，但也没有想象中的那么简单。

在之前，一直以为训练和微调一个大模型，至少也要几千万条数据；但在工作中使用到的一些小模型，只需要几百，甚至几十条数据就可以完成微调任务，而且效果还不错。

当然，这里并不是说自己有多厉害，而是这些开源模型的作者很厉害；经过它们精心微调过的模型，只需要经过简单的调整就可以适配到相似的业务体系中。

而如果继续用大模型的思路，去训练和微调一个大模型，说句实话有几个企业能够支撑的了你的需求？

不说大模型数据训练和微调所需要的资金，算力等问题，就大模型训练所需要的训练和微调数据的收集，就已经是一个很大的工程量了。

不知道大家有没有在抖音上看到过一个用四个月时间训练模型打蚊子的哥们，虽然并不知道他训练模型用了多大的数据量，但从他手动标注数据的情况下，他的数据量应该不是很大，而且他的操作好像都是在个人主机上完成的。

所以，训练和微调一个大模型很难，而且因为算力和资金的限制导致很多人无法进行真正的实操大模型；因此小模型是一个不错的选择，可以根据自己的喜好和需求，训练一个能够满足我们日常工作和生活的小模型其实也是一个挺不错的选择。

最重要的是只要我们发挥想象力，那它真的很好玩。

最近，因为工作原因导致比较忙，等后续有空闲时间，也准备自己训练和微调一个小模型来完成自己的喜好。到时候会全程分享需求，模型选择和训练的过程。

最重要的是，大模型技术的理论看了一大堆，可能很多地方依然不明不白，或者就是觉得自己都看懂了，实际上却什么都不懂；这时通过自己训练和微调模型，就能加深自己对大模型技术的体会与理解。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-07-01

spaCy中文分句模型微调秘籍，从数据准备到模型评测，一学就会！

2025-06-26

深入理解大模型微调，LoRA超参数指南

2025-06-21

【大模型微调】5.调参经验总结与显存占用因素探究

2025-06-20

大模型微调，为什么99%的企业都不应该碰这个坑？

2025-06-17

手把手教你用LLaMA-Factory微调Qwen3大模型

2025-06-17

万不得已，不要对 LLM 进行微调？

2025-06-15

AI 彻底摆脱人类！Anthropic让模型自己微调自己，左脚踩右脚要上天……

2025-06-14

大模型微调(Fine-tuning)

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Qwen3小模型实测：从4B到30B，到底哪个能用MCP和Obsidian顺畅对话？

2025-04-30

LoRA 与QLoRA区别

2025-04-19

AI王炸：MCP服务端客户端的完整实现

2025-04-16

2025 AI驱动研发工具对比丨独立测评

2025-04-16

MCP vs Function Calling，该如何选？

2025-04-20

DeepSeek V3 0526更新？实测代码能力已经提升，附实测案例。

2025-05-26

国内企业应用AI大模型赋能软件测试的落地实践案例

2025-04-20

低延迟小智AI服务端搭建-ASR篇（续）：CPU可跑

2025-04-19

Gemini 2.5 Pro与Claude 3.7 Sonnet编程性能对比

2025-04-06

Ollama环境变量配置全攻略：从基础设置到场景化调优

2025-05-07

大家都在问

大模型微调，为什么99%的企业都不应该碰这个坑？

2025-06-20

万不得已，不要对 LLM 进行微调？

2025-06-17

可以将任何符合OpenAPI规范的接口转 MCP Server吗？

2025-05-21

OpenAI发布GPT-4.1系列模型，对行业最大吸引力是什么？

2025-05-17

私有部署大模型需要多少显存？

2025-05-14

软件公司如何为AI的下半场做准备？

2025-05-10

LoRA为何成为大模型微调不可或缺的核心技术？

2025-05-07

为什么AI多轮对话总是那么傻？

2025-05-07

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB