微信扫码
与创始人交个朋友
我要投稿
“ 从训练一个小模型开始,大模型太复杂小模型刚刚好 ”
有句老话叫眼高手低,最近发现有些人就是眼高手低的现实案例,在什么都不懂的情况下就想搞大模型,小模型还看不上。
但其实最好的方式是从一个小模型开始,至于原因就是因为小模型相对比较简单一点,其次就是硬件要求较低,普通人能够玩的转。
从小模型开始
为什么建议大家从小模型开始,特别是一些开源小模型?
之所以建议大家刚开始以小模型为主,原因就是因为从技术原理来说,大模型和小模型没有本质上的区别;只不过大模型和小模型由于量变导致的质变,大模型的复杂度与小模型不能同日而语。
而从学习和使用的角度来说,大模型和小模型最大的差距就是对算力的需求;虽然从效果上来说,小模型远不如大模型,但学习和使用小模型能够让我们快速地摸清大模型技术的脉络和主要框架。
最重要的是小模型有很强的实操性,因为其算力成本低,甚至可以在个人电脑上进行部署和运维,而且使用个人电脑也可以对它们进行训练和微调,这样就大大降低了我们的学习难度。
以个人的经历来说,在刚开始学习大模型技术的时候,也是和很多人一样,要学就学技术最牛逼的;但等真的把大模型技术应用到工作之后才发现,原来大模型技术也没有想象中的那么复杂,但也没有想象中的那么简单。
在之前,一直以为训练和微调一个大模型,至少也要几千万条数据;但在工作中使用到的一些小模型,只需要几百,甚至几十条数据就可以完成微调任务,而且效果还不错。
当然,这里并不是说自己有多厉害,而是这些开源模型的作者很厉害;经过它们精心微调过的模型,只需要经过简单的调整就可以适配到相似的业务体系中。
而如果继续用大模型的思路,去训练和微调一个大模型,说句实话有几个企业能够支撑的了你的需求?
不说大模型数据训练和微调所需要的资金,算力等问题,就大模型训练所需要的训练和微调数据的收集,就已经是一个很大的工程量了。
不知道大家有没有在抖音上看到过一个用四个月时间训练模型打蚊子的哥们,虽然并不知道他训练模型用了多大的数据量,但从他手动标注数据的情况下,他的数据量应该不是很大,而且他的操作好像都是在个人主机上完成的。
所以,训练和微调一个大模型很难,而且因为算力和资金的限制导致很多人无法进行真正的实操大模型;因此小模型是一个不错的选择,可以根据自己的喜好和需求,训练一个能够满足我们日常工作和生活的小模型其实也是一个挺不错的选择。
最重要的是只要我们发挥想象力,那它真的很好玩。
最近,因为工作原因导致比较忙,等后续有空闲时间,也准备自己训练和微调一个小模型来完成自己的喜好。到时候会全程分享需求,模型选择和训练的过程。
最重要的是,大模型技术的理论看了一大堆,可能很多地方依然不明不白,或者就是觉得自己都看懂了,实际上却什么都不懂;这时通过自己训练和微调模型,就能加深自己对大模型技术的体会与理解。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-11-08
Ollama 更新!手把手教你用Ollama轻松搭建Llama 3.2 Vision + 视觉RAG系统(本地安装)
2024-11-08
全参微调与LoRA的区别,及7种LoRA变种方法解析
2024-11-08
开发一款大模型需要经过哪些步骤?开发一款大模型的完整流程
2024-11-08
推算LLM训练的GPU内存需求
2024-11-07
GPT-4o加钱能变快!新功能7秒完成原先23秒的任务
2024-11-05
【导读】SELA:基于树搜索增强的LLM Agent用于自动化机器学习
2024-11-05
全参微调与LoRA的区别,及7种LoRA变种方法解析
2024-11-04
再也不用为写文档摘要发愁了!AI总结助手帮你实现
2024-07-11
2024-07-11
2024-07-09
2024-09-18
2024-06-11
2024-07-23
2024-07-20
2024-07-12
2024-07-23
2024-07-26