微信扫码
与创始人交个朋友
我要投稿
大家好, 今天我们来挑战一下,能不能用2000块钱的电脑跑llama3-70B大模型。
年初的时候,我配置了一台不到2000块钱的AI主机。《花了不到2000元,撸了一台AI主机,本地部署大模型》
我们来看看这个主机配置。(后面升级了内存和硬盘,总计2000多一点)
配置 | 商品 | 价格 |
主板+CPU | 精粤X99-D3大板 +拆机至强E2666 V3 | 368 |
风扇 | 全新四铜管散热 | 33 |
内存 | 拆机三星服务器内存DDR3 32G * 2 | 170 |
硬盘 | 全新海康威视1T SSD NVME协议 | 378 |
电源 | 拆机台达750W电源 | 212 |
显卡 | 拆机NVIDIA TESLA P40 24G显存 | 824 |
显卡风扇 | 全新改装风扇 | 55 |
亮机显卡 | 拆机AMD HD3850 1G(带HDMI) | 42 |
机箱 | 全新随便挑的机箱 | 49 |
总计 | 2131 |
显卡用的是Tesla P40 24G显存的显卡,还有64G内存。
现在发现这张显卡已经涨了一倍了,而且全网断货。差不多配置的主机整机,卖到近3000块钱。
那我们今天来看看,这个主机能不能跑得起llama3-70b大模型。
我用的模型部署工具是ollama,我们可以在ollama官网上下载llama3:70b大模型。
这里我已经下载好了。
我们看看现在主机资源消耗。
还可以在cmd命令行里输入nvidia-smi,看看显卡的使用情况。
现在我们运行 ollama run llama3:70b,提问:who are you
真的是可以运行的,但是有点慢,大概每秒只能生成一个token。
看看这个时候的资源使用率,显存基本用满了,内存也用了30多G。
慢的原因是一方面是模型参数量比较大,本身的推理速度就会比较慢,另外由于显存不够用,把一部份参数放在内存里了,要用的时候呢,再把内存里的参数调出来,这里面要不断地传输交换数据。
据说mac电脑用的统一内存架构,内存显存全部共享容量。如果内存够的话,能够流畅地运行70b大模型。我没有这么高配的mac,如果有尝试成功的朋友,可以分享一下。
llama3-70b大模型,虽然在中文的表现上还不是很好,但是在数学、推理、代码生成等方面能力还是很不错的。
用70b模型微调后,用在代码生成、Agent规划、工具调用这些对中文理解要求不是特别高的场景非常适合。
现在国内很多云平台,已经推出了llama3的开发者环境,企业、开发者都可以很轻松地做微调。大家有什么想法,评论区交流。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-05-28
2024-04-12
2024-04-25
2024-05-14
2024-08-13
2024-07-18
2024-05-06