AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Macbook Pro M2max 96G 8T性能测试,跑通llama 70B,mistral 8x7B(4 位量化)
发布日期:2024-05-15 07:06:47 浏览次数: 2621 来源:博金斯的AI笔记


性能跑分

性能测试软件:
  • coconutbattery测试电池健康度

  • blackmagic disk test speed 测试硬盘读写速度,不同分辨率视频读写速度

  • cinebench测试GPU,单核、双核CPU

下图用blackmagic disk test speed 测试的读写速度,左图是M2Max,右图是M3max
M2max整体硬件读写速度分别是7667.8MB/s,5676.2MB/S。上传90G的文件也就1、2分钟
Blackmagic raw是16bit,占用空间更大,保存的画质细节更多;Prores 422hq是10bit;;H265体积更小,画质不高
M2max的prores 8k 60帧读写速度分别是512MB/S,378MB/S
disk speed test.png
下图是cinebench测试的我这台M2max的GPU、CPU数据 GPU:6054pts CPU多核1030pts CPU单核121pts

下图是网友测定M1max和M3pro的GPU,CPU性能
M1max,M3 pro.png

视频测试--达芬奇davinci studio

我这台M2max 96G,136G的视频素材一键拖入到达芬奇轨道,没有任何卡顿
136G.png
prores 422HQ编解码器60帧率,3840x2160 4k分辨率,单个片段渲染,1小时的136G素材16分钟渲染完
davinci
这个速度下,渲染开始2分钟,机器风扇就在响,2分钟电池消耗了4%,CPU负载从3%到12%,内存稳定到18G
开启达芬奇的硬件加速后,同样136G,1小时长的4K分辨率,60帧率的视频,渲染CPU负载是,GPU占了,总共分钟就渲染完
windows可以用cuda加速,让GPU、CPU充分利用,macos我搜了,目前还没有解决办法,内存和GPU在渲染过程中只占了15%左右,没把资源充分利用
跑 Final Cut Pro 会对 CPU 资源利用更充分

打开大文件测试

logseq 的4G的大文件--白板,屏幕的缩小和放大至少有1s的卡顿,不能做到流畅顺滑
4G的白板大文件.png
既然这样三方软件这么卡,准备把 logseq 删了,用苹果自带的无边记白板

大模型测试

根据下图选了 12B 左右的 Mixtral 8x7B和 LLama3 70B
llm leaderboard.jpeg

mistral 8x7B

先去下载 ollama MacOS版本,再在终端运行ollama run mixtral:8x7b
Available Commands:

  /set            Set session variables

  /show           Show model information

  /load <model>   Load a session or model

  /save <model>   Save your current session

  /clear          Clear session context

  /bye            Exit

  /?, /help       Help for a command

  /? shortcuts    Help for keyboard shortcuts

  

Use """ to begin a multi-line message.
运行下来,如图的对话回答,CPU 仍有 90%的空余,运行速度也 1,2s就回答了
ollama mixtral 8x7b
往前再走一步,可以ollama结合maxKB(docker部署)做本地知识库问答,不用像 FastGPT 需要自己准备向量模型,直接上传文档就行
docker run -d --name=maxkb -p 2000:8080 -v ~/.maxkb:/var/lib/postgresql/data 1panel/maxkb
我对 mixtral 回答质量一般,太简单了,跟之前测的 ChatGLM3-6B 差不多,所以删除ollama rm mixtral:8x7b , 试试 llama3 70B

llama3 70B

全精度llama2 7B最低显存要求:28GB
全精度llama2 13B最低显存要求:52GB
全精度llama2 70B最低显存要求:280GB
16精度llama2 7B预测最低显存要求: 14GB
16精度llama2 13B预测最低显存要求:26GB
16精度llama2 70B预测最低显存要求: 140GB
8精度llama2 7B预测最低显存要求:7GB
8精度llama2 13B预测最低显存要求:13GB
8精度lama2 70B预测最低显存要求: 70GB
4精度lama2 7B预测最低显存要求: 3.5GB
4精度lama2 13B预测最低显存要求: 6.5GB
4精度llama2 70B预测最低显存要求:35GB
因为我是在 ollama 上部署,ollama 大部分模型都进行了 4 bit 精度量化,测试的也是 4 精度量化后的 ollama 70Bollama run llama:70b
4 位量化后 ollama 70B 模型大小就 39G, qwen 72B 4 位量化后是 41G
在官网下载的 ollama 不用代理,直接就能下,就是找个网络好点的地方家,像我家里网速能达到 13MB/s,公司网络只有 1MB/s

回答内容要比 mixtral  8x7b丰富些,有格式有总结,让它列同义词也会附上例句,而不是像mixtral  8x7b 只会列几个词.运行速度也比网页版 chatGPT 快些,96G 内存,8 位量化的应该也没问题,这 40G 左右的CPU空闲都有 80%--90%,这个模型内容生成效果也不是太理想,还得直接下载原模型,这里用 ollama 主要是方便


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询