我要投稿

Macbook Pro M2max 96G 8T性能测试，跑通llama 70B,mistral 8x7B(4 位量化)

发布日期：2024-05-15 07:06:47 浏览次数： 3238 作者：博金斯的AI笔记

性能跑分

性能测试软件：

coconutbattery测试电池健康度
blackmagic disk test speed 测试硬盘读写速度，不同分辨率视频读写速度
cinebench测试GPU，单核、双核CPU

下图用blackmagic disk test speed 测试的读写速度,左图是M2Max,右图是M3max

M2max整体硬件读写速度分别是7667.8MB/s，5676.2MB/S。上传90G的文件也就1、2分钟

Blackmagic raw是16bit,占用空间更大,保存的画质细节更多；Prores 422hq是10bit;;H265体积更小,画质不高

M2max的prores 8k 60帧读写速度分别是512MB/S，378MB/S

下图是cinebench测试的我这台M2max的GPU、CPU数据 GPU:6054pts CPU多核1030pts CPU单核121pts

下图是网友测定M1max和M3pro的GPU,CPU性能

视频测试--达芬奇davinci studio

我这台M2max 96G,136G的视频素材一键拖入到达芬奇轨道，没有任何卡顿

prores 422HQ编解码器60帧率，3840x2160 4k分辨率，单个片段渲染，1小时的136G素材16分钟渲染完

这个速度下，渲染开始2分钟，机器风扇就在响，2分钟电池消耗了4%，CPU负载从3%到12%，内存稳定到18G

开启达芬奇的硬件加速后，同样136G，1小时长的4K分辨率，60帧率的视频，渲染CPU负载是，GPU占了，总共分钟就渲染完

windows可以用cuda加速，让GPU、CPU充分利用，macos我搜了，目前还没有解决办法，内存和GPU在渲染过程中只占了15%左右，没把资源充分利用

跑 Final Cut Pro 会对 CPU 资源利用更充分

打开大文件测试

logseq 的4G的大文件--白板，屏幕的缩小和放大至少有1s的卡顿，不能做到流畅顺滑

既然这样三方软件这么卡,准备把 logseq 删了,用苹果自带的无边记白板

大模型测试

根据下图选了 12B 左右的 Mixtral 8x7B和 LLama3 70B

mistral 8x7B

先去下载 ollama MacOS版本,再在终端运行ollama run mixtral:8x7b

Available Commands:

  /set            Set session variables

  /show           Show model information

  /load <model>   Load a session or model

  /save <model>   Save your current session

  /clear          Clear session context

  /bye            Exit

  /?, /help       Help for a command

  /? shortcuts    Help for keyboard shortcuts

  

Use """ to begin a multi-line message.

运行下来,如图的对话回答,CPU 仍有 90%的空余,运行速度也 1,2s就回答了

往前再走一步,可以ollama结合maxKB(docker部署)做本地知识库问答,不用像 FastGPT 需要自己准备向量模型,直接上传文档就行

docker run -d --name=maxkb -p 2000:8080 -v ~/.maxkb:/var/lib/postgresql/data 1panel/maxkb

我对 mixtral 回答质量一般,太简单了,跟之前测的 ChatGLM3-6B 差不多,所以删除ollama rm mixtral:8x7b , 试试 llama3 70B

llama3 70B

全精度llama2 7B最低显存要求:28GB

全精度llama2 13B最低显存要求:52GB

全精度llama2 70B最低显存要求:280GB

16精度llama2 7B预测最低显存要求: 14GB

16精度llama2 13B预测最低显存要求:26GB

16精度llama2 70B预测最低显存要求: 140GB

8精度llama2 7B预测最低显存要求:7GB

8精度llama2 13B预测最低显存要求:13GB

8精度lama2 70B预测最低显存要求: 70GB

4精度lama2 7B预测最低显存要求: 3.5GB

4精度lama2 13B预测最低显存要求: 6.5GB

4精度llama2 70B预测最低显存要求:35GB

因为我是在 ollama 上部署,ollama 大部分模型都进行了 4 bit 精度量化,测试的也是 4 精度量化后的 ollama 70Bollama run llama:70b

4 位量化后 ollama 70B 模型大小就 39G, qwen 72B 4 位量化后是 41G

在官网下载的 ollama 不用代理,直接就能下,就是找个网络好点的地方家,像我家里网速能达到 13MB/s,公司网络只有 1MB/s

回答内容要比 mixtral 8x7b丰富些,有格式有总结,让它列同义词也会附上例句,而不是像mixtral 8x7b 只会列几个词.运行速度也比网页版 chatGPT 快些,96G 内存,8 位量化的应该也没问题,这 40G 左右的CPU空闲都有 80%--90%,这个模型内容生成效果也不是太理想,还得直接下载原模型,这里用 ollama 主要是方便