AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


M4 Mac mini作为轻量级AI服务器,太香了!

发布日期:2024-12-29 16:50:59 浏览次数: 6398 来源:newtype AI


我宣布,M4 Mac mini就是我个人的年度最佳数码产品。真的,太香了!

我这台24G内存加512G SSD的机子是在闲鱼上下单的。店家跑澳门帮我代购,然后顺丰寄到北京。全部加起来,7千块。我对比了一下国行官网的价格,发现居然便宜了500块。

也就是说,如果买国行,花更多钱,还买的是“阉割版”。这是什么道理?我真的不明白。

拿到Mac mini之后,我安装的第一个软件是Ollama,然后下载Qwen 2.5。因为我一直想实现这样一个场景:

一台足够给力、又足够冷静的机子作为轻量级AI服务器,跑本地大模型,然后供给给局域网内的所有设备使用,比如手机。

为什么不用现成的产品,非要自己跑?

说实话,不管是Claude还是ChatGPT,我这一年用下来还是挺闹心的。不是产品的问题,而是某些不可抗拒因素。你们懂的。

为什么不用PC跑,非要用Mac mini?

之前我一直用这台PC跑大模型。但是那个功耗和噪音,我真的不敢一直开着。虽然理性告诉我,消耗不了多少,但心里就是不踏实。

于是,M4版Mac mini终于实现我的设想。

现在只要我在家里,掏出手机就能用上本地大模型。不知道为什么,我发现这种Self-hosting的方式有一种莫名的快感。跟用别人的服务完全不一样的体验。

在外边其实也可以连接家里的Mac mini,用我之前介绍过的ngrok就行,做个内网穿透。不过这么搞的话,速度就慢下来了,还是算了。

哈喽大家好,欢迎来到我的频道。谦虚地说,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经有600多位小伙伴付费加入啦!

回到今天的主题:在M4 Mac mini上运行大模型。

我准备在春节之前做一次升级,目标是彻底解决日常使用AI的问题。习惯有个AI助手随时讨论之后,真的就离不开了。就好比现在不让你上网、不让你用手机一样。用M4 Mac mini作为轻量级的服务器跑大模型,算是我第一个尝试。

我们先来做个简单的测试,看看这台24G统一内存的机子能跑什么尺寸的大模型。标准很简单,就是每秒能吐出多少个Token。

测试工具用的是Ollama。把Verbose打开,就能看到运行的速度。

模型方面,我下了7b、14b两个尺寸,包括Q4和Q8两种精度,一共4个模型。32b就不用想了,肯定跑不了,都不用测。

在Q4精度下,7b的生成速度大概在每秒20个Token的样子,特别流畅丝滑。而14b大概是10个Token的水平。

我自己的直观感受是,10的速度基本是能接受的底线,再低肯定不行。到20的话,就算流畅。

我们再来看Q8的速度。在这个精度下,7b速度降到了大概每秒13个Token的水平。而14b就更低了。

所以,综合来看,M4芯片加24G统一内存,我个人选择是:

如果需要跟AI来回讨论,那就跑Q4精度、14b的模型。它的速度我能接受,而且答案的完整程度明显比7b更好。我试过让它挂着跑半小时以上,基本就是温热的程度,比较让我放心。

如果不用讨论,就是快问快答,那我会切到Q4精度、7b的模型。

OK,模型选定了,但是还没完——Ollama还需要做一些设置。

在初始状态下,如果闲置五分钟的话,Ollama就会自动把模型都释放了。这意味着,如果我们突然有了需求、需要对话的话,又得等Ollama加载模型——这个就很不爽了,对吧?

所以,我们要做的第一个设置是,把OLLAMA_KEEP_ALIVE设为-1。这样一来,它就不会自动释放内存,才能达到随时响应的目的。

第二个是关于网络的设置。这个是我问Cursor学来的。

在初始状态下,Ollama只监听Localhost。要让局域网内的其他设备,比如手机也能访问Ollama,需要修改它的监听地址。

在终端里输入这一行命令:OLLAMA_HOST="0.0.0.0:11434" ollama serve
0.0.0.0指的是让Ollama监听所有网络接口。不管活儿从哪来,都接。11434是它默认的端口,没必要改动。这么改动之后,手机、Pad这些设备都可以通过局域网IP地址接入Ollama。

那么,最后一个问题来了:在移动端用什么APP去连接Ollama?

在桌面端有太多选择了,比如经典的Open WebUI,还有Obsidian的一堆AI插件都支持。在iPhone上,我个人的选择是Enchanted,三个原因:

第一,这款APP特别简洁,就是纯对话,文字或者语音都可以。没有那些杂七杂八的功能,所以特别符合我的需求。

第二,它就是iOS原生的那种丝滑。要长期使用的话,这种体验很重要。

第三,Enchanted支持Ollama。把地址和端口填进去就可以用了,非常方便。当然,也是因为它只支持Ollama,所以我没选LM Studio,没法用MLX版、专门为Mac优化过的模型——这算是一个小遗憾吧。

今天的开源大模型已经足够强。量化版本就能满足平时对话的需求。搭配M4 Mac mini真的很舒服。终端应用也有现成的。其实除了移动端,在桌面端,我现在也是用Enchanted。

所以,大家如果有M4 Mac mini的话,可以这么搞一套试一试,感受一下。尽可能减少使用门槛,你才会不知不觉地多用AI,才能从里边获得更多收益。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询