我要投稿

M4 Mac mini作为轻量级AI服务器，太香了！

发布日期：2024-12-29 16:50:59 浏览次数： 7365 作者：newtype AI

我宣布，M4 Mac mini就是我个人的年度最佳数码产品。真的，太香了！

我这台24G内存加512G SSD的机子是在闲鱼上下单的。店家跑澳门帮我代购，然后顺丰寄到北京。全部加起来，7千块。我对比了一下国行官网的价格，发现居然便宜了500块。

也就是说，如果买国行，花更多钱，还买的是“阉割版”。这是什么道理？我真的不明白。

拿到Mac mini之后，我安装的第一个软件是Ollama，然后下载Qwen 2.5。因为我一直想实现这样一个场景：

一台足够给力、又足够冷静的机子作为轻量级AI服务器，跑本地大模型，然后供给给局域网内的所有设备使用，比如手机。

为什么不用现成的产品，非要自己跑？

说实话，不管是Claude还是ChatGPT，我这一年用下来还是挺闹心的。不是产品的问题，而是某些不可抗拒因素。你们懂的。

为什么不用PC跑，非要用Mac mini？

之前我一直用这台PC跑大模型。但是那个功耗和噪音，我真的不敢一直开着。虽然理性告诉我，消耗不了多少，但心里就是不踏实。

于是，M4版Mac mini终于实现我的设想。

现在只要我在家里，掏出手机就能用上本地大模型。不知道为什么，我发现这种Self-hosting的方式有一种莫名的快感。跟用别人的服务完全不一样的体验。

在外边其实也可以连接家里的Mac mini，用我之前介绍过的ngrok就行，做个内网穿透。不过这么搞的话，速度就慢下来了，还是算了。

哈喽大家好，欢迎来到我的频道。谦虚地说，我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我，就来newtype社群。已经有600多位小伙伴付费加入啦！

回到今天的主题：在M4 Mac mini上运行大模型。

我准备在春节之前做一次升级，目标是彻底解决日常使用AI的问题。习惯有个AI助手随时讨论之后，真的就离不开了。就好比现在不让你上网、不让你用手机一样。用M4 Mac mini作为轻量级的服务器跑大模型，算是我第一个尝试。

我们先来做个简单的测试，看看这台24G统一内存的机子能跑什么尺寸的大模型。标准很简单，就是每秒能吐出多少个Token。

测试工具用的是Ollama。把Verbose打开，就能看到运行的速度。

模型方面，我下了7b、14b两个尺寸，包括Q4和Q8两种精度，一共4个模型。32b就不用想了，肯定跑不了，都不用测。

在Q4精度下，7b的生成速度大概在每秒20个Token的样子，特别流畅丝滑。而14b大概是10个Token的水平。

我自己的直观感受是，10的速度基本是能接受的底线，再低肯定不行。到20的话，就算流畅。

我们再来看Q8的速度。在这个精度下，7b速度降到了大概每秒13个Token的水平。而14b就更低了。

所以，综合来看，M4芯片加24G统一内存，我个人选择是：

如果需要跟AI来回讨论，那就跑Q4精度、14b的模型。它的速度我能接受，而且答案的完整程度明显比7b更好。我试过让它挂着跑半小时以上，基本就是温热的程度，比较让我放心。

如果不用讨论，就是快问快答，那我会切到Q4精度、7b的模型。

OK，模型选定了，但是还没完——Ollama还需要做一些设置。

在初始状态下，如果闲置五分钟的话，Ollama就会自动把模型都释放了。这意味着，如果我们突然有了需求、需要对话的话，又得等Ollama加载模型——这个就很不爽了，对吧？

所以，我们要做的第一个设置是，把OLLAMA_KEEP_ALIVE设为-1。这样一来，它就不会自动释放内存，才能达到随时响应的目的。

第二个是关于网络的设置。这个是我问Cursor学来的。

在初始状态下，Ollama只监听Localhost。要让局域网内的其他设备，比如手机也能访问Ollama，需要修改它的监听地址。

在终端里输入这一行命令：OLLAMA_HOST="0.0.0.0:11434" ollama serve

0.0.0.0指的是让Ollama监听所有网络接口。不管活儿从哪来，都接。11434是它默认的端口，没必要改动。这么改动之后，手机、Pad这些设备都可以通过局域网IP地址接入Ollama。

那么，最后一个问题来了：在移动端用什么APP去连接Ollama？

在桌面端有太多选择了，比如经典的Open WebUI，还有Obsidian的一堆AI插件都支持。在iPhone上，我个人的选择是Enchanted，三个原因：

第一，这款APP特别简洁，就是纯对话，文字或者语音都可以。没有那些杂七杂八的功能，所以特别符合我的需求。

第二，它就是iOS原生的那种丝滑。要长期使用的话，这种体验很重要。

第三，Enchanted支持Ollama。把地址和端口填进去就可以用了，非常方便。当然，也是因为它只支持Ollama，所以我没选LM Studio，没法用MLX版、专门为Mac优化过的模型——这算是一个小遗憾吧。

今天的开源大模型已经足够强。量化版本就能满足平时对话的需求。搭配M4 Mac mini真的很舒服。终端应用也有现成的。其实除了移动端，在桌面端，我现在也是用Enchanted。

所以，大家如果有M4 Mac mini的话，可以这么搞一套试一试，感受一下。尽可能减少使用门槛，你才会不知不觉地多用AI，才能从里边获得更多收益。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-19

4090/4090D 的48G版本是怎么来的

2025-04-18

简单好用的AI助手AingDesk

2025-04-18

Cursor 轻松集成 Supabase MCP 服务

2025-04-18

DroidRun：解锁AI手机自动化

2025-04-17

Google的AI防护方案-AI Protection

2025-04-17

复刻小智AI第2步，2张核心流程图学习一下它的WebSocket协议

2025-04-17

转型 AI 公司后，理想交出首份成绩单

2025-04-17

Google A2A：开启Agent相互协作的新时代

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

万字长文解析：大模型需要怎样的硬件算力

2024-03-30

大模型训练及推理【硬件选型指南】及 GPU 通识

2024-05-09

华为昇腾910B与英伟达B200性能对比

2024-07-23

【不看后悔】一文梳理端侧模型和小模型

2024-07-07

一文带你看懂英伟达A100、H100、A800、H800、H20系列

2025-02-12

NVIDIA消费级显卡4060/4090 AI训练能效比较

2024-07-01

对比A100和4090：两者的区别以及适用点

2024-06-24

私有化部署大模型非常重要环节：国产显卡和英伟达显卡到底该如何选择？

2024-06-23

手把手教你免费把AI大模型接入小米音箱，无需任何代码基础，小白级基础详细操作教程！

2024-10-20

小爱音箱大变身：接入 ChatGPT 和豆包，轻松打造专属 AI 语音助手！

2024-06-08

大家都在问

AI与自动化实战：n8n、Dify、Coze哪个更适合我们？

2025-04-13

经验分享：从买DeepSeek一体机到落地应用场景，有多远的距离？

2025-04-11

理想车载大模型为什么不直接用deepseek？

2025-04-03

JetBrains Junie 内测体验，能否挑战 Cursor？

2025-03-30

Tavily MCP Server深度解析：如何用Cline打造智能搜索神器？

2025-03-28

Claude Desktop- AI大模型+MCP Server结合，能够带给你哪些无限可能？

2025-03-26

罗永浩的AI新战场，能否打破“行业冥灯”魔咒？

2025-03-13

Mac Studio 首发实测：10 万块的顶配 Mac，能跑满血版 DeepSeek 吗？

2025-03-12

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB