我要投稿

在树莓派5上运行9款流行的AI模型：哪些能用？哪些不行？

发布日期：2025-03-05 15:23:28 浏览次数： 1912 作者：树莓派开发者

我在Raspberry Pi 5上运行了一些从非常基础到非常强大的AI模型。结果并不令人意外。

先简单回顾一下，Raspberry Pi 5是一台小型电脑，配备4核Cortex-A76 CPU、高达8GB的内存和VideoCore VI GPU。它基本上是一台口袋大小的电脑。

现在，真正的乐趣开始了。本次实验的参与者包括各种大型语言模型，它们各有优势和局限。我们将测试Phi-3.5B、Gemma2-2B、Qwen2.5-3B、Mistral-7B和Llama 2-7B。

让我们看看这些语言模型中哪个能在Raspberry Pi 5上应对挑战。

测试标准

为确保对大型语言模型进行公平、客观的评价，我对每个模型都采用了标准化方法。

我在终端内直接在Ollama中测试了所有模型，没有使用图形用户界面（GUI），以消除任何性能开销，并提供一种“裸机”方法来观察这些模型的性能。

任务：每个大型语言模型的任务是为安装MySQL数据库的WordPress生成一个Docker Compose文件。

Docker Compose文件：

https://linuxhandbook.com/docker-compose-essential/

指标：

推理时间：从发出提示到生成Docker Compose文件完成所经过的时间。推理时间越短，表明性能越好。
准确性：生成的Docker Compose文件的正确性和完整性。我们将评估该文件是否准确定义了功能齐全的WordPress安装所需的服务、网络和卷。
效率：大型语言模型在执行任务时的资源利用率。我们将监控CPU使用率、内存消耗和磁盘输入/输出（I/O），以确定任何性能瓶颈。

Gemma2（2b）

https://ollama.com/library/gemma2

谷歌的Gemma 2模型有三种尺寸：2B、9B和27B，每种尺寸都采用了旨在提供卓越性能和效率的新架构。

如上方视频所示，谷歌的Gemma2模型在Raspberry Pi 5上的表现令人印象深刻。

推理时间很快，响应质量也很出色，同时仅使用了8GB可用内存中的3GB，为其他任务留出了充足的空间。

鉴于这些结果，我会给这个设置打出5颗星中的5颗星。

Qwen2.5（3b）

https://ollama.com/library/qwen2.5

Qwen2.5是Qwen系列大型语言模型中的最新一代。它包括各种基础模型和指令调优版本，参数规模从0.5亿到720亿不等。与上一代Qwen2相比，Qwen2.5带来了多项增强。

这是我第一次测试这个模型，它给我留下了深刻印象。推理时间非常快，响应准确且相关。

它使用了8GB可用内存中的5.4GB，为其他任务留出了一些空间。

这意味着你可以在处理其他个人活动的同时轻松使用Qwen2.5，而不会出现明显的速度下降。

Phi3.5（3.8b）

https://ollama.com/library/phi3.5

Phi-3.5-mini是来自Phi-3系列的一个紧凑且先进的开源模型。

它使用与包含合成数据和精选公共网站的数据集相同的训练集，强调高质量和富含推理的信息。

该模型的上下文长度为128K个标记，它经过了一个综合过程的改进，该过程结合了监督微调、近端策略优化和直接偏好优化，以增强其准确遵循指令和维持强大安全协议的能力。

在测试微软的Phi 3.5模型时，性能还算可以。

虽然推理时间不算太长，响应起初看起来也不错，但模型开始出现幻觉并产生不准确的输出。

大约11分钟后，我不得不强制退出它，因为它没有停止的迹象，可能会无限期地继续运行下去。

该模型使用了大约5GB的内存，为其他任务留出了一些容量，但最终出现的幻觉影响了整体体验。

Mistral（7b）

https://ollama.com/library/mistral

Mistral是一个70亿参数的模型，根据Apache许可证发布，提供指令遵循和文本补全两种变体。

据Mistral AI团队称，Mistral 7B在所有基准测试中均优于Llama2-13B，甚至在多个领域超过了Llama 1 34B。

它在编码任务方面的性能也接近CodeLlama 7B，同时在通用英语语言任务方面依然表现出色。

鉴于它是一个70亿参数的模型，我对它持怀疑态度，但在Raspberry Pi 5上的测试中，它确实完成了给定任务，尽管推理时间不太快，约为6分钟。

它仅使用了5GB内存，考虑到其规模，这是一个令人印象深刻的数字，响应也是正确且符合我的预期的。

虽然我不会依赖这个模型在Raspberry Pi上进行日常使用，但在需要处理更复杂任务时，将其作为一个选项肯定是不错的。

Llama 2（7b）

https://ollama.com/library/llama2

Llama 2由Meta Platforms, Inc.开发，在一个包含2万亿个标记的数据集上进行训练，原生支持4,096个标记的上下文长度。

Llama 2聊天模型专为对话用途进行了优化，通过超过100万个人类注释进行了微调，以增强其聊天能力。

嗯，正如你在上面看到的，在我尝试运行Llama 2模型时，发现它由于内存需求较高而无法运行。

Codellama（7b）

https://ollama.com/library/codellama

Code Llama基于Llama 2，是一个旨在协助代码生成和讨论的模型。

它旨在简化开发工作流并简化编码学习过程。

Code Llama能够生成代码和解释性自然语言，支持多种流行的编程语言，如Python、C++、Java、PHP、Typescript（Javascript）、C#、Bash等。

与Llama2模型类似，由于其内存需求较高，它根本无法在我的Raspberry Pi 5上运行。

Nemotron-mini（4b）

https://ollama.com/library/nemotron-mini

Nemotron-Mini-4B-Instruct旨在生成角色扮演、检索增强生成（RAG）和功能调用的响应。

它是一个小型语言模型（SLM），使用蒸馏、剪枝和量化技术进行了优化，以提高速度和实现设备端部署。

该指令模型专门针对英语的角色扮演、基于RAG的问答（QA）和功能调用进行了优化，支持4,096个标记的上下文长度，并已准备好用于商业应用。

在测试Nemotron-Mini-4B-Instruct时，我发现该模型相当高效。

它能够在不到2分钟的时间内快速给出响应，同时仅使用4GB内存。

这种性能水平使其成为Raspberry Pi上个人助手的可行选项。

Orca-Mini（3b）

https://ollama.com/library/orca-mini

Orca Mini 是一系列基于 Llama 和 Llama 2 的模型，它们使用论文《Orca：从GPT-4的复杂解释轨迹中进行渐进学习》中概述的Orca Style数据集进行训练。

该系列有两个版本：基于Llama的原始Orca Mini，其参数规模分别为30亿、70亿和130亿；以及基于Llama 2的第三版，其参数规模分别为70亿、130亿和700亿。

Orca Mini 在可用的8GB内存中使用了4.5GB，并且其推理时间表现良好。

尽管我对响应的准确性不完全确定，这需要通过测试输出文件来进行验证，但鉴于其效率和性能，我仍然推荐这个模型。

Codegemma (2b)

https://ollama.com/library/codegemma

CodeGemma 是一套功能多样的轻量级模型集合，能够处理多种编程任务，包括中间代码补全、代码生成、自然语言理解、数学推理以及指令遵循。

我与 CodeGemma 的交互经历颇为有趣。这个模型并没有回答我的任何查询，反而开始有趣地向我提问，就好像它拥有自己的个性一样。

我认为这种行为可能是因为它专注于代码补全，所以我打算在一个集成开发环境（IDE）中对其进行测试，以观察它在此环境下的表现。

尽管出现了这些意外的交互，但它成功地在 Ollama 中加载，并且仅使用了 2.5 GB 的内存，对于一个如此轻量级的模型来说，这是非常令人印象深刻的。

我的评分

请注意，所提供的所有评分都是主观的，并且基于我个人对这些模型的测试经验。

它们反映了每个模型在 Raspberry Pi 5 上为我的表现，但根据不同的设置和应用场景，结果可能会有所不同。

我鼓励你对这些评分持保留态度，并亲自进行实验，以找出最适合你需求的模型。

LLM 评分

Gemma 2 (2b) ⭐⭐⭐⭐⭐

Qwen 2.5 (3b) ⭐⭐⭐⭐⭐

Phi 3.5 (3.8b) ⭐⭐

Mistral (7b) ⭐⭐⭐

Llama 2 (7b) -

Codellama (7b) -

Nemotron-mini (4b) ⭐⭐⭐⭐

Orca-mini (3b) ⭐⭐⭐

Codegemma (2b) ⭐

最终思考

在 Raspberry Pi 5 上测试广泛的大型语言模型（LLMs）为我们提供了有关哪些类型的模型能够切实运行在这款紧凑型设备上的宝贵见解。

一般来说，参数少于70亿的模型非常适合 Pi，在性能和资源使用之间提供了良好的平衡。

然而，也存在例外，比如 Mistral 7B，尽管它是一个较大的模型，但运行良好，尽管速度略慢。

另一方面，参数在2B、3B和4B范围内的模型表现尤为出色，证明了 Pi 处理复杂 AI 任务的能力。

随着我们在 AI 领域的不断进步，我相信我们将看到更多针对像 Raspberry Pi 这样的小型设备进行优化的模型。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-21

一台3090就能跑Gemma 3 27B！谷歌发布Gemma 3全系QAT版模型

2025-04-20

MCP vs Function Calling，该如何选？

2025-04-20

国内企业应用AI大模型赋能软件测试的落地实践案例

2025-04-20

8卡H20运行DeepSeek-V3-0324性能和推理实测

2025-04-19

低延迟小智AI服务端搭建-ASR篇（续）：CPU可跑

2025-04-19

LoRA 与QLoRA区别

2025-04-18

DeepSeek-V3-0324 本地部署，vLLM和SGLang的方法

2025-04-18

Ollama对决vLLM：DEEPSEEK部署神器选谁？90%人选错！这份实测攻略让你秒懂！

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

DeepSeek R1 671B 完整版本地部署教程来了！！！

2025-02-04

太爽了！o1 现在可以天天享用了

2024-09-18

万字综述 10+ 种 LLM 投机采样推理加速方案

2024-07-11

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-07-09

FP8 低精度训练：Transformer Engine 简析

2024-07-11

彻底理解系列之：FP32、FP16、TF32、BF16、混合精度

2024-07-26

别被Deepseek低成本冲昏头！本地化部署后续的“甜蜜陷阱”，你真能扛住吗？

2025-02-05

ollama 部署 deepseek-r1 70B 模型完整指南

2025-01-27

o3-mini 完全指南：一个被 DeepSeek 破大防的模型

2025-02-01

大家都在问

MCP vs Function Calling，该如何选？

2025-04-20

RAGFlow vs Dify, 商业化落地场景选哪个？

2025-04-01

如何利用Dify轻松构建你的专属语料库？

2025-03-31

从 0 到 1，Agentic Ops 如何打造企业级 AI 生产力？

2025-03-20

DeepSeek-R1的Qwen-32B蒸馏模型与QwQ-32B模型，谁更强？

2025-03-16

部署DeepSeek的4条路，企业级客户到底该咋走？

2025-03-16

谷歌Gemma 3 27b 到底能不能打，写个游戏测试下？

2025-03-13

强化学习(RL)是什么? 它和微调有什么区别?

2025-03-13

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB