我要投稿

手机上运行 LLaMA 和 Gemma（Google发布的LLM）大语言模型

发布日期：2024-04-15 21:11:32 浏览次数： 4100

作者：苏坡爱豆

微信搜一搜，关注“苏坡爱豆”

如今，“AI手机”是一个趋势，集成AI的手机功能更多，娱乐性更强。目前小米、vivo均已经宣称在他们的新旗舰版手机上集成了LLM，不过具体效果我还没有体验过。那我们是否可以不换新手机，在自己原来的手机上部署LLM呢？

在本文中，我将展示如何在一部 Android 手机上运行 LLaMA 和 Gemma（Google发布的LLM）大语言模型，在所有测试中，所有模型都将在本地运行，不需要云 API 或付费。

Termux

第一个组件是 Termux^[1]，这是一个成熟的 Linux 终端，为 Android 应用制作。它是免费的，不需要root访问权限。Termux 可以从 Google Play^[2] 下载，但在撰写本文时，该版本已经很旧了，并且 Termux 中的“pkg update”命令不再起作用。较新版本在 F-Droid^[3] 网站上以 APK 形式提供，建议下载该较新版本。当 Termux 安装在安卓手机上时，我们可以运行它并在手机上看到一个标准的 Linux 命令行界面：

理论上讲，我们可以直接在手机上输入所有命令，但是在小键盘上打字很不方便。所以我们选择通过pkg update的方法，安装 SSH：

pkg 
pkg upgrade
pkg install openssh

之后，我们可以在 Termux 中启动 SSH程序。获取用户名并设置 SSH 密码：

sshd


passwd

...

现在，我们可以使用任何 SSH 客户端连接到手机（包括我们的电脑）：

ssh -  u0_a461.168.100.101

在这里，8022 是默认的 Termux SSH 端口，“u0_a461”是我们从“whoami”命令中获取的用户名，“192.168.100.101”是本地 Wi-Fi 网络中手机的 IP 地址。连接完成后，我们就可以测试不同的 LLM。下面显示的所有命令都通过手机上的 SSH 执行。

Llama.CPP

第一个引入的项目是Llama.CPP^[4]，它非常适合在不同的硬件上测试 LLM。Llama.CPP几乎可以在任何地方工作——CPU、CUDA 或 Apple 芯片上。原始Llama.CPP是用 C++ 编写的，但我将使用 Python 库，它更容易使用。安装所需的软件包和库：

pkg install tur-repo libopenblas libandroid-execinfo ninja binutils
pkg install python3 python-numpy build-essential cmake clang git
pip3 install llama-cpp-python huggingface-hub

对于第一次测试，使用 LLaMA 7B 模型，从huggingface上下载它：

huggingface-cli download TheBloke/Llama--B-Chat-GGUF llama--b-chat.Q4_K_M.gguf ---dir . ---dir--symlinks False

载入模型并调用它做出回复：

 llama_cpp  Llama


llm = Llama(model_path=,
            n_gpu_layers=,
            n_ctx=,
            echo=)

question = ()
template = 

stream = llm(template, stream=, max_tokens=, temperature=)
 output  stream:
(output[][][], end=)

这里，n_gpu_layers这个参数设置为 0，因为在安卓手机中，我们没有 GPU。在手机上运行代码之前，我在 Google Colab中预估了LLaMA 7B运行需要消耗的内存：资源消耗大约2.5G左右

从资源消耗的问题上，LLaMA 7B几乎可以在每部具有 4-6 GB RAM 的手机上运行。下一个大问题是速度，我很担心LLaMA 7B在手机上的运行效率，但在手机上运行之后，它的回复速度并不慢！这是一个未经剪辑的视频，显示了真实速度：

Llama.CPP对内存利用做了优化：它不会在 RAM 中加载完整LLM：我们甚至可以在智能手机上运行 70B 模型（其文件大小约为 40 GB！相同答案的推理时间约为 15 分钟）（作为参考，GPT 3.5 模型有 175B 参数）。这是非常惊人的，因为我们一直认为这样的LLM推理需要大量的GPU集群。

现在，让我们测试另一个模型：Gemma 。

Gemma.CPP

Gemma 是目前（2024.3.9之前）最新的大型语言模型之一;它由 Google 于 2024 年 2 月推出。这个模型很有意思：

据谷歌称，Gemma 型号为其尺寸提供了最先进的性能。例如，在 MMLU（大规模多任务语言理解）基准测试中，Gemma 7B 优于 LLaMA2 13B（64.3 vs 54.8 分），而 Gemma 2B 模型仅比 LLaMA 7B 稍差（42.3 vs 45.3 分）。
与 7B 型号相比，2B 型号的推理速度应该快得多，这对移动设备至关重要。
Gemini 的许可证允许作为商业用途，Gemma.CPP客户端是用 C++ 编写的。这允许移动开发人员在 Android Studio 或 XCode 中将其构建为库，并在智能手机应用程序中使用此模型。

与 LLaMA 一样，我将在安卓手机上使用 Termux 控制台。首先，我们需要下载并安装Gemma.CPP：

pkg install wget cmake git clang python3
wget https://github.com/google/gemma.cpp/archive/refs/tags/v0.1.0.tar.gz
tar -xvzf v0.1.0.tar.gz
 gemma.cpp-0.1.0
 build
cmake ..
make -j4 gemma
 ../../

要访问模型，我们需要登录 Kaggle，转到模型页面（Gemma | Kaggle^[5]），并接受许可协议，可以手动将模型文件复制到智能手机，但 Kagglehub Python 库提供了一种更方便的方法：

首先，安装软件包kagglehub ：

pip3 install packaging kagglehub

接下来，下载模型，并在智能手机上运行它：

import , kagglehub

.environ[] = 
.environ[] = 

model_path = kagglehub.model_download()
(, model_path)

KAGGLE_USERNAME和KAGGLE_KEY参数可以Kagge 设置选项中生成，是免费的。下载完成后，我们将得到路径，类似于“/data/data/com.termux/.../gemmaCpp/2b-it-sfp/2”。

现在，制作一个运行推理的 shell 脚本：

model_pathdatacom.termuxhomekagglehubgooglegemmaCpp

gemma.cpp.gemma model 2bit tokenizer 2bitsfp.sbs

最后，运行脚本。输出如下所示：

它确实比 LLaMA 7B快，结果也较为准确。7B 和 2B 型号LLM的 RAM 消耗分别为 9.9 GB 和 4.1 GB。

结论

我们测试了Llama.CPP和Gemma.CPP开源项目，并能够在 Android 智能手机上运行 2B、7B 甚至 70B 参数的dayu模型。

在目前（2024年），即使是千元机也有大约 8 GB 的 RAM 和 256 GB 的存储空间，因此 2 GB的LLM几乎可以在每部现代的手机上运行，而不需要是顶配手机。

从开发的角度来看，Llama.CPP 和 Gemma.CPP 项目都是用 C++ 编写的，没有外部依赖关系，并且可以使用 Android 或 iOS 应用程序进行本机编译，这对于demo演示、项目的快速上线都是非常友好的。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

看大厂PM，如何玩转多个智能体开发平台

2025-06-17

53AI Hub重磅开源！让99%的智能体开发者赚到钱！

2025-06-17

DeepSeek R1-0528 小版本升级

2025-05-29

源神降临！阿里 Qwen3 全系发布，免费商用，消费级显卡就能跑！(深度解读 + 实战case)

2025-04-29

高效 Agents 构建指南

2025-05-23

分而治之：全面解析分布式分离 Inference 系统

2025-04-29

忽视小模型和知识库，企业AI应用必将是死路一条

2025-05-07

Qwen3发布: 4B干掉旧代 72B / Windsurf又增加新的免费计划

2025-04-29

CAG 与 RAG：哪种方法能带来性能更好的人工智能

2025-05-07

从RAG到CoT再到MCP，一文读懂AI Agent落地难题｜大模型研究

2025-05-07

大家都在问

月费200刀的AI浏览器，Perplexity Comet的真实体验如何？

2025-07-14

智能体Agent这场风暴还能刮多久？

2025-07-14

从机器人三定律说起：当AI遇上道德难题，我们该如何选择？

2025-07-14

初次上手如何快速开发基于大模型+function call的agent应用？

2025-07-14

如何搭建Agent的知识库底座？

2025-07-14

万维钢：怎么把AI使用到最高水平？

2025-07-14

从"猜配件"到"秒匹配"：AI Agent如何让万亿汽配市场告别石器时代？

2025-07-14

Auto Agent：气宗还是剑宗？——Workflow 还是强大模型？

2025-07-13

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB