我要投稿

小爱音箱大变身：接入 ChatGPT 和豆包，轻松打造专属 AI 语音助手！

发布日期：2024-06-08 06:08:08 浏览次数： 10974

作者：AI真好玩

微信搜一搜，关注“AI真好玩”

MiGPT 是一个 Github 上的开源项目，使用它你可以将小爱音箱接入 ChatGPT 和豆包，把小爱音箱改造成你的专属语音助手。

MiGPT 主要特点

? 智能化回答：想象一下，你的小爱音箱变身聊天高手，可以使用 ChatGPT 等大模型来回答你的问题。
? 流式响应：爱情来得太快就像龙卷风，而你的小爱音箱也是，对你的爱意秒回，爱你不会让你等太久。
? 角色扮演：一秒调教小爱，无论是成为你的完美伴侣，还是那个能听你倾诉心事的贴心闺蜜，都不在话下。
? 自定义 TTS（文本转语音）：厌倦了小爱同学的语音？帮你解锁「豆包」同款音色，就像真人在回你的消息。
? 长短期记忆：小爱音箱现在能记住你们之间的每一次对话，越聊越默契，就像是你身边的老朋友。
?️ 智能家居 Agent（开发中）：心情不好？小爱立刻懂你，自动帮你播放喜欢的音乐，调节灯光，逗你开心。

MiGPT 快速上手

MiGPT 支持两种启动方式：Docker 和 Node.js。

Docker

对于电脑小白或者不想自己配置代码运行环境（Node）的同学，可以使用 Docker 启动方式。

请先按照「配置参数」章节，配置好你的 .env 和 .migpt.js 文件，然后使用以下命令启动 docker：

docker run -d  --env-file $(pwd)/.env \
    -v $(pwd)/.migpt.js:/app/.migpt.js \
    idootop/mi-gpt:latest

注意：在 Windows 终端下不支持使用 $(pwd) 获取当前工作路径，需要将配置文件路径替换为绝对路径。

Node.js

如果你是一名前端 (Node.js) 开发者，也可以通过 NPM 安装 mi-gpt 启动 MiGPT。

npm install mi-gpt

然后，创建并启动 MiGPT 实例。初始化参数的具体含义请看下面的「配置参数」章节。

import { MiGPT } from "mi-gpt";

async function main() {
  const client = MiGPT.create({
    speaker: {
      userId: "987654321", // 注意：不是手机号或邮箱，请在「个人信息」-「小米 ID」查看
      password: "123456", // 账号密码
      did: "小爱音箱Pro", // 小爱音箱 ID 或在米家中设置的名称
    },
  });
  await client.start();
}

main();

注意：此模式下并不会主动读取 .env 和 .migpt.json 中的配置信息，你需要自己初始化 Node 环境变量，并将 .migpt.json 中的参数作为 MiGPT.create 的初始化参数传入。

示例代码如下：

import { MiGPT } from "mi-gpt";

const botName = "傻妞";
const botProfile = `
性别：女
性格：乖巧可爱
爱好：喜欢搞怪，爱吃醋。
`;

const masterName = "陆小千";
const masterProfile = `
性别：男
性格：善良正直
其他：总是舍己为人，是傻妞的主人。
`;

async function main() {
  const migpt = MiGPT.create({
    speaker: {
      userId: process.env.MI_USER!,
      password: process.env.MI_PASS!,
      did: process.env.MI_DID,
    },
    bot: {
      name: botName,
      profile: botProfile,
    },
    master: {
      name: masterName,
      profile: masterProfile,
    },
  });
  await migpt.start();
}

main();

MiGPT 配置参数

.migpt.js

重命名本项目根目录下的 .migpt.example.js 文件为 .migpt.js。然后，将里面的配置参数修改成你自己的参数。

参数说明：

参数名称	描述	示例
bot
`name`	对方名称（小爱音箱）	`"傻妞"`
`profile`	对方的个人简介/人设	`"性别女，性格乖巧可爱，喜欢搞怪，爱吃醋。"`
master
`name`	主人名称（我自己）	`"陆小千"`
`profile`	主人的个人简介/人设	`"性别男，善良正直，总是舍己为人，是傻妞的主人。"`
room
`name`	会话群名称	`"魔幻手机"`
`description`	会话群简介	`"傻妞和陆小千的私聊"`
speaker
`userId`	小米 ID（注意：不是手机号或邮箱）	`"987654321"`
`password`	账户密码	`"123456"`
`did`	小爱音箱 ID 或名称	`"小爱音箱 Pro"`
`ttsCommand`	小爱音箱 TTS 指令（可在此查询）	`[5, 1]`
`wakeUpCommand`	小爱音箱唤醒指令（可在此查询）	`[5, 3]`
speaker 其他参数（可选）
`callAIKeywords`	当消息以关键词开头时，会调用 AI 来响应用户消息	`["请", "傻妞"]`
`wakeUpKeywords`	当消息以关键词开头时，会进入 AI 唤醒状态	`["召唤傻妞", "打开傻妞"]`
`exitKeywords`	当消息以关键词开头时，会退出 AI 唤醒状态	`["退出傻妞", "关闭傻妞"]`
`onEnterAI`	进入 AI 模式的欢迎语	`["你好，我是傻妞，很高兴认识你"]`
`onExitAI`	退出 AI 模式的提示语	`["傻妞已退出"]`
`onAIAsking`	AI 开始回答时的提示语	`["让我先想想", "请稍等"]`
`onAIReplied`	AI 结束回答时的提示语	`["我说完了", "还有其他问题吗"]`
`onAIError`	AI 回答异常时的提示语	`["出错了，请稍后再试吧！"]`
`playingCommand`	查询小爱音箱是否在播放中指令（可在此查询）	`[3, 1, 1]`
`streamResponse`	是否启用流式响应（部分小爱音箱型号不支持查询播放状态，此时需要关闭流式响应）	`true`
`exitKeepAliveAfter`	无响应一段时间后，多久自动退出唤醒模式（单位秒，默认 30 秒）	`30`

环境变量

重命名本项目根目录下的 .env.example 文件为 .env。

然后，将里面的环境变量修改成你自己的，参数含义如下：

环境变量名称	描述	示例
OpenAI
`OPENAI_API_KEY`	OpenAI API 密钥	`abc123`
`OPENAI_MODEL`	使用的 OpenAI 模型	`gpt-4o`
`OPENAI_BASE_URL`	可选，OpenAI API BaseURL	`https://api.openai.com/v1`
`AZURE_OPENAI_API_KEY`	可选，Microsoft Azure OpenAI	`abc123`
提示音效（可选）
`AUDIO_SILENT`	静音音频链接	`"https://example.com/slient.wav"`
`AUDIO_BEEP`	默认提示音链接	`"https://example.com/beep.wav"`
`AUDIO_ACTIVE`	唤醒提示音链接	`"https://example.com/active.wav"`
`AUDIO_ERROR`	出错提示音链接	`"https://example.com/error.wav"`
豆包 TTS（可选）
`TTS_DOUBAO`	豆包 TTS 接口	`"https://example.com/tts.wav"`
`SPEAKERS_DOUBAO`	豆包 TTS 音色列表接口	`"https://example.com/tts-speakers"`

MiGPT 常见问题

1.支持哪些型号的小爱音箱？

大部分型号的小爱音箱都支持，推荐小爱音箱 Pro（完美运行）。部分机型的 MioT 接口开放能力并不完整，比如小米音箱 Play 增强版（L05C），将会导致 MiGPT 部分功能异常。

2.除了 OpenAI 还支持哪些模型，如何设置？

理论上兼容 OpenAI SDK 的模型都支持，只需修改环境变量即可接入到 MiGPT。

比如：通义千问、零一万物、Moonshot、DeepSeek 等，以 Moonshot 为例：

OPENAI_BASE_URL=https://api.moonshot.cn/v1
OPENAI_MODEL=moonshot-v1-8k
OPENAI_API_KEY=$MOONSHOT_API_KEY

3.什么是唤醒模式？

唤醒模式 类似于小爱技能，可能让你在跟小爱互动的时候，无需每句话都要以“小爱同学”开头唤醒。

关于唤醒模式的更多细节，请查看这里：https://github.com/idootop/mi-gpt/issues/28。

4.小爱音箱收到消息后，没有调用 AI 进行回复

MiGPT 收到消息默认不会调用 AI 进行回复，只会回复以唤醒词开头的消息，比如：“请问 xxx”、“你 xxx” 等，你也可以自定义唤醒词（callAIKeywords）列表。

5.小爱音箱没有播放 AI 的回答，但控制台有打印 AI 的回复

不同型号的小爱音箱 TTS 指令不同，请到 https://home.miot-spec.com 查询具体指令，并修改配置文件中的 ttsCommand 参数。

6.小爱音箱没有读完整个句子，总是戛然而止

部分型号的小爱音箱不支持通过 Mina 获取设备播放状态，只能通过 MiOT 指令查询。

请到 https://home.miot-spec.com 查询具体指令，并修改配置文件中的 playingCommand 参数。

如果修改参数后问题仍然存在，说明你的设备不支持通过开放接口查询播放状态（比如：小米音箱 Play 增强版），此问题无解。建议更换其他型号的小爱音箱（推荐小爱音箱 Pro）。

或者你也可以关闭配置文件中的流式响应（streamResponse）选项，确保小爱能够回复完整的句子。不过需要注意的是，关闭流式响应后，唤醒模式等功能将会失效。

7.为什么小爱音箱会在 AI 回答之前抢话？

与本项目的实现原理有关。本项目通过轮询小米接口获取最新的对话信息，当检测到小爱在回复的时候会通过播放静音音频等方式快速 mute 掉小爱原来的回复。

但是从小爱开始回复，到上报状态给小米服务云端，再到本项目通过小米云端接口轮训到这个状态变更，中间会有大约 1 -2 秒的延迟时间，无解。这个问题，理论上需要通过刷机才能完美解决。

8.启动 docker 提示 ERR_MODULE_NOT_FOUND，无法正常启动

在 Windows 终端（比如：PowerShell、cmd）下，无法使用 $(pwd) 获取当前工作目录绝对路径，需要填写 .env 和 .migpt.js 文件的绝对路径。

9.我 Clone 了这个仓库，但是本地启动失败

如果你是通过 clone 本项目仓库的方式来运行，记得在 start 之前先 build 一下。

pnpm install && pnpm build && pnpm start

另外， start 命令默认没有注入 .env 文件里的环境变量。你可以在 VS Code 里按 F5 直接运行，会自动读取 .env ，或者将启动脚本改为：

node --env-file=.env app.js

10.怎样使用豆包的音色

此功能需要豆包 TTS 接口支持，本项目暂不对外提供此服务。

https://github.com/idootop/mi-gpt

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-03-20

748GB内存、20P算力，英伟达把数据中心塞进了桌子底下，第一台已经送到Karpathy家里

2026-03-19

All in AI后，手机正在被“反噬”？

2026-03-19

EdgeClaw Box：在养虾潮的安全焦虑中，推开 OPC 时代的大门

2026-03-17

在 AI 替你干活之前，Violoop 先给它装一个物理刹车

2026-03-17

2个小时的英伟达 GTC 都在这了，但我好像再也兴奋不起来了？

2026-03-16

探展绿联：原生内嵌 MiniMax，OpenClaw 开箱即用，AI NAS 正在破圈

2026-03-10

小团队高效能：Android Studio 中的 Gemini 助 Ultrahuman 实现 15% 研发提速

2026-03-10

从Siri到字节AI手机，再到Xiaomi miclaw：你的AI管家来了

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

在树莓派CM0上部署 Clawdbot 真的有那么神奇吗？

2026-01-29

得到 AI 录音卡 GetSeed 常见问题

2026-01-13

从豆包手机助手看GUI Agent发展：从实验室到手机，AI开始真正“动手”操作世界

2025-12-28

只需3步，教你部署自己的AI手机 | 保姆级教程

2025-12-31

AI 操控手机，在极空间NAS部署类“豆包手机助手”... 支持安卓/IOS/模拟器

2025-12-23

OpenAI 首款 AI 硬件，是一支能「舔」的笔？

2026-01-02

钉钉A1，摸到了语音AI 的“命门”：一个开放平台正在形成

2025-12-23

钉钉刚发布的“黑匣子”，是我见过最贵、最不务正业的NAS

2026-01-03

CES2026：AMD放大招，4年AI芯片性能涨1000倍，MI455X来了

2026-01-07

AI手机的终极猜想：超级Agent入口｜产业深度

2026-01-20

大家都在问

All in AI后，手机正在被“反噬”？

2026-03-19

2个小时的英伟达 GTC 都在这了，但我好像再也兴奋不起来了？

2026-03-17

笔与屏：AI硬件为何分化出两条路？

2026-02-17

在树莓派CM0上部署 Clawdbot 真的有那么神奇吗？

2026-01-29

英伟达让机器人闪念决策：Fast-ThinkAct如何让AI思考速度快9倍还更聪明？

2026-01-22

豆包手机之后，AI 手机还需要什么？

2026-01-06

怎么都在做“智慧笔”？

2026-01-04

OpenAI 首款 AI 硬件，是一支能「舔」的笔？

2026-01-02

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw