微信扫码
与创始人交个朋友
我要投稿
Phi-3.5-mini[1]是微软广为人知的 Phi-3 模型的轻量级版本,旨在以无与伦比的效率处理多达 128K 个 token 的长上下文。该模型由合成数据和精心筛选的 Web 内容混合而成,在高质量、推理密集型任务中表现出色。Phi-3.5-mini 的开发用到了先进技术,例如监督微调和创新优化策略,还有近端策略优化和直接偏好优化。这些强劲的功能提升可确保出色地遵守指令和强大的安全协议,从而为 AI 领域树立了新标准。
本文我们会讨论
我们将使用 LlamaEdge[2](Rust + Wasm 技术栈)来开发和部署这个模型的应用程序。无需安装复杂的 Python 包或 C++ 工具链!了解我们选择这项技术的原因[3]。
第一步:通过以下命令行安 WasmEdge[4]。
curl -sSf https://raw.githubusercontent.com/WasmEdge/WasmEdge/master/utils/install_v2.sh | bash -s -- -v 0.13.5
第二步:下载Phi-3.5-mini-instruct[5] GGUF 文件。因为模型有 2.82G,可能需要一定时间才能下载好。
curl -LO https://huggingface.co/second-state/Phi-3.5-mini-instruct-GGUF/resolve/main/Phi-3.5-mini-instruct-Q5_K_M.gguf
第三步: 下载 LlamaEdge API server程序。它也是一个跨平台的可移植 Wasm 应用,可以在不同 CPU 和 GPU 设备上运行。
curl -LO https://github.com/LlamaEdge/LlamaEdge/releases/latest/download/llama-api-server.wasm
第四步:下载聊天机器人 UI,从而在浏览器中与 Phi-3.5-mini-instruct 模型进行交互。
curl -LO https://github.com/LlamaEdge/chatbot-ui/releases/latest/download/chatbot-ui.tar.gz
tar xzf chatbot-ui.tar.gz
rm chatbot-ui.tar.gz
接下来,使用以下命令行为模型启动 LlamaEdge API server。或者可以打开 http://localhost:8080[6] 通过 Chatbot UI 与模型互动。
wasmedge --dir .:. --nn-preload default:GGML:AUTO:Phi-3.5-mini-instruct-Q5_K_M.gguf \
llama-api-server.wasm \
--prompt-template phi-3-chat \
--ctx-size 128000 \
--model-name phi-3.5-mini-instruct
由于典型个人计算机的 RAM 限制,我们在此使用 32k (32768) 上下文大小,而不是完整的 128k。如果你的计算机的 RAM 小于 16GB,可能需要进一步将其调低。
LlamaEdge 是轻量级的,不需要守护程序或 sudo 进程即可运行。它可以轻松嵌入到你自己的应用程序中!通过支持聊天和 embedding 模型,LlamaEdge 可以替换本地计算机上应用程序内部的 OpenAI API !
接下来,我们展示如何为 Phi-3.5-mini-instruct 模型以及 embedding 模型启动完整的 API server。API server将有 chat/completions
和 embedding
endpoints。除了上一节中的步骤之外,我们还需要:
第五步:下载 embedding 模型。
curl -LO https://huggingface.co/second-state/Nomic-embed-text-v1.5-Embedding-GGUF/resolve/main/nomic-embed-text-v1.5.f16.gguf
然后,我们可以使用以下命令行启动带有聊天和嵌入模型的 LlamaEdge API server。有关更详细的解释,请查看文档启动 LlamaEdge API 服务[7]。
wasmedge --dir .:. \
--nn-preload default:GGML:AUTO:Phi-3.5-mini-instruct-Q5_K_M.gguf \
--nn-preload embedding:GGML:AUTO:nomic-embed-text-v1.5.f16.gguf \
llama-api-server.wasm \
--model-alias default,embedding \
--model-name phi-3.5-mini-instruct,nomic-embed \
--prompt-template phi-3-chat,embedding \
--batch-size 128,8192 \
--ctx-size 4096,8192
最后,可以按照这些教程[8]将 LlamaEdge API server作为 OpenAI 的替代与其他 Agent 框架集成。具体来说,在你的应用或 Agent配置中使用以下值来替换 OpenAI API。
Config option | Value |
---|---|
Base API URL | http://localhost:8080/v1 |
Model Name (for LLM) | phi-3.5-mini-instruc |
Model Name (for Text embedding) | nomic-embed |
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-21
Gemini 2.0 Flash Thinking:谷歌推出实验性多模态推理模型,在快速生成的同时展示详细的思考过程
2024-12-20
快手可灵1.6正式上线,他们又一次超越了自己。
2024-12-19
GPT-4o掀起全模态热潮!一文梳理全模态大模型最新研究进展
2024-12-19
国家电网发布国内首个千亿级多模态电力行业大模型
2024-12-19
初创公司 Odyssey 推出 AI 工具 Explorer了
2024-12-19
利用 Gemini 构建 PDF 文档 AI 管道:原理、实现与应用(含代码)
2024-12-18
一手实测豆包新发布的视觉理解大模型,他们真的卷起飞了。
2024-12-18
百度飞桨:多模态大模型技术进展与产业应用实践
2024-09-12
2024-05-30
2024-06-17
2024-08-06
2024-08-30
2024-06-14
2024-04-21
2024-06-26
2024-07-21
2024-07-07