我要投稿

必读！RAG好用的3种Router

发布日期：2024-12-21 07:27:14 浏览次数： 2073 作者：CourseAI

本公众号主要关注NLP、CV、LLM、RAG、Agent等AI前沿技术，免费分享业界实战案例与课程，助力您全面拥抱AIGC。

目前开源了很多LLMs大模，虽然GPT4o一直占据第一位的宝座，但是并不是在每个领域都很强。

例如：写代码的Code-LM、做数学的meta-math,做图文多模态的Macaw-llm等等。都有自己的强项。

PolyRouter提供了一个多LLM路由系统，该系统根据特定需求动态将查询路由到最合适的专家，从而优化性能，减少响应时间和成本，同时提高输出质量。

PolyRouter 解决的问题

解决了与不同领域专门化的各种LLMs高效互动的挑战
平衡了查询执行吞吐量、不同LLM带来的不同成本和延迟、以及多路LLM高效查询三个问题。

PolyRouter与Moe的区别

MoE架构包含一组专家模型，这些模型被训练以专门处理不同的数据区域，同时还有一个门控网络模型，负责确定每个专家对最终预测的贡献
LM路由方法可以视为MoE架构的一种特殊情况，其中预测路由模型充当门控机制，而可用专家则是LLM的集合。

PolyRouter 提出的路由方案

随机路由器（Random-Router）：该方法随机选择一个专家模型来执行每个测试查询。它重复此过程多次，并根据各种指标评估性能。
kNN路由器（kNN-Router）：kNN路由器使用句子变换器对训练查询进行编码，并根据余弦相似度找到与测试查询最接近的训练查询。然后，它选择在最相关的训练查询中表现最佳的专家模型来执行测试查询。
BERT路由器（BERT-Router）：该方法在各种评估标准下优于所有其他专家模型和路由方法。它根据特定需求动态将查询路由到最合适的专家，从而优化性能，减少响应时间和成本，同时提高输出质量。

如何训练好一个PolyRouter

第一阶段：准备router数据

选择专家模型及数据集：首先，需要找到适合特定领域（如生物、编程、物理科学）的指令数据集和模型专家，以便路由模型学习传播相关的查询提示。
前向传播与收集指标：

在第一步中，对每个专家模型进行前向传播，以收集训练和测试路由模型所需的相关指标。
在第二步中，创建专家预测数据集。有必要收集以下指标：负对数似然（negative log likelihood）、BERT相似度评分（BERTSim）、推理时间（以秒为单位）、总输入标记数和总输出标记数。

生成软标签：

创建专家预测数据集后，选择收集的一个指标来生成软标签（第三步）。
当前工作中，使用BERTSim分数来创建软标签，并训练路由专家模型分类器。使用软标签的目的是希望路由模型学习专家的预测性能排名。

通过softmax函数生成软标签：

对于每个专家模型和每条指令记录，通过带温度的softmax函数生成软标签。例如，对于指令记录r-iexx，专家（类别）softmax概率φr可被表示为：φr(x; T)=p(T)Pj∈E exp(T)，其中E为专家总数，T为温度值，x为指标分数的向量。

参数设置：在评估中，基于BERT相似度分数生成专家的软标签，并设置温度值T=10。

该过程有助于为路由模型准备合适的输入数据，以提高其预测准确性和效率。

第二阶段：训练router

向量化表示：将指令记录通过路由器的嵌入模型（如Bag-of-Words、TF-IDF、BERT或其他语言模型）进行处理，以生成它们的向量化表示（步骤5）。
训练分类器：使用生成的嵌入训练提示到专家的分类器（步骤6）。这可以通过非参数的监督学习方法（例如kNN）、经典深度学习模型（例如多层感知器MLP）或更高级的语言序列预训练模型（如BERT）来实现。

第三阶段：Router的应用

查询处理：

新用户提交查询时，路由器首先对查询文本进行分词和编码，使用的是第2阶段调优后的嵌入模型（步骤8）。
然后，路由器对训练或微调后的分类模型（如MLP、BERT）进行前向传递，预测最相关的专家模型（步骤9）。

专家模型选择：根据分类模型的预测结果，路由器选择相应的专家提示适配器，提交并执行查询。
查询响应：查询执行完成后，路由器接收来自专家模型的回复，并将其转发给最终用户（步骤10）。
监控与调优：在路由器的部署期间，平台提供必要的监控能力，用于排查问题和调整路由模型，例如请求数量、查询的语义上下文、专家模型的命中频率以及总体成本等。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-26

深度学习！构建基于LangGraph的RAG多智能体研究工具。

2025-04-26

用RAG与Agent提升企业问答效率：我的AI实践之路

2025-04-26

理解 RAG 第一部分：为什么需要它

2025-04-26

理解 RAG 第三部分：融合检索与重新排序

2025-04-26

理解 RAG 第四部分：检索增强生成评估框架

2025-04-26

理解 RAG 第五部分：管理上下文长度

2025-04-26

RAG比之MCP或长上下文LLM，要没落了吗？

2025-04-26

【Ragflow】21.RagflowPlus(v0.2.1)：6个bug修复/增加重置密码功能

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全网最全国内Agent平台深度测评：扣子、Dify、FastGPT，谁是你的Agent开发首选？

2024-10-27

一文彻底搞懂大模型 - RAG（检索、增强、生成）

2024-09-04

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

RAGFlow：基于OCR和文档解析的下一代 RAG 引擎

2024-05-05

RAG框架，都在这了!

2024-06-20

RAG 高效应用指南：Embedding 模型的选择和微调

2024-06-13

深入解析 Graph RAG：提升语言模型问答能力的创新策略

2024-07-09

微软开源的GraphRAG解读

2024-07-09

基于Llama 3 构建RAG语音助手：将本地 RAG 与 Qdrant、Whisper 和 LangChain 集成

2024-05-19

Prompt工程师必备：复旦重磅 | 最佳RAG实践长什么样的？

2024-07-07

大家都在问

RAG比之MCP或长上下文LLM，要没落了吗？

2025-04-26

HR AI小科普——什么是MCP？

2025-04-25

RAG应用必备！10种向量数据库全解析、Weaviate、Milvus、pgvector、Qdrant等热门工具谁更强？

2025-04-22

18种RAG技术大比拼：谁才是检索增强生成的最佳选择？

2025-04-22

大模型能像专业分析师一样提取用户需求吗？

2025-04-20

RAG vs. CAG vs. Fine-Tuning：如何为你的大语言模型选择最合适的“脑力升级”？

2025-04-19

什么是RAG与为什么要RAG？

2025-04-18

真实场景下落地RAG的十条建议及RAG中如何提升个性化？

2025-04-16

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部