近期,通义千问发布最新推理模型 QwQ-32B。
微信扫码
添加专属顾问
我要投稿
核心内容:1. QwQ-32B和DeepSeek-R1性能及成本对比2. QwQ-32B的开源协议和应用场景3. Higress AI网关实现大模型无缝切换的详细教程大模型性能与成本的革命性突破,QwQ-32B与DeepSeek-R1的无缝切换教程来袭!
近期,通义千问发布最新推理模型 QwQ-32B。
个人用户可以在更小的移动设备上、本地就能运行。
如果是通过云上自建的方式,例如阿里云 PAI:
? DeepSeek R1:至少 2 台 8 卡 H20,100w+ / 年
? QwQ-32B:1 台单卡 H20,5w+ / 年
# 一键安装Higress(需Docker环境)
curl -sS https://higress.cn/ai-gateway/install.sh | bash
2)在 Higress 控制台创建路由,按照匹配模型名称的路由规则转发给两个不同的模型。
my-deepseek-r1 这条路由,匹配模型名称精确匹配 deepseek-r1,转发给自建的 DeepSeek-R1 模型服务:
from openai import OpenAI
# 统一访问Higress网关
client = OpenAI(
api_key="higress-api-key", # Higress控制台生成的二次鉴权密钥
base_url="http://localhost:8080/v1" # Higress网关地址
)
# 去往 deepseek 模型
response_deepseek = client.chat.completions.create(
model="deepseek-r1",
messages=[{"role": "user", "content": "解释量子计算"}]
)
# 去往 qwq 模型
response_qwq = client.chat.completions.create(
model="qwq-32b",
messages=[{"role": "user", "content": "写一首七言诗"}],
)
需要在 TPS 和成本之间找到平衡点,不可能无限增加资源。
没有联网搜索,大模型幻觉依然很大。
我们将 AI 网关的其他能力,汇总如下。
|
|
|
应对方案:
AI 网关支持基于模型名称做不同后端模型的切换,实现同一个接口对接多种大模型服务,这些大模型服务可以分别部署在不同的平台,例如百炼、PAI、IDC 自建等,即便不同模型隶属于不同的开发和运维团队,也不存在协作成本。
为每个租户分配独立 API Key,控制其调用权限和资源配额度,例如部门 A 的调用资源配额是每天每人 20 次,部门 B 的调用资源配额是每天每 30 次。
企业内部权限分级管控:企业内部不同角色需差异化访问模型能力。具体要求包括:
基于 RBAC(基于角色的访问控制)限制敏感功能(如模型微调、数据导出)。
出于成本考虑,多模态大模型只供设计部门调用。
身份可信:确保请求方为注册/授权用户或系统。
风险拦截:防止恶意攻击、非法调用与资源滥用。
合规保障:满足数据安全法规及企业审计要求。
成本控制:基于鉴权实现精准计费与 API 配额管理。
实现方案:
AI 网关支持当某个大模型服务请求失败后,Fallback 到指定的其他大模型服务,以保证服务的健壮性和连续性。
提升资源管理:大模型对计算资源的消耗不可控,限流可以防止系统过载,确保所有用户都能获得稳定性能,尤其在高峰期。
指定用户分层:可以基于 ConsumerId 或者 API Key 进行 Token 限流。
应对方案:
AI 网关提供了 ai-token-ratelimit 插件,实现了基于特定键值的 token 限流,键值来源可以是 URL 参数、HTTP 请求头、客户端 IP 地址、consumer 名称、cookie 中 key 名称。
金融行业敏感数据处理:审核用户输入的金融交易指令、投资咨询内容,防范欺诈、洗钱等违规行为。
对模型生成的财务报告、风险评估结果进行合规性校验。
医疗健康信息交互:电子病历生成内容,防止泄露患者隐私(如身份证号、诊断记录),确保 AI 生成的医疗建议符合相关法规。通过多模态大模型识别医疗影像中的敏感信息,并结合合规规则库进行自动化拦截。
社交媒体与 UGC 内容管理:实时审核用户发布的图文、视频内容,拦截涉黄、暴恐、虚假信息。对 AI 生成的推荐内容(如短视频标题、评论)进行合规性检查。
政务服务平台交互:审核公众提交的政务咨询内容,防止恶意攻击或敏感信息传播,确保 AI 生成的政策解读、办事指南符合相关法规。
防止攻击:验证输入可以阻止恶意提示注入,防止模型生成有害内容。
维护模型完整性:避免输入操纵模型,导致错误或偏见输出。
用户安全:确保输出没有有害或误导性内容,保护用户免受不良影响。
内容适度:过滤掉不适当的内容,如仇恨言论或不雅语言,特别是在公共应用中。
法律合规:确保输出符合法律和伦理标准,尤其在医疗或金融领域。
高频重复性查询场景:客服系统、智能助手等场景中,用户常提出重复问题(如“如何重置密码”“退款流程”),通过缓存常见问题的回答,避免重复调用模型,降低调用成本。
固定上下文多次调用场景:法律文件分析(如合同条款解读)、教育教材解析(如知识点问答)等场景,需对同一长文本多次提问。通过缓存上下文,避免重复传输和处理冗余数据,提升响应速度,降低调用成本。
复杂计算结果复用场景:数据分析与生成场景(如财报摘要、科研报告生成),对相同数据集的多次分析结果缓存,避免重复计算。
应对方案:
AI 网关提供了扩展点,可以将请求和响应的内容缓存到 Redis 中,并支持配置 Redis 服务信息、设置缓存时间。
LLM 重写 Query:基于 LLM 识别用户意图,生成搜索命令,可以大幅提升搜索增强效果。
关键词提炼:针对不同的引擎,需要生成不同的提示词,例如 Arxiv 里英文论文居多,关键词需要用英文。
领域识别:以 Arxiv 举例,Arxiv 划分了计算机科学/物理学/数学/生物学等等不同学科下的细分领域,指定领域进行搜索,可以提升搜索准确度。
长查询拆分:长查询可以拆分为多个短查询,提高搜索效率高质量数据:Google/Bing/Arxiv 搜索都只能输出文章摘要,而基于阿里云信息查询服务 IQS 对接 Quark 搜索,可以获取全文,可以提高 LLM 生成内容的质量典型应用场景效果展示。
基于 consumer 的 token 消耗统计。
基于模型的 token 消耗统计。
限流指标: 每单位时间内有多少次请求因为限流被拦截,限流消费者统计(是哪些消费者在被限流)。
缓存命中情况。
|
|||
|
|||
|
|
||
https://huggingface.co/Qwen/QwQ-32B
搭把手
? Higress 是阿里云开源的一款高性能网关,用于部署 Web 应用和大模型应用,并提供商业版服务,阿里云官网搜索「API 网关」。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-11
Manus AI:一夜爆红的AI新星——谈谈我的感受
2025-03-11
Manus 的胜利是产品的胜利
2025-03-11
尽可能简单地解释模型上下文协议MCP
2025-03-11
AI Agent的瓶颈与AI WorkFlow的流行
2025-03-11
当天复刻Manus,CAMEL-AI 聊Agent及Agent协作的发展趋势
2025-03-11
喝点VC|红杉对话OpenAI Deep Research团队:AI Agent将成为今年最具突破性技术,强化学习重新回归主流
2025-03-11
活久见!靠这篇搞懂AI Agent原理
2025-03-10
【一文看懂】大白话解释大模型的技术原理,为什么它那么聪明?
2024-08-13
2024-06-13
2024-09-23
2024-08-21
2024-05-28
2024-07-31
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-03-10
2025-03-10
2025-03-10
2025-03-10
2025-03-08
2025-03-08
2025-03-07
2025-03-07