微信扫码
添加专属顾问
我要投稿
深入浅出地探索vLLM部署与QwQ-32B模型应用。核心内容:1. 部署vLLM的系统环境要求及准备工作2. QwQ-32B模型的下载、安装与运行过程3. 模型运行测试与API接口调用示例
nvidia-smi
curl http://localhost:8000/v1/completions -H "Content-Type: application/json" -d '{
"model": "QWQ-32B",
"prompt": "你好",
"max_tokens": 100
}'
from openai import OpenAI
# 初始化客户端(添加api_key参数)
client = OpenAI(
base_url="http://172.19.66.132:8000/v1",
api_key="dummy" # 虚拟密钥:ml-citation{ref="1" data="citationList"}
)
# 调用模型生成文本
response = client.completions.create( model="Qwen-1.5B", prompt="如何部署大语言模型?", max_tokens=200)
# 正确输出字段为response.choices.text
print(response.choices[0].text)
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-04
2025-02-04
2024-09-18
2024-07-11
2024-07-09
2024-07-11
2024-07-26
2025-02-05
2025-01-27
2025-02-01
2025-04-20
2025-04-01
2025-03-31
2025-03-20
2025-03-16
2025-03-16
2025-03-13
2025-03-13