我要投稿

全家桶来了！硅基流动上线加速版 DeepSeek-R1 蒸馏模型

发布日期：2025-02-05 04:48:04 浏览次数： 3157 作者：硅基流动

上线 671B 满血版 DeepSeek-R1、DeepSeek-V3 之后，今天，硅基流动 SiliconCloud 平台继续上线 6 款加速版 DeepSeek-R1 蒸馏版模型，包括 DeepSeek-R1-Distill-Llama-70B、DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Llama-8B(Free)、DeepSeek-R1-Distill-Qwen-7B(Free)、DeepSeek-R1-Distill-Qwen-1.5B(Free)。　

其中，上述 8B、7B、1.5B 模型可免费使用。用户与开发者只需在使用或开发 AI 应用时轻松调用 SiliconCloud 平台 API，带来更高效易用的使用体验。　

在线体验　

cloud.siliconflow.cn/models

API 文档　

docs.siliconflow.cn/api-reference/chat-completions

API 价格

一如既往，SiliconCloud 上的 DeepSeek-R1 蒸馏版模型 API 定价友好。14B 模型价格为￥0.7 / M tokens，32B 模型价格为￥1.26 / M tokens，70B 模型价格为￥4.13/ M tokens，1.5B、7B、8B 模型可免费使用。　

蒸馏小模型性能超越 o1-mini

DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Llama-70B 在多项能力上超越 OpenAI o1-mini。
　

Token 工厂 SiliconCloud
Qwen2.5（7B）等 20+ 模型免费用

作为一站式大模型云服务平台，SiliconCloud 致力于为开发者提供极速响应、价格亲民、品类齐全、体验丝滑的模型 API。

除了上述六款模型，SiliconCloud 已上架包括 DeepSeek-R1、DeepSeek-V3、Janus-Pro-7B、CosyVoice2、QVQ-72B-Preview、DeepSeek-VL2、DeepSeek-V2.5-1210、Llama-3.3-70B-Instruct、HunyuanVideo、fish-speech-1.5、Qwen2.5-7B/14B/32B/72B、FLUX.1、InternLM2.5-20B-Chat、BCE、BGE、SenseVoice-Small、GLM-4-9B-Chat 在内的数十种开源大语言模型、图片/视频生成模型、语音模型、代码/数学模型以及向量与重排序模型。平台支持开发者自由对比、组合各种模态的大模型，为你的生成式 AI 应用选择最佳实践。　

其中，DeepSeek-R1-Distill-Llama-8B、Qwen2.5（7B）等 30 款大模型 API 免费使用，让开发者与产品经理无需担心研发阶段和大规模推广所带来的算力成本，实现“Token 自由”。　

附：DeepSeek-R1 系列模型 API 使用指南

DeepSeek-R1 系列模型由 deepseek-ai 开发的高级语言模型，旨在通过输出思维链内容（reasoning_content）来提升最终回答的准确性。目前该接口和 deepseek 接口兼容，在使用该模型时，建议先升级 OpenAI SDK 以支持新参数。

安装与升级

在使用 DeepSeek-R1 之前，请确保已安装最新版本的 OpenAI SDK。可以通过以下命令进行升级：　

pip3 install -U openai

API 参数

输入参数：max_tokens：回答的最大长度（包含思维链输出），最大为 16K。
返回参数：

reasoning_content：思维链内容，与 content 同级。
content：最终回答内容

上下文拼接

在每一轮对话过程中，模型会输出思维链内容（reasoning_content）和最终回答（content）。在下一轮对话中，之前轮输出的思维链内容不会被拼接到上下文中。　

OpenAI 请求示例

流式输出请求

from openai import OpenAI

url = 'https://api.siliconflow.cn/v1/'
api_key = 'your api_key'

client = OpenAI(
    base_url=url,
    api_key=api_key
)

# 发送带有流式输出的请求
content = ""
reasoning_content=""
messages = [
    {"role": "user", "content": "奥运会的传奇名将有哪些？"}
]
response = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-R1",
    messages=messages,
    stream=True,  # 启用流式输出
    max_tokens=4096
)
# 逐步接收并处理响应
for chunk in response:
    if chunk.choices[0].delta.content:
        content += chunk.choices[0].delta.content
    if chunk.choices[0].delta.reasoning_content:
        reasoning_content += chunk.choices[0].delta.reasoning_content

# Round 2
messages.append({"role": "assistant", "content": content})
messages.append({'role': 'user', 'content': "继续"})
response = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-R1",
    messages=messages,
    stream=True
)

非流式输出请求

from openai import OpenAI
url = 'https://api.siliconflow.cn/v1/'
api_key = 'your api_key'

client = OpenAI(
    base_url=url,
    api_key=api_key
)

# 发送非流式输出的请求
messages = [
    {"role": "user", "content": "奥运会的传奇名将有哪些？"}
]
response = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-R1",
    messages=messages,
    stream=False, 
    max_tokens=4096
)
content = response.choices[0].message.content
reasoning_content = response.choices[0].message.reasoning_content

# Round 2
messages.append({"role": "assistant", "content": content})
messages.append({'role': 'user', 'content': "继续"})
response = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-R1",
    messages=messages,
    stream=False
)