支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


8卡H20运行DeepSeek-V3-0324性能和推理实测

发布日期:2025-04-20 06:27:57 浏览次数: 1526 作者:特沃兹道
推荐语

在8卡H20服务器上,DeepSeek-V3-0324 (685B)的性能和推理能力表现如何?

核心内容:
1. 8卡H20服务器配置及DeepSeek-V3-0324部署情况
2. DeepSeek-V3-0324 (685B)与DeepSeek-R1-AWQ (671B)的性能对比
3. DeepSeek-V3-0324在数学问题上的跑分表现

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

最近在一台 8卡H20 机器上,先后部署了 DeepSeek-R1-AWQ (671B)和最新的 DeepSeek-V3-0324 (685B) ,测试了下性能和数学问题跑分。服务器由火山引擎提供。先来看一下机器配置:

8卡H20机器配置

GPU:

+---------------------------------------------------------------------------------------+| NVIDIA-SMI 535.161.08             Driver Version: 535.161.08   CUDA Version: 12.2     ||-----------------------------------------+----------------------+----------------------+| GPU  Name                 Persistence-| Bus-Id        Disp.A | Volatile Uncorr. ECC || Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. ||                                         |                      |               MIG M. ||=========================================+======================+======================||   0  NVIDIA H20                     On  | 00000000:65:02.0 Off |                    0 || N/A   29C    P0              71/ 500|      0MiB / 97871MiB |      0%      Default ||                                         |                      |             Disabled |+-----------------------------------------+----------------------+----------------------+|   1  NVIDIA H20                     On  | 00000000:65:03.0 Off |                    0 || N/A   32C    P0              72/ 500|      0MiB / 97871MiB |      0%      Default ||                                         |                      |             Disabled |+-----------------------------------------+----------------------+----------------------+|   2  NVIDIA H20                     On  | 00000000:67:02.0 Off |                    0 || N/A   32C    P0              74/ 500|      0MiB / 97871MiB |      0%      Default ||                                         |                      |             Disabled |+-----------------------------------------+----------------------+----------------------+|   3  NVIDIA H20                     On  | 00000000:67:03.0 Off |                    0 || N/A   30C    P0              73/ 500|      0MiB / 97871MiB |      0%      Default ||                                         |                      |             Disabled |+-----------------------------------------+----------------------+----------------------+|   4  NVIDIA H20                     On  | 00000000:69:02.0 Off |                    0 || N/A   30C    P0              74/ 500|      0MiB / 97871MiB |      0%      Default ||                                         |                      |             Disabled |+-----------------------------------------+----------------------+----------------------+|   5  NVIDIA H20                     On  | 00000000:69:03.0 Off |                    0 || N/A   33C    P0              74/ 500|      0MiB / 97871MiB |      0%      Default ||                                         |                      |             Disabled |+-----------------------------------------+----------------------+----------------------+|   6  NVIDIA H20                     On  | 00000000:6B:02.0 Off |                    0 || N/A   33C    P0              73/ 500|      0MiB / 97871MiB |      0%      Default ||                                         |                      |             Disabled |+-----------------------------------------+----------------------+----------------------+|   7  NVIDIA H20                     On  | 00000000:6B:03.0 Off |                    0 || N/A   29C    P0              75/ 500|      0MiB / 97871MiB |      0%      Default ||                                         |                      |             Disabled |+-----------------------------------------+----------------------+----------------------+

这里踩过一个坑:最初的这个驱动版本有问题,在RTX4090上是好的,在H20上跑 DeepSeek-R1-AWQ 试过各种配置及软件版本,一推理就崩溃。后来换了NVIDIA官网为H20推荐的驱动版本 Driver Version: 550.144.03 ( CUDA 12.4), 什么配置都没改就好了。

卡间互联:

 	GPU0	GPU1	GPU2	GPU3	GPU4	GPU5	GPU6	GPU7 GPU0	X	OK	OK	OK	OK	OK	OK	OK GPU1	OK	X	OK	OK	OK	OK	OK	OK GPU2	OK	OK	X	OK	OK	OK	OK	OK GPU3	OK	OK	OK	X	OK	OK	OK	OK GPU4	OK	OK	OK	OK	X	OK	OK	OK GPU5	OK	OK	OK	OK	OK	X	OK	OK GPU6	OK	OK	OK	OK	OK	OK	X	OK GPU7	OK	OK	OK	OK	OK	OK	OK	X
Legend:
  X    = Self  OK   = Status Ok  CNS  = Chipset not supported  GNS  = GPU not supported  TNS  = Topology not supported  NS   = Not supported  U    = Unknown

内存:

# free -g              total        used        free      shared  buff/cache   availableMem:           1929          29        1891           0           9        1892Swap:             0           0           0

磁盘:

vda     252:0    0  100G  0 disk ├─vda1  252:1    0  200M  0 part /boot/efi└─vda2  252:2    0 99.8G  0 part /nvme3n1 259:0    0  3.5T  0 disk nvme2n1 259:1    0  3.5T  0 disk nvme0n1 259:2    0  3.5T  0 disk nvme1n1 259:3    0  3.5T  0 disk 

OS

# uname -aLinux H20 5.4.0-162-generic #179-Ubuntu SMP Mon Aug 14 08:51:31 UTC 2023 x86_64 x86_64 x86_64 GNU/Linux
# cat /etc/lsb-releaseDISTRIB_ID=UbuntuDISTRIB_RELEASE=20.04DISTRIB_CODENAME=focalDISTRIB_DESCRIPTION="Ubuntu 20.04.5 LTS"

启动推理

用 vLLM v0.8.2 启动推理服务,分别先后启动如下两个模型的推理:

  • DeepSeek-R1-AWQ: https://huggingface.co/cognitivecomputations/DeepSeek-R1-AWQ
  • DeepSeek-V3-0324:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3-0324

H20 性能评测

启动性能评测:

nohup python3 -u simple-bench-to-api.py --url http://localhost:7800/v1 \  --model DeepSeek-R1 \  --concurrencys 1,10,20,30,40,50 \  --prompt "Introduce the history of China" \  --max_tokens 100,1024,16384,32768,65536,131072 \  --api_key sk-xxx \  --duration_seconds 30 \  > benth-DeepSeek-R1-AWQ-8-H20.log 2>&1 &

这个命令会分别用 max_tokens 为100,1024,16384,32768,65536,131072, 来对1个并发,10个并发,。。。,50个并发,进行批量测试。每个max_tokens取值生成一个不同并发的表格。压测脚本 simple-bench-to-api.py 及详细参数含义在上一篇文章  《单卡4090上部署的DeepSeek-R1小模型的并发性能》  中有,需要的小伙伴可以自取。

压测结果:

8卡H20部署DeepSeek-R1-AWQ性能实测

----- max_tokens=100 压测结果汇总 -----



指标 \ 并发数
1个并发
10个并发
20个并发
30个并发
40个并发
50个并发
总请求数
4
40
80
120
160
200
成功率
100.00%
100.00%
100.00%
100.00%
100.00%
100.00%
平均延迟
7.8265s
8.1742s
8.3271s
8.6902s
8.7426s
9.0815s
最大延迟
7.9687s
8.2911s
8.4582s
9.0513s
9.0191s
9.4417s
最小延迟
7.7197s
8.1062s
8.1941s
8.4626s
8.4411s
8.7822s
P90延迟
7.9226s
8.2208s
8.4206s
8.9813s
8.9725s
9.2873s
P95延迟
7.9456s
8.2801s
8.4312s
9.0094s
8.9932s
9.3191s
P99延迟
7.9641s
8.2879s
8.4574s
9.0323s
9.0047s
9.4240s
平均首字延迟
7.8265s
8.1742s
8.3271s
8.6902s
8.7426s
9.0815s
总生成tokens数
400
4000
8000
12000
16000
20000
单并发最小吞吐量
12.55 tokens/s
12.06 tokens/s
11.82 tokens/s
11.05 tokens/s
11.09 tokens/s
10.59 tokens/s
单并发最大吞吐量
12.95 tokens/s
12.34 tokens/s
12.20 tokens/s
11.82 tokens/s
11.85 tokens/s
11.39 tokens/s
单并发平均吞吐量
12.78 tokens/s
12.23 tokens/s
12.01 tokens/s
11.51 tokens/s
11.44 tokens/s
11.01 tokens/s
总体吞吐量
12.75 tokens/s
121.90 tokens/s
238.84 tokens/s
343.09 tokens/s
454.13 tokens/s
545.88 tokens/s

其中有几个概念需要解释下

  • ”延迟“:从发出请求,到接收到最后一个token/字符的时间(包含了首字延迟时间)
  • “P90延迟”:分位数90的延迟,计算方法为延迟从小到大排序,前90%的最大延迟值,和下一个延迟值,基于线性插值计算的一个介于2者之间的值。
  • “首字延迟”:从发出请求,到接收到第一个返回字符的时间。
  • “单并发吞吐量”的概念,是指站在每个并发用户/通道的角度看,从首token返回后,token的生成速度。统计时间不包含首字延迟。即一个通道的吞吐量 = 该通道生成的token数/除首token延迟外的生成时间。个人觉得,这个指标加上平均首字延迟,能反映真实的用户体感。

具体指标的含义:

  • 平均延迟:所有通道的延迟平均值(包含了首字延迟时间)
  • 平均首字延迟:所有通道的首字延迟的平均值
  • 单并发最小吞吐量: 所有并发通道中,吞吐量最小的通道的吞吐量(不包括首字延迟时间)
  • 单并发最大吞吐量: 所有并发通道中,吞吐量最大的通道的吞吐量(不包括首字延迟时间)
  • 单并发平均吞吐量:所有并发通道的吞吐量的平均值(不包括首字延迟时间)
  • 总体吞吐量:在压测期间所有通道生成的tokens总数/压测开始到结束的时间
  • P90延迟: 表示有90%的请求延迟低于这个数值
  • P95延迟: 表示有95%的请求延迟低于这个数值
  • P99延迟: 表示有99%的请求延迟低于这个数值


具体可参见上一篇文章 单卡4090上部署的DeepSeek-R1小模型的并发性能


----- max_tokens=1024 压测结果汇总 -----



指标 \ 并发数
1个并发
10个并发
20个并发
30个并发
40个并发
50个并发
总请求数
1
11
20
32
40
50
成功率
100.00%
100.00%
100.00%
100.00%
100.00%
100.00%
平均延迟
80.4809s
64.4957s
69.2813s
60.0941s
64.3626s
74.9057s
最大延迟
80.4809s
81.5464s
84.0396s
83.1977s
85.0927s
91.6753s
最小延迟
80.4809s
27.0671s
34.2130s
28.8989s
33.0757s
36.8664s
P90延迟
80.4809s
80.1078s
83.9624s
76.2109s
82.3774s
91.6048s
P95延迟
80.4809s
80.8271s
83.9756s
80.3737s
83.5347s
91.6487s
P99延迟
80.4809s
81.4025s
84.0268s
83.1274s
85.0485s
91.6665s
平均首字延迟
80.4809s
64.4957s
69.2813s
60.0941s
64.3626s
74.9057s
总生成tokens数
1024
8700
16900
23560
30844
41068
单并发最小吞吐量
12.72 tokens/s
12.17 tokens/s
12.18 tokens/s
12.11 tokens/s
11.91 tokens/s
10.68 tokens/s
单并发最大吞吐量
12.72 tokens/s
12.46 tokens/s
12.22 tokens/s
12.42 tokens/s
12.05 tokens/s
11.19 tokens/s
单并发平均吞吐量
12.72 tokens/s
12.25 tokens/s
12.20 tokens/s
12.24 tokens/s
11.97 tokens/s
10.93 tokens/s
总体吞吐量
12.72 tokens/s
90.65 tokens/s
200.95 tokens/s
265.79 tokens/s
362.07 tokens/s
447.64 tokens/s

--- max_tokens=16384(16k) 压测结果汇总 -----



指标 \ 并发数
1个并发
10个并发
20个并发
30个并发
40个并发
50个并发
总请求数
1
10
20
30
40
50
成功率
100.00%
100.00%
100.00%
100.00%
100.00%
100.00%
平均延迟
53.7487s
62.1833s
59.5736s
66.6164s
63.7078s
72.2051s
最大延迟
53.7487s
85.7138s
80.2841s
87.5017s
89.1299s
94.0724s
最小延迟
53.7487s
36.8215s
37.6174s
52.0516s
35.3799s
60.3701s
P90延迟
53.7487s
83.6419s
75.6695s
84.9264s
81.5069s
86.5969s
P95延迟
53.7487s
84.6779s
79.7058s
86.3211s
83.7799s
88.3755s
P99延迟
53.7487s
85.5066s
80.1685s
87.3039s
87.1454s
93.0178s
平均首字延迟
53.7487s
62.1833s
59.5736s
66.6164s
63.7078s
72.2051s
总生成tokens数
692
7747
14729
24515
30655
38963
单并发最小吞吐量
12.87 tokens/s
12.42 tokens/s
12.33 tokens/s
12.23 tokens/s
11.88 tokens/s
10.59 tokens/s
单并发最大吞吐量
12.87 tokens/s
12.50 tokens/s
12.43 tokens/s
12.34 tokens/s
12.17 tokens/s
11.17 tokens/s
单并发平均吞吐量
12.87 tokens/s
12.45 tokens/s
12.36 tokens/s
12.27 tokens/s
12.01 tokens/s
10.77 tokens/s
总体吞吐量
12.86 tokens/s
90.32 tokens/s
183.34 tokens/s
279.89 tokens/s
343.62 tokens/s
413.93 tokens/s

----- max_tokens=32768(32k) 压测结果汇总 -----



指标 \ 并发数
1个并发
10个并发
20个并发
30个并发
40个并发
50个并发
总请求数
1
10
20
30
40
50
成功率
100.00%
100.00%
100.00%
100.00%
100.00%
100.00%
平均延迟
74.4107s
73.1775s
60.8819s
68.1447s
65.5262s
71.1695s
最大延迟
74.4107s
88.0205s
87.1197s
86.6508s
91.1330s
98.0503s
最小延迟
74.4107s
52.6583s
38.6691s
52.4571s
35.7134s
34.2791s
P90延迟
74.4107s
84.6266s
74.6224s
83.2444s
86.5026s
88.7393s
P95延迟
74.4107s
86.3236s
76.9170s
84.9372s
87.1154s
89.7969s
P99延迟
74.4107s
87.6811s
85.0792s
86.3908s
89.6305s
94.0741s
平均首字延迟
74.4107s
73.1775s
60.8819s
68.1447s
65.5262s
71.1695s
总生成tokens数
890
9204
15316
25457
31817
39101
单并发最小吞吐量
11.96 tokens/s
12.53 tokens/s
12.52 tokens/s
12.42 tokens/s
11.93 tokens/s
10.70 tokens/s
单并发最大吞吐量
11.96 tokens/s
12.62 tokens/s
12.68 tokens/s
12.51 tokens/s
12.28 tokens/s
11.44 tokens/s
单并发平均吞吐量
11.96 tokens/s
12.57 tokens/s
12.57 tokens/s
12.45 tokens/s
12.11 tokens/s
10.95 tokens/s
总体吞吐量
11.95 tokens/s
104.49 tokens/s
175.70 tokens/s
293.52 tokens/s
348.63 tokens/s
398.29 tokens/s

----- max_tokens=65536(64k) 压测结果汇总 -----



指标 \ 并发数
1个并发
10个并发
20个并发
30个并发
40个并发
50个并发
总请求数
1
10
20
30
41
50
成功率
100.00%
100.00%
100.00%
100.00%
100.00%
100.00%
平均延迟
44.1485s
63.6202s
62.0807s
63.1362s
64.5397s
71.4495s
最大延迟
44.1485s
83.4623s
132.1258s
86.3368s
93.9798s
96.6099s
最小延迟
44.1485s
32.3361s
37.1413s
33.7265s
24.4006s
40.7544s
P90延迟
44.1485s
78.2377s
73.5106s
81.1197s
82.5298s
88.7146s
P95延迟
44.1485s
80.8500s
77.1583s
84.0214s
83.8858s
92.7252s
P99延迟
44.1485s
82.9398s
121.1323s
86.3070s
92.4763s
96.0186s
平均首字延迟
44.1485s
63.6202s
62.0807s
63.1362s
64.5397s
71.4495s
总生成tokens数
587
8084
15619
23501
31612
38887
单并发最小吞吐量
13.30 tokens/s
12.62 tokens/s
12.52 tokens/s
12.36 tokens/s
11.76 tokens/s
10.63 tokens/s
单并发最大吞吐量
13.30 tokens/s
12.76 tokens/s
12.86 tokens/s
12.49 tokens/s
12.15 tokens/s
11.31 tokens/s
单并发平均吞吐量
13.30 tokens/s
12.70 tokens/s
12.56 tokens/s
12.40 tokens/s
11.93 tokens/s
10.85 tokens/s
总体吞吐量
13.28 tokens/s
96.78 tokens/s
118.15 tokens/s
272.05 tokens/s
336.11 tokens/s
401.98 tokens/s

----- max_tokens=131072 (128k)压测结果汇总 -----



指标 \ 并发数
1个并发
10个并发
20个并发
30个并发
40个并发
50个并发
总请求数
1
10
21
30
42
50
成功率
100.00%
100.00%
100.00%
100.00%
100.00%
100.00%
平均延迟
61.9497s
68.6144s
57.8482s
66.2845s
63.5500s
70.3486s
最大延迟
61.9497s
81.8154s
80.4513s
86.5205s
98.3918s
94.1867s
最小延迟
61.9497s
50.9891s
28.8903s
35.9238s
27.5084s
31.2229s
P90延迟
61.9497s
79.8821s
68.2121s
81.7377s
80.3188s
87.7278s
P95延迟
61.9497s
80.8488s
75.1345s
82.2849s
82.2353s
90.8710s
P99延迟
61.9497s
81.6221s
79.3879s
85.2935s
93.4738s
93.3895s
平均首字延迟
61.9497s
68.6144s
57.8482s
66.2845s
63.5500s
70.3486s
总生成tokens数
817
8420
14970
24307
31916
38895
单并发最小吞吐量
13.19 tokens/s
12.23 tokens/s
12.22 tokens/s
12.00 tokens/s
11.81 tokens/s
10.65 tokens/s
单并发最大吞吐量
13.19 tokens/s
12.32 tokens/s
12.39 tokens/s
12.33 tokens/s
12.26 tokens/s
11.39 tokens/s
单并发平均吞吐量
13.19 tokens/s
12.27 tokens/s
12.32 tokens/s
12.21 tokens/s
11.94 tokens/s
11.01 tokens/s
总体吞吐量
13.18 tokens/s
102.85 tokens/s
185.89 tokens/s
280.62 tokens/s
297.08 tokens/s
412.63 tokens/s

8卡H20部署DeepSeek-V3-0324性能实测

----- max_tokens=100 压测结果汇总 -----



指标 \ 并发数
1个并发
10个并发
20个并发
30个并发
40个并发
50个并发
总请求数
3
30
60
90
120
150
成功率
100.00%
100.00%
100.00%
100.00%
100.00%
100.00%
平均延迟
13.9587s
13.9900s
14.0511s
14.0769s
14.1673s
14.2916s
最大延迟
14.7636s
14.1010s
14.1825s
14.2707s
14.5726s
14.5179s
最小延迟
13.4980s
13.8632s
13.8544s
13.8677s
13.9031s
13.9850s
P90延迟
14.5338s
14.0850s
14.1607s
14.2467s
14.4279s
14.4478s
P95延迟
14.6487s
14.0952s
14.1649s
14.2566s
14.5099s
14.4803s
P99延迟
14.7407s
14.0994s
14.1749s
14.2640s
14.5641s
14.5124s
平均首字延迟
13.9587s
13.9900s
14.0511s
14.0769s
14.1673s
14.2916s
总生成tokens数
300
3000
6000
9000
12000
15000
单并发最小吞吐量
6.77 tokens/s
7.09 tokens/s
7.05 tokens/s
7.01 tokens/s
6.86 tokens/s
6.89 tokens/s
单并发最大吞吐量
7.41 tokens/s
7.21 tokens/s
7.22 tokens/s
7.21 tokens/s
7.19 tokens/s
7.15 tokens/s
单并发平均吞吐量
7.18 tokens/s
7.15 tokens/s
7.12 tokens/s
7.10 tokens/s
7.06 tokens/s
7.00 tokens/s
总体吞吐量
7.16 tokens/s
71.40 tokens/s
142.02 tokens/s
212.27 tokens/s
280.99 tokens/s
347.65 tokens/s

----- max_tokens=1024 压测结果汇总 -----



指标 \ 并发数
1个并发
10个并发
20个并发
30个并发
40个并发
50个并发
总请求数
1
10
20
30
40
50
成功率
100.00%
100.00%
100.00%
100.00%
100.00%
100.00%
平均延迟
95.4234s
96.8941s
97.4570s
105.0299s
107.1363s
99.7274s
最大延迟
95.4234s
107.9135s
125.9989s
132.9541s
136.2208s
122.7872s
最小延迟
95.4234s
83.9967s
80.7756s
86.1851s
81.2474s
82.7827s
P90延迟
95.4234s
106.9436s
117.0284s
124.7368s
119.3310s
111.3582s
P95延迟
95.4234s
107.4286s
120.1523s
128.7807s
123.0959s
115.2739s
P99延迟
95.4234s
107.8165s
124.8296s
132.1840s
132.3656s
120.8836s
平均首字延迟
95.4234s
96.8941s
97.4570s
105.0299s
107.1363s
99.7274s
总生成tokens数
718
6968
14059
22408
30259
35405
单并发最小吞吐量
7.52 tokens/s
7.18 tokens/s
7.20 tokens/s
7.09 tokens/s
7.03 tokens/s
7.09 tokens/s
单并发最大吞吐量
7.52 tokens/s
7.21 tokens/s
7.23 tokens/s
7.14 tokens/s
7.11 tokens/s
7.13 tokens/s
单并发平均吞吐量
7.52 tokens/s
7.19 tokens/s
7.21 tokens/s
7.11 tokens/s
7.06 tokens/s
7.10 tokens/s
总体吞吐量
7.52 tokens/s
64.56 tokens/s
111.55 tokens/s
168.47 tokens/s
222.03 tokens/s
288.12 tokens/s

----- max_tokens=16384(16k) 压测结果汇总 -----



指标 \ 并发数
1个并发
10个并发
20个并发
30个并发
40个并发
50个并发
总请求数
1
10
20
30
40
50
成功率
100.00%
100.00%
100.00%
100.00%
100.00%
100.00%
平均延迟
94.8628s
99.1652s
98.3011s
102.2118s
99.5501s
101.8411s
最大延迟
94.8628s
117.8686s
106.8626s
114.9650s
123.4567s
126.0541s
最小延迟
94.8628s
83.2503s
85.4619s
82.4278s
83.1481s
75.9468s
P90延迟
94.8628s
109.6080s
105.4161s
111.5839s
110.3189s
112.1986s
P95延迟
94.8628s
113.7383s
105.6092s
112.9895s
111.6643s
114.0535s
P99延迟
94.8628s
117.0425s
106.6119s
114.6945s
122.8847s
123.3202s
平均首字延迟
94.8628s
99.1652s
98.3011s
102.2118s
99.5501s
101.8411s
总生成tokens数
703
7094
14089
22235
28772
36390
单并发最小吞吐量
7.41 tokens/s
7.14 tokens/s
7.15 tokens/s
7.24 tokens/s
7.21 tokens/s
7.13 tokens/s
单并发最大吞吐量
7.41 tokens/s
7.19 tokens/s
7.18 tokens/s
7.27 tokens/s
7.23 tokens/s
7.18 tokens/s
单并发平均吞吐量
7.41 tokens/s
7.15 tokens/s
7.17 tokens/s
7.25 tokens/s
7.23 tokens/s
7.15 tokens/s
总体吞吐量
7.41 tokens/s
60.17 tokens/s
131.80 tokens/s
193.31 tokens/s
232.93 tokens/s
288.61 tokens/s

----- max_tokens=32768(32k) 压测结果汇总 -----



指标 \ 并发数
1个并发
10个并发
20个并发
30个并发
40个并发
50个并发
总请求数
1
10
20
30
40
50
成功率
100.00%
100.00%
100.00%
100.00%
100.00%
100.00%
平均延迟
80.5510s
93.5289s
97.1551s
100.7830s
99.8265s
99.5300s
最大延迟
80.5510s
107.8886s
133.6073s
156.9135s
116.2559s
115.6441s
最小延迟
80.5510s
79.7242s
84.5335s
82.8031s
81.1707s
81.6779s
P90延迟
80.5510s
105.1389s
112.7804s
111.3159s
112.8292s
109.1424s
P95延迟
80.5510s
106.5138s
114.0461s
115.8762s
115.5501s
110.0651s
P99延迟
80.5510s
107.6136s
129.6950s
145.9792s
116.1772s
113.7739s
平均首字延迟
80.5510s
93.5289s
97.1551s
100.7830s
99.8265s
99.5300s
总生成tokens数
607
6822
14068
21898
28614
35499
单并发最小吞吐量
7.54 tokens/s
7.29 tokens/s
7.23 tokens/s
7.22 tokens/s
7.14 tokens/s
7.12 tokens/s
单并发最大吞吐量
7.54 tokens/s
7.30 tokens/s
7.29 tokens/s
7.30 tokens/s
7.20 tokens/s
7.15 tokens/s
单并发平均吞吐量
7.54 tokens/s
7.29 tokens/s
7.24 tokens/s
7.24 tokens/s
7.16 tokens/s
7.13 tokens/s
总体吞吐量
7.53 tokens/s
63.21 tokens/s
105.25 tokens/s
139.52 tokens/s
246.08 tokens/s
306.83 tokens/s

----- max_tokens=65536(64k) 压测结果汇总 -----



指标 \ 并发数
1个并发
10个并发
20个并发
30个并发
40个并发
50个并发
总请求数
1
10
20
30
40
50
成功率
100.00%
100.00%
100.00%
100.00%
100.00%
100.00%
平均延迟
81.7039s
90.8889s
99.1065s
99.7213s
99.2848s
99.0839s
最大延迟
81.7039s
112.5239s
113.0623s
125.9377s
130.2727s
113.6320s
最小延迟
81.7039s
78.5028s
83.0163s
81.5086s
80.9710s
85.9351s
P90延迟
81.7039s
99.3878s
108.6772s
113.1816s
111.2980s
110.5696s
P95延迟
81.7039s
105.9558s
112.0033s
118.0436s
114.1228s
112.7986s
P99延迟
81.7039s
111.2103s
112.8505s
124.2411s
124.3386s
113.4573s
平均首字延迟
81.7039s
90.8889s
99.1065s
99.7213s
99.2848s
99.0839s
总生成tokens数
593
6538
14244
21620
28389
34942
单并发最小吞吐量
7.26 tokens/s
7.17 tokens/s
7.18 tokens/s
7.21 tokens/s
7.13 tokens/s
7.04 tokens/s
单并发最大吞吐量
7.26 tokens/s
7.23 tokens/s
7.19 tokens/s
7.25 tokens/s
7.20 tokens/s
7.08 tokens/s
单并发平均吞吐量
7.26 tokens/s
7.19 tokens/s
7.19 tokens/s
7.23 tokens/s
7.15 tokens/s
7.05 tokens/s
总体吞吐量
7.26 tokens/s
58.09 tokens/s
125.95 tokens/s
171.59 tokens/s
217.80 tokens/s
307.44 tokens/s

压测期间资源峰值:

+-----------------------------------------------------------------------------------------+| NVIDIA-SMI 550.144.03             Driver Version: 550.144.03     CUDA Version: 12.4     ||-----------------------------------------+------------------------+----------------------+| GPU  Name                 Persistence-| Bus-Id          Disp.A | Volatile Uncorr. ECC || Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. ||                                         |                        |               MIG M. ||=========================================+========================+======================||   0  NVIDIA H20                     Off |   00000000:65:02.0 Off |                    0 || N/A   39C    P0            176/  500|   95096MiB /  97871MiB |     95%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+|   1  NVIDIA H20                     Off |   00000000:65:03.0 Off |                    0 || N/A   46C    P0            184/  500|   95070MiB /  97871MiB |     23%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+|   2  NVIDIA H20                     Off |   00000000:67:02.0 Off |                    0 || N/A   45C    P0            178/  500|   95070MiB /  97871MiB |     95%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+|   3  NVIDIA H20                     Off |   00000000:67:03.0 Off |                    0 || N/A   41C    P0            180/  500|   95070MiB /  97871MiB |     97%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+|   4  NVIDIA H20                     Off |   00000000:69:02.0 Off |                    0 || N/A   40C    P0            180/  500|   95070MiB /  97871MiB |     95%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+|   5  NVIDIA H20                     Off |   00000000:69:03.0 Off |                    0 || N/A   45C    P0            182/  500|   95070MiB /  97871MiB |     97%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+|   6  NVIDIA H20                     Off |   00000000:6B:02.0 Off |                    0 || N/A   46C    P0            184/  500|   95070MiB /  97871MiB |     97%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+|   7  NVIDIA H20                     Off |   00000000:6B:03.0 Off |                    0 || N/A   40C    P0            182/  500|   95078MiB /  97871MiB |     98%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+

峰值 KV cache usage:

INFO 03-31 23:22:50 [loggers.py:80] Avg prompt throughput: 45.0 tokens/s, Avg generation throughput: 166.9 tokens/s, Running: 50 reqs, Waiting: 0 reqs, GPU KV cache usage: 7.7%, Prefix cache hit rate: 0.0%INFO 03-31 23:23:00 [loggers.py:80] Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 350.0 tokens/s, Running: 50 reqs, Waiting: 0 reqs, GPU KV cache usage: 7.7%, Prefix cache hit rate: 0.0%INFO 03-31 23:23:10 [loggers.py:80] Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 355.0 tokens/s, Running: 50 reqs, Waiting: 0 reqs, GPU KV cache usage: 15.4%, Prefix cache hit rate: 0.0%INFO 03-31 23:23:20 [loggers.py:80] Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 360.0 tokens/s, Running: 50 reqs, Waiting: 0 reqs, GPU KV cache usage: 15.4%, Prefix cache hit rate: 0.0%INFO 03-31 23:23:30 [loggers.py:80] Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 355.0 tokens/s, Running: 50 reqs, Waiting: 0 reqs, GPU KV cache usage: 23.2%, Prefix cache hit rate: 0.0%INFO 03-31 23:23:40 [loggers.py:80] Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 355.0 tokens/s, Running: 50 reqs, Waiting: 0 reqs, GPU KV cache usage: 30.9%, Prefix cache hit rate: 0.0%INFO 03-31 23:23:50 [loggers.py:80] Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 355.0 tokens/s, Running: 50 reqs, Waiting: 0 reqs, GPU KV cache usage: 30.9%, Prefix cache hit rate: 0.0%INFO 03-31 23:24:00 [loggers.py:80] Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 360.0 tokens/s, Running: 50 reqs, Waiting: 0 reqs, GPU KV cache usage: 38.6%, Prefix cache hit rate: 0.0%INFO 03-31 23:24:10 [loggers.py:80] Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 350.0 tokens/s, Running: 50 reqs, Waiting: 0 reqs, GPU KV cache usage: 38.6%, Prefix cache hit rate: 0.0%

数学数据集跑分实测

用 GitHub - huggingface/lighteval: Lighteval is your all-in-one toolkit for evaluating LLMs across multiple backends 分别对部署在8卡H20上的 DeepSeek-R1-AWQ 和 DeepSeek-V3-0324 做了数学测试集跑分。这里我们修改了少量 lighteval 代码,让其不去自己启动模型推理,而是调用已经部署好的模型的OpenAI API接口。测试结果如下:

8卡H20部署DeepSeek-R1-AWQ跑分实测

math500评估

修改后的评估命令:

(benchmark) root@H20:/data/code/lighteval# lighteval endpoint litellm model_args="http://localhost:7800" tasks="lighteval|math_500|0|0"

评估结果:

|        Task        |Version|     Metric     |Value|   |Stderr||--------------------|------:|----------------|----:|---|-----:||all                 |       |extractive_match|0.818|±  |0.0173||lighteval:math_500:0|      1|extractive_match|0.818|±  |0.0173|

8卡H20部署DeepSeek-V3-0324跑分实测

math500评估

修改后的评估命令:

(benchmark) root@H20:/data/code/lighteval# lighteval endpoint litellm model_args="http://localhost:7800" tasks="lighteval|math_500|0|0" --max-samples 20

为了节省时间,只取了 20 道题。

评估结果:

|        Task        |Version|     Metric     |Value|   |Stderr||--------------------|------:|----------------|----:|---|-----:||all                 |       |extractive_match| 0.95|±  |  0.05||lighteval:math_500:0|      1|extractive_match| 0.95|±  |  0.05|

测试期间峰值资源消耗:

|=========================================+========================+======================||   0  NVIDIA H20                     Off |   00000000:65:02.0 Off |                    0 || N/A   36C    P0            159/  500|   97048MiB /  97871MiB |     96%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+|   1  NVIDIA H20                     Off |   00000000:65:03.0 Off |                    0 || N/A   42C    P0            167/  500|   97022MiB /  97871MiB |     91%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+|   2  NVIDIA H20                     Off |   00000000:67:02.0 Off |                    0 || N/A   40C    P0            160/  500|   97022MiB /  97871MiB |     97%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+|   3  NVIDIA H20                     Off |   00000000:67:03.0 Off |                    0 || N/A   38C    P0            161/  500|   97022MiB /  97871MiB |     95%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+|   4  NVIDIA H20                     Off |   00000000:69:02.0 Off |                    0 || N/A   37C    P0            161/  500|   97022MiB /  97871MiB |     21%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+|   5  NVIDIA H20                     Off |   00000000:69:03.0 Off |                    0 || N/A   41C    P0            162/  500|   97022MiB /  97871MiB |     97%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+|   6  NVIDIA H20                     Off |   00000000:6B:02.0 Off |                    0 || N/A   42C    P0            164/  500|   97022MiB /  97871MiB |     97%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+|   7  NVIDIA H20                     Off |   00000000:6B:03.0 Off |                    0 || N/A   37C    P0            163/  500|   97030MiB /  97871MiB |     95%      Default ||                                         |                        |             Disabled |+-----------------------------------------+------------------------+----------------------+

aime25评估

修改后的评估命令:

(benchmark) root@H20:/data/code/lighteval# lighteval endpoint litellm model_args="http://localhost:7800" tasks="lighteval|aime25|0|0" --max-samples 20

为了节省时间,只取了 20 道题。

评估结果:


|       Task       |Version|     Metric     |Value|   |Stderr||------------------|------:|----------------|----:|---|-----:||all               |       |extractive_match|  0.4|±  |0.1124||lighteval:aime25:0|      1|extractive_match|  0.4|±  |0.1124|

aime25 是比较新的,但是这个分数貌似低于之前别人公布过的评测分数。可能是评测方法的问题,也可能评测过程中上下文有截断影响结果。






53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询