TW WS4100-X4测试报告

TW WS4100-X4测试报告

保密级别:

E

撰写人:

高云辉

编制日期:

2026.03.19

最后修改日期:

2026.05.06

一、概述

1.1 测试目的

1、整机完整性

2、BMC功能性

3、操作系统兼容性

4、CPU性能

5、内存性能

6、推理卡性能

7、硬盘性能

8、散热静音

 

二、测试相关配置

2.1、硬件环境

类型

型号

版本

备注

工作站整机

TW WS4100-X4

V1.0.3

 

2.2、软件配置

类型

型号

版本

备注

OS

Ubuntu

26.04 LTS

 

内核版本

Linux Kernel

Linux 7.0.0-14-generic

 

GCC

Ubuntu 15.2.0-16ubuntu1

15.2.0

 

DPDK

本次不涉及

本次不涉及

 

三、测试结论

3.1    测试结论

综合以下测试得出结论,该硬件质量 稳定 (稳定/可控/风险/不可用)

四、测试项目

4.1实际测试内容

类别

分类

测试点

实测结果

备注

整机

工艺检查

机箱丝印

产品标签

PASS

 

IO口

PASS

 

状态灯

PASS

 

开关按键

PASS

 

主动置零锁

PASS

 

UK导入接口

PASS

 

电源槽位标识

PASS

 

机箱锁

PASS

 

面板接口

开关按键

PASS

 

USB口

PASS

 

主动置零锁

PASS

 

板载网口

PASS

 

面板LED

PASS

 

面板匹配性

前面板与机箱

PASS

 

卡挡片和机箱

PASS

 

挡片和PCIE卡

PASS

 

挡片和面板

PASS

 

机箱本体

风格

PASS

 

拉手

PASS

 

导轨安装孔位-侧面

PASS

 

导轨安装孔位-耳朵

PASS

 

进风口

PASS

 

出风口

PASS

 

上下面平整性

PASS

 

安装拆卸难易程度

PASS

 

边缘倒角做工

PASS

 

内部检查

接线

PASS

 

防尘

PASS

 

OS兼容性

功能

安装、启动

PASS

 

喂狗状态检测

PASS

 

异常不喂狗

PASS

 

稳定性

持续喂狗

PASS

 

电源

结构

安装

PASS

 

拆卸

PASS

 

监控

电源模块在位

PASS

 

供电

PASS

 

顺序

PASS

 

电源模块
指示灯

均未上电

PASS

 

所有PSU均供电未开机

PASS

 

1PSU均供电未开机,其余未供电

PASS

 

开机系统下

PASS

 

1PSU均供电且开机,其余未供电

PASS

 

可靠性

交替供电

PASS

 

输入异常下电1

PASS

 

输入异常下电2

PASS

 

输入异常下电3

PASS

 

长期轻重载循环测试

PASS

 

稳定性

整机reboot测试

 system test

PASS

 

整机idle测试

系统测试

PASS

 

AC powercycle

system test

PASS

 

整机系统stress测试

system test

PASS

 

随机上下电测试 

系统测试

PASS

 

整机功耗

服务器电源选型测试

 power

PASS

 

服务器能效测试

 power

PASS

 

整机散热

热测试报告模板3.1(全新系统)

thermal

PASS

 

热测试报告模板(增减配)

thermal

PASS

 

热测试报告模板(新部件)

thermal

PASS

 

结构稳定性

开机冲击测试

测试前进行软硬件配置检查和功能检查,确保机器是正确的配置,机器功能正常。

PASS

 

自由跌落测试

测试前进行软硬件配置检查和功能检查,确保机器是正确的配置,机器功能正常。

PASS

 

关机冲击测试

测试前进行软硬件配置检查和功能检查,确保机器是正确的配置,机器功能正常。

PASS

 

关机随机振动测试

测试前进行软硬件配置检查和功能检查,确保机器是正确的配置,机器功能正常。

PASS

 

开机随机振动测试

测试前进行软硬件配置检查和功能检查,确保机器是正确的配置,机器功能正常。

PASS

 

包装

包装运输测试

可靠性测试

PASS

 

可靠性测试

高速链路可靠性测试

高温启动以及压力运行

PASS

 

低温启动以及压力运行

PASS

 

四角测试

在环境温度和主板电压拉偏的组合条件下,对整机系统进行长时间压力测试

PASS

 

类别

分类

测试点

实测结果

备注

CPU

结构

CPU结构测试

PASS

 

功能

OS下CPU相关信息检查

基本信息

PASS

 

核心数

PASS

 

总线程

PASS

 

BIOS下CPU相关信息检查

PASS

 

 

多核浮点

PASS

 

密码软算

国际算法

PASS

 

国密算法

PASS

 

压力

Linux下CPU压力测试

PASS

 

可靠性

重启

OS reboot

PASS

 

DC reboot

PASS

AC reboot

PASS

静置测试

整机idle测试

PASS

监控

位置以及顺序

PASS

 

温度查看

PASS

 

满载温度

PASS

 

类别

分类

测试点

实测结果

备注

内存

结构

内存结构测试

观察内存外观时,注意观察内存边缘与DIMM槽接触和附近位置

PASS

 

功能

BIOS下内存基本功能测试

BIOS中检查内存频率时,需注意显示的是内存的实际运行频率,还是内存的标称频率,检查实际运行频率时需注意CPU是否支持内存运行到标称频率(可咨询供应商获取对应信息)

PASS

 

Linux下内存基本功能测试

查看内存实际运行频率时,需要注意是否有CPU限制(可咨询供应商)

PASS

 

性能

带宽
stream

单线程结果

PASS

 

多线程结果

PASS

 

时延

Lmbench

PASS

 

压力

Linux下内存压力测试

PASS

 

Linux下内存渐变压力测试

测试过程中可能会出现Broadcast和memory reduce fail。Broadcast Fail测试过程中不接网线可避免;memory reduce fail报错为stream环境配置变量设置的问题,不影响兼容性的结果,可忽略

PASS

 

类别

分类

测试点

实测结果

备注

磁盘

结构

外观和结构检查、确保磁盘可以在物理结构方面正常安装到现在的硬件系统中。

确保硬盘型号、接口、FW等正确,硬盘外观完好无磕碰划痕;
测试过程中确保硬盘与托架配合良好无安放困难、短路等风险;
硬盘安装到机器中后确保能接口接触良好,无干涉、插拔困难、划伤标签等异常发生

PASS

 

信息检查

确保磁盘识、链接别正常

直连模式下检测

PASS

 

BIOS下检查

PASS

 

阵列卡挂在下检测

N/A

 

功能

检查与现有的软件环境的兼容性

OS安装

PASS

 

性能测试

主要测试磁盘的文件读写性能,从带宽、IOPS、延时三个维度来评判。

顺序读吞吐量(大数据块)

PASS

 

随机读吞吐量(小数据块)

PASS

顺序写吞吐量(大数据块)

PASS

随机写吞吐量(小数据块)

PASS

质量保证

压力测试

硬盘压力测试

PASS

监控

使用率

PASS

温度

PASS

通电时间

PASS

类别

分类

测试点

实测结果

备注

类别

分类

测试点

实测结果

备注

网卡

结构

 

 

 

 

状态信息

系统下识别

型号

PASS

 

VID:DID

PASS

 

驱动查看
内核态

PASS

 

固件版本查看

PASS

 

网口顺序

PASS

 

PCIE速率

PASS

 

link LED

插入网线

PASS

 

down网口

PASS

 

拔出网线

PASS

 

down交换机端口

PASS

 

反复up/down

PASS

 

插拔光模块

PASS

 

Date LED

传输少量的数据

PASS

 

传输大量的数据

PASS

 

颜色检查

PASS

 

基本功能

连通性

添加IP

PASS

 

连通性

PASS

 

数据传输

PASS

 

修改IP

PASS

 

删除IP

PASS

 

速率配置

速率配置

PASS

 

DPDK

DPDK安装
21.11.4

PASS

 

DPDK下网卡绑定

PASS

 

Testpmd模型启动运行

PASS

 

性能

内核态吞吐 整卡

1k数据包

PASS

 

DPDK 整卡(用户态)

1k数据包

PASS

 

稳定性/压力

压力

网卡连通稳定性

PASS

 

重启

PASS

 

up/down

PASS

 

 五、TW WS4100-X4测试用例以及测试记录

5.1、整机

  1. 工艺结构

注:在TW WS4100-X4上进行测试

机箱丝印

测试内容

IO口、状态灯、开关机按键、电源槽位标识

测试方法

1,观察丝印信息显示是否正确。

2,观察丝印位置是否符合公司风格要求。

3,使用卡片对丝印来回摩擦十次,观察丝印是否有磨损。

预期结果

1,显示信息正确。

2,位置摆放正确。

3,丝印印刷质量过关。

测试结果

PASS

面板接口

测试内容

开关机按键

测试方法

1,观察开关按键的位置是否合理。

2,检查按键与机箱面板周围的接缝是否满足基线要求。

3,对按键进行按动,观察使用是否有问题。

预期结果

1,位置放置合理。

2,按键与面板接缝符合基线要求。

3,按键功能正常。

测试结果

PASS

测试内容

USB口

测试方法

1,检查USB口与面板接缝是否符合基线要求。

2,使用设备连接到USB口,检查USB口功能是否正常。

测试结果

PASS

测试内容

主动置零锁

测试方法

1,检查主动置零锁与面板接缝是否符合基线要求。

2,使用钥匙插入主动置零锁,扭动观察功能是否正常。

预期结果

1,与面板接缝符合基线要求。

2,功能使用正常。

测试结果

不涉及

测试内容

板载网口

测试方法

1,检查网口与面板接缝是否符合基线要求。

2,插入网线,使用设备进行连接,可以连接成功。

预期结果

1,与面板接缝符合基线要求。

2,功能使用正常。

测试结果

PASS

测试内容

面板LED

测试方法

1,检查网口与面板接缝是否符合基线要求。

2,机器上电开机关机观察指示灯显示是否符合基线要求。

预期结果

1,与面板接缝符合基线要求。

2,功能使用正常。

测试结果

PASS

面板匹配性

测试内容

前面板与机箱

测试方法

1,观察机器的前面板与机箱是否匹配,固定是否稳固。

2,观察面板安装安装方式是否合理。

预期结果

1,螺丝钉位置与机箱匹配。

2,面板固定稳固。

3,面板固定安装方式不复杂。

测试结果

不涉及

测试内容

卡挡片和机箱

测试方法

1,观察机器的安装PCIE卡的位置设计是否合理。

2,机器安装PCIE卡的方式是否合理。

3,安装完毕后的稳定性以及散热性是否合理。

预期结果

1,螺丝钉位置与面板相匹配。

2,挡片大小和面板开槽位置、宽度、高度、薄厚程度等均相匹配。

3,安装以后是否美观。

测试结果

PASS

测试内容

挡片和PCIE卡

测试方法

检查挡片与PCIE设备匹配是否匹配,是否稳固。

预期结果

1,螺丝钉位置与PCIE卡匹配。

2,挡片开口与网口位置、宽度、高度相匹配。

3,挡片开口与网卡led等相匹配。

测试结果

PASS

测试内容

挡片和面板

测试方法

观察机器,检查挡片与面板的匹配情况。

预期结果

挡片大小和面板开槽位置、宽度、高度、薄厚程度等均相匹配。

测试结果

PASS

内部检查

测试内容

接线

测试方法

对机箱内部的接线进行检查。包括但是不限于:

1,主板供电。

2,CPU供电。

3,磁盘供电与数据线连接。

4,CPU风扇以及机箱风扇与主板的连接。

5,开关机按键线路连接。

6,串口屏供电以及控制显示线路连接。

7,三级密码标准套件线路连接。

预期结果

机箱内部连线没有问题,且线路规划合理,做了对应的固定措施,理线不凌乱。

测试结果

PASS

测试内容

防尘

测试方法

检查机器的进风口与出风口是否做了防尘措施。

预期结果

机器的进风口与出风口都做了防尘措施。

测试结果

PASS

BMC

功能

测试内容

ip功能-DHCP

测试方法

# 设置为静态 IP 模式

ipmitool lan set 1 ipsrc dhcp

2、查看当前 BMC 网口配置

ipmitool lan print

[root@localhost ~]# ipmitool lan print

Set in Progress         : Set Complete

Auth Type Support       :

Auth Type Enable        : Callback :

                        : User     :

                        : Operator :

                        : Admin    :

                        : OEM      :

IP Address Source       : Static Address

IP Address              : 192.168.1.2

Subnet Mask             : 255.255.255.0

MAC Address             : 66:07:a7:d4:34:70

SNMP Community String   : TW@0531

Default Gateway IP      : 192.168.1.254

Default Gateway MAC     : 00:00:00:00:00:00

802.1q VLAN ID          : Disabled

RMCP+ Cipher Suites     : 17

Cipher Suite Priv Max   : aaaaaaaaaaaaaaa

                        :     X=Cipher Suite Unused

                        :     c=CALLBACK

                        :     u=USER

                        :     o=OPERATOR

                        :     a=ADMIN

                        :     O=OEM

Bad Password Threshold  : Not Available

[root@localhost ~]#

预期结果

在电脑浏览器打开BMC的远程登陆界面,如下,可以访问代表BMCip设置成功。

测试记录

image

image

测试结果

PASS

测试内容

ip功能-静态

测试方法

# 设置为静态 IP 模式

ipmitool lan set 1 ipsrc static

# 设置 IP 地址

ipmitool lan set 1 ipaddr 192.168.1.2

# 设置子网掩码

ipmitool lan set 1 netmask 255.255.255.0

# 设置默认网关

ipmitool lan set 1 defgw ipaddr 192.168.1.254

2、查看当前 BMC 网口配置

ipmitool lan print

[root@localhost ~]# ipmitool lan print

Set in Progress         : Set Complete

Auth Type Support       :

Auth Type Enable        : Callback :

                        : User     :

                        : Operator :

                        : Admin    :

                        : OEM      :

IP Address Source       : Static Address

IP Address              : 192.168.1.2

Subnet Mask             : 255.255.255.0

MAC Address             : 66:07:a7:d4:34:70

SNMP Community String   : TW@0531

Default Gateway IP      : 192.168.1.254

Default Gateway MAC     : 00:00:00:00:00:00

802.1q VLAN ID          : Disabled

RMCP+ Cipher Suites     : 17

Cipher Suite Priv Max   : aaaaaaaaaaaaaaa

                        :     X=Cipher Suite Unused

                        :     c=CALLBACK

                        :     u=USER

                        :     o=OPERATOR

                        :     a=ADMIN

                        :     O=OEM

Bad Password Threshold  : Not Available

[root@localhost ~]#

 

预期结果

在电脑浏览器打开BMC的远程登陆界面,如下,可以访问代表BMCip设置成功。

测试记录

image

 

image

测试结果

PASS

测试内容

用户添加、启用、管理员权限-在Linux后台使用ipmitool工具进行设置

测试方法

假设我们想新增:(前提是已经安装了 ipmitool 工具)

用户名:testadmin

密码:Admin@123

权限:Administrator(超级管理员)

1. 查看本地已有用户

ipmitool user list 1

1 是默认LAN Channel,基本99%的机器都是Channel 1。

这条命令会列出所有已有用户、用户ID。

例子输出:

ID

Name

Callin

Link Auth

IPMI Msg

Channel Priv Limit

1

ADMIN

true

true

true

ADMINISTRATOR

2

 

false

false

false

NO ACCESS

3

 

false

false

false

NO ACCESS

🔎 找一个空的ID,比如2、3、4号。

2. 设置新用户的名字

ipmitool user set name 3 testadmin

这里的 2 是你选的空闲用户ID。

3. 设置新用户的密码

ipmitool user set password 3 ‘Admin@123’

密码中如果有特殊字符,加引号防止Shell解释错误。

4. 给新用户分配超级管理员权限

ipmitool channel setaccess 1 3 link=on ipmi=on callin=on privilege=4

解释一下:

channel 1 = LAN Channel

2 = 用户ID

privilege=4 = Administrator权限

5. 启用新用户

ipmitool user enable 3

不启用的话,账号创建了也不能登录。

 

预期结果

刚才添加的账户密码:testadmin/Admin@123进行登陆,可以登陆则该表示该账户添加成功。

测试记录

image

测试结果

PASS

Redfish

测试内容

监控值获取 

测试方法

使用下面命令获取监控相关信息,命令路径可以不一样,curl -k -u “testadmin:Admin@123” https://192.168.95.214/redfish/v1/Chassis/1/Sensors | jq

预期结果

可以获取到监控数据,且信息无误

测试记录

image

测试结果

PASS

测试内容

监控值获取稳定性验证

测试方法

使用下面命令获取监控相关信息,命令路径可以不一样,写脚本,每秒获取一次,持续获取一个小时,curl -k -u “testadmin:Admin@123” https://192.168.95.214/redfish/v1/Chassis/1/Sensors | jq

预期结果

1、可以获取到监控数据,且信息无误。

2、一小时以内,全部的信息可以正确获取。

3、测试结束后,信息还可以全部获取。

测试记录

image

测试结果

PASS

 

  1. OS兼容性
功能

测试内容

安装、启动

测试方法

1、在Linux系统下挂载安装ISO文件,并从系统的ISO文件里获取常用软件安装包

 

预期结果

1、可以正常安装

2、安装软件功能正常

3、使用“dmesg | grep -i error”查看系统日志无异常报错。

测试记录

image

测试结果

PASS

稳定性

测试内容

放置12小时测试

测试方法

1、让系统正常工作状态下,放置12小时。

2、结束查看系统的工作状态以及机器是否重启。

预期结果

1、系统持续工作正常。

2、期间机器未发生重启。

测试记录

image

测试结果

PASS

5.2、CPU

结构检测

测试方法

1,CPU和CPU 散热器的丝印检查。

①检查CPU Socket以及散热器丝印

②对于主动散热器检查风扇电源接口对应丝印。

2,CPU和CPU散热器安装测试。

①根据防呆标识将CPU安装到Clip上。

②根据防呆标识将安装好的CPU和Clip安装到CPU散热器上。

③安装完毕后将散热器放安装在CPU Socket上,根据散热器上丝印依次拧紧螺丝

预期结果

丝印标识清晰、正确且散热器与挡风罩、机箱无结构干涉。

测试结果

PASS

功能测试
OS下CPU相关信息检查

测试项目

OS下CPU相关信息检查–基本信息

测试方法

1,机器开机正常进入OS。

2,使用以下命令分别查看CPU具体信息。

lscpu

cat /proc/cpuinfo

dmidecode -t processor

预期结果

1,命令可以执行成功。

2,CPU信息显示正确。

测试记录

image

image

image

测试结果

PASS

 

测试项目

OS下CPU相关信息检查—核心数

测试方法

1,机器开机正常进入OS。

2,使用命令cat /proc/cpuinfo| grep  “cpu cores”| uniq检查CPUcore

预期结果

1,命令可以执行成功。

2,CPU  core数量正确。

测试记录

image

测试结果

PASS

测试项目

OS下CPU相关信息检查—总线程

测试方法

1,机器开机正常进入OS。

2,使用命令cat /proc/cpuinfo| grep  “processor”| wc -l检查总线程数

预期结果

1,命令可以执行成功。

2,总线程数显示正确。

测试记录

image

测试结果

PASS

BIOS下CPU相关信息检查

测试项目

BIOS下CPU相关信息检查

测试方法

1. 根据产品设计需求,机器安装最小支持的CPU数量并上电开机。

2. POST过程查看CPU型号 以及个数

3. 按delete或F2进入BIOS setup界面,在Main下查看CPU型号、个数及频率,在Chipset->prosessor Configuration –>prosessor information查看对应CPU 的频率、型号、缓存等信息。(不同机型,BIOS下CPU信息查看路径不同)

预期结果

被测机器BIOS下CPU信息显示正确。

测试记录

image

image

测试结果

PASS

CPU性能

Speccpu2017

测试项目

Speccpu2017、单核整型、多核整型、单核浮点、多核浮点

测试方法

1,开机使用root账户进入操作系统。

2,将SPECCPU测试工具以及对应脚本拷贝到该机器。

3,安装gcc gcc+等工具部署测试环境。

4,将SPECCPU工具mount到/mnt上,然后进入/mnt里,运行install.sh脚本安装测试工具,根据提示完成SPECCPU工具的安装。

5,等待软件安装完毕,将测试工具包里的config文件拷贝到工具安装文件夹的config目录下。

6,进入工具安装目录的/bin文件夹下,运行命令./runcpu –config=gcc-linux-x86.cfg –copies=(此处填写全部CPU核心,包括超线程的核心) –loose fp 命令开始测试该平台的CPU的单核心整型计算性能。

7,等脚本运行起来后使用top命令查看CPU的负载,观察其核心负载在99%以上。

8,该测试根据CPU的性能差异会持续半天到三四天不等,等测试完毕后,CPU的核心负载回归正常,进入/home/result目录下查看测试结果。

预期结果

1,机器测试期间运行稳定,无宕机重启现象。

2,机器运行过程中无异常报错。

3,测试完毕后机器以及系统正常运行。

4,测试结果符合性能基线要求。

测试记录

未测试

测试结果

Block

Unixbench

本次不涉及

测试项目

密码软算—Unixbench

测试方法

1、上传并解压:tar -zxvf UnixBench5.1.3.tgz

tar -zxvf UnixBench5.1.3.tgz

cd UnixBench

2、安装依赖包(可通过yum源安装,也可以自己下载安装,此处忽略)

sudo apt install make automake gcc autoconf  time -y3 sysvinit-utils mesa-utils -y、编译安装:make

make

4、运行:./RUN

5、运行结束后,保存全部日志。

预期结果

1,机器测试期间运行稳定,无宕机重启现象。

2,机器运行过程中无异常报错。

3,测试完毕后机器以及系统正常运行。

4,测试结果符合性能基线要求。

测试记录

image

测试结果

平台性能较好,使用Speccpu工具来替换

 

国际算法

测试项目

密码软算—国际算法

测试方法

1、先确认测试机器的CPU核心数是多少。可以通过“grep “processor” /proc/cpuinfo | wc -l”命令查看。

2、将源码包上传,并运行下述命令进行编译安装。

安装参考

3、安装完毕后,然后从开始使用命令下述测试CPU的软算性能。

LD_LIBRARY_PATH=/opt/tongsuo/lib/ ./tongsuo speed -multi $Virt_CPUs rsa2048

Virt_CPUs代表测试使用的核心数:规则是取1以及CPU总核心数。

4、记录性能,并按照“性能实测记录sheet页”的格式记录测试结果。

预期结果

1、工具可以安装成功。

2、可以正确测试出性能。

3、测试过程中无意料外的错误。

4、按照性能实测记录模板统计实测数据。

测试记录

 

测试结果

不涉及

国密算法

测试项目

密码软算—国密算法

测试方法

1、先确认测试机器的CPU核心数是多少。可以通过“grep “processor” /proc/cpuinfo | wc -l”命令查看。

2、将tongsuo源码包上传,并运行下述命令进行编译安装。

3、安装完毕后,然后从开始使用命令下述测试CPU的软算性能。

LD_LIBRARY_PATH=/opt/tongsuo/lib/ ./tongsuo speed -multi $Virt_CPUs sm2

LD_LIBRARY_PATH=/opt/tongsuo/lib/ ./tongsuo speed -multi $Virt_CPUs -evp sm3

LD_LIBRARY_PATH=/opt/tongsuo/lib/ ./tongsuo speed -multi $Virt_CPUs -evp sm4

Virt_CPUs代表测试使用的核心数:规则是取1以及CPU总核心数。

4、记录性能,并按照“性能实测”的格式记录测试结果。

预期结果

1、工具可以安装成功。

2、可以正确测试出性能。

3、测试过程中无意料外的错误。

4、按照性能实测记录模板统计实测数据。

测试记录

 

测试结果

不涉及

CPU监控

CPU监控—位置及顺序

测试项目

CPU监控—位置及顺序

测试方法

1、使用厂商提供的监控工具对CPU是否在位进行检测。

预期结果

1、可以成功获取到CPU的在位信息。

2、CPU位置与检测工具读到的位置一一对应。

测试记录

image

测试结果

PASS

CPU监控—温度查看

测试项目

CPU监控—温度查看

测试方法

1,机器正常启动进入OS。

2,将CPU温度的检测工具拷贝到系统。

3,使用检测工具检测CPU的当前温度。

4,观察是否可以正确读取到CPU的当前温度。

预期结果

1,检测工具可正常使用。

2,能够正确读取到CPU的当前温度。

3、温度显示的单位为℃。

测试记录

image

测试结果

PASS

CPU监控—满载温度

本次不涉及,使用整机稳定性测试用例进行测试。

测试项目

CPU监控—满载温度

测试方法

1,机器正常启动进入OS。

2,将CPU温度的检测工具以及CPU的加压工具stress拷贝到系统。

3,使用CPU加压工具对CPU进行加压,等压力上去后再次使用检测工具检测CPU的当前温度。

4,观察是否可以正确读取到CPU的当前温度且CPU的满载温度满足基线要求。

预期结果

1,检测工具可正常使用。

2,能够正确读取到CPU的当前温度。

测试记录

不涉及

测试结果

Block

5.3、内存

内存结构

测试项目

内存结构测试

测试方法

1.将内存安装到DIMM槽中,观察安装结构和线缆、导风罩干涉情况

2.对内存进行拔插一次操作

3.继续重复拔插2次,观察内存外观

预期结果

1、内存可正常拔插,无结构干涉。

2、重复拔插后外观正常。

测试结果

PASS

内存功能

测试项目

内存功能-BIOS下内存基本功能测试

测试方法

1.上电开机,在POST过程中检查内存容量频率等相关信息

2.按delete进入BIOS,在BIOS Main首页检查内存总容量、实际运行频率、内存容量、频率、厂家、rank数、内存数量和安装位置等相关信息

预期结果

内存容量、频率、厂家、rank数、内存数量和安装位置与实际安装的内存信息一致;内存总容量与实际安装一致,实际运行频率符合规范定义。

测试记录

image

测试结果

PASS

测试项目

内存功能-Linux下内存基本功能测试

测试方法

1. 查看内存总容量,打开终端输入命令:

dmidecode |grep -B 1 DIMM|grep Size|awk ‘{a+=$2}END{print a}’

2.使用dmidecode -t memory |more命令查看内存型号,容量,数量和安装位置,厂家,PN,rank数,标称频率,实际运行频率等信息,(Speed为标称频率,Configured Clock Speed为实际频率)

预期结果

内存容量、频率、厂家、rank数、内存数量和安装位置与实际安装的内存信息一致;内存总容量与实际安装一致,实际运行频率符合规范定义。

测试记录

image

测试结果

PASS

内存性能

测试项目

内存性能—带宽—单线程

测试方法

1、登录root用户,将stream.c工具拷贝到测试机器。

2、使用下面命令编译stream工具

      gcc stream.c -O3 -DSTREAM_ARRAY_SIZE=40000000 -DOFFSET=4096 -DNTIMES=3 -o stream_single.o

3、执行单线程测试:./stream_single.o

预期结果

1,机器测试期间运行稳定,无宕机重启现象。

2,机器运行过程中无异常报错。

3,测试完毕后机器以及系统正常运行。

4,测试结果符合性能基线要求。

测试记录

image

测试结果

PASS

 

测试项目

内存性能—带宽—多线程

测试方法

1、登录root用户,将stream.c工具拷贝到测试机器。

2、使用下面命令编译stream工具

      gcc stream.c -O3 -fopenmp -DSTREAM_ARRAY_SIZE=40000000 -DOFFSET=4096 -DNTIMES=3 -o stream_mult.o

3、执行多线程测试:./stream_mult.o

预期结果

1,机器测试期间运行稳定,无宕机重启现象。

2,机器运行过程中无异常报错。

3,测试完毕后机器以及系统正常运行。

4,测试结果符合性能基线要求。

测试记录

image

测试结果

PASS

内存压力

测试项目

内存压力–Linux下内存压力测试

测试方法

1、将stress-ng测试工具并拷贝到系统下,使用tar -zxvf 文件名 解压,然后安装并运行“stress-ng -i 10 –vm 10 –vm-bytes 2G(内存总容量-2G) –timeout 1h” 对CPU进行加压测试。

2、内存占用查看。

测试过程中查看内存的使用情况,是否达到80%以上。

3、测试完毕后,使用下列命令手动检查系统日志:

dmesg | grep -Ei “error|fail|warm”

cat /var/log/messages | dmesg | grep -Ei “error|fail|warm”

cat /var/log/mcelog | dmesg | grep -Ei “error|fail|warm”

预期结果

内存读写正常,内存容量、主频等显示正常,日志无error、fail等提示,BMC下内存相关信息正确,日志无内存ECC,UCE等相关error

测试记录

image

测试结果

PASS

测试项目

内存压力–Linux下内存渐变压力测试

测试方法

1、将stream文件拷入测试机linux系统下,打开终端执行:sh run_flu_stress.sh

2、输入100,程序会在执行100次测试后自动停止。

3、测试完毕后,使用下列命令手动检查系统日志:

dmesg | grep -Ei “error|fail|warm”

cat /var/log/messages | dmesg | grep -Ei “error|fail|warm”

cat /var/log/mcelog | dmesg | grep -Ei “error|fail|warm”

预期结果

内存读写正常,内存容量、主频等显示正常,日志无error、fail等提示,BMC下内存相关信息正确,日志无内存ECC,UCE等相关error

测试记录

image

测试结果

PASS

5.4、推理卡

信息检查-硬件检测

测试项目

硬件检测

测试方法

1、迎着光看 PCIe 金手指。正常的拔插痕迹是浅浅的竖线;如果划痕深至露铜,或者金手指发暗、发黑(严重氧化),说明使用环境极其恶劣或经历了无数次暴力拔插。2、查看显卡SN码看是否正确。3把显卡水平举起,视线与 PCB 板平行。高端卡散热模组极重,如果没有使用显卡支架,长期受重力影响会导致 PCB 尾部明显下弯。严重下弯的卡,其核心 BGA 焊点极有可能已经处于断裂边缘

测试记录

image

image

 

测试结果

PASS

信息检查-Linux下GPU信息查看

测试项目

Linux下GPU信息查看

测试方法

1.物理层扫描:运行时lspci | grep -i nvidia,确认内核是否完整识别到所有物理显卡及其编号

2再执行lspci -vvv -s 编号

3.运行nvidia-smi -q,深度查看显卡的驱动版本、显存容量、PCIe详细仓库实际带宽(Gen5 32GT/s)以及是否存在硬件降速警告。

测试记录

image

image

image

测试结果

PASS

信息检查-BMC下GPU信息检查-UEFI

测试项目

BMC下GPU信息检查-UEFI

测试方法

1.带外资产识别:登录BMC Web界面,导航至“系统清单”下的“GPU清单”页面,确认BMC是否能覆盖操作系统系统识别到物理插槽中的GPU设备。

2.物理货运规格校验:核对清单中的槽位号与物理安装位置是否一致;重点检查链路宽度与链路速度。

3.ID唯一性连接:对比记录中的Vendor ID和Device ID),确保硬件基础ID正确且未发生偏移。

测试记录

image

测试结果

  名称显示异常: BMC 界面中设备名称显示为通用的 VGA compatible controller,而非具体的 PRO 4000。

  原因分析: 底层 Device ID (0x2C34) 识别准确。名称未明确显示是因为当前 BMC 固件内置的 PCIe 设备名录(PCI ID Repository)尚未更新至最新 Blackwell 架构显卡字段,属于软件显示层面的预期现象,不影响硬件本身的实际功能与性能。

 

 

信息检查-GPU温度阈值检查

测试项目

GPU温度阈值检查

测试方法

1.静态数据采集:通过SSH或物理终端登录Ubuntu系统,输入:nvidia-smi -q -d TEMPERATURE

观察其命令后的信息

 

 

测试记录

image

测试结果

PASS

 

 

基本功能-手动-Linux下驱动及CUDA安装

测试项目

手动-Linux下驱动及CUDA安装

测试方法

参照知识库文档(知识库搜索英伟达显卡安装CUDA)

或者使用以下操作步骤

apt install gcc make -y

echo “blacklist nouveau” >> /etc/modprobe.d/blacklist.conf

echo “options nouveau modeset=0” >> /etc/modprobe.d/blacklist.conf

update-initramfs -u

之后重启

安装cuda

wget https://developer.download.nvidia.com/compute/cuda/13.2.1/local_installers/cuda_13.2.1_595.58.03_linux.run

下载完成后执行

sh cuda_13.2.1_595.58.03_linux.run

输入accept

然后按方向键到install

安装完成后

vim /etc/profile添加环境变量

PATH=/usr/local/cuda-13.2/bin:$PATH

LD_LIBRARY_PATH=/usr/local/cuda-13.2/lib64:$LD_LIBRARY_PATH

vim /etc/ld.so.conf

添加/usr/local/cuda-13.2/lib64

source /etc/profile

执行nvcc -V查看cuda

 

测试记录

image

image

 

测试结果

PASS

基本功能-Device Query连通性测试

测试项目

Device Query连通性测试(单卡测试)

测试方法

git clone https://github.com/NVIDIA/cuda-samples.git

cd cuda-samples/Samples/1_Utilities/deviceQuery

mkdir build && cd build

cmake ..

make

./deviceQuery

 

测试记录

image

测试结果

PASS

基本功能-NCCL-test测试库安装

测试项目

NCCL-test测试库安装

测试方法

apt update

sudo apt install libnccl2 libnccl-dev -y

git clone https://github.com/NVIDIA/nccl-tests.git

cd nccl-tests

make CUDA_HOME=/usr/local/cuda-13.2

然后执行ldconfig -p | grep nccl查看有无安装成功

测试记录

image

测试结果

PASS

 

基本功能-加压风扇自动调速测试

测试项目

加压风扇自动调速测试

测试方法

1.静态基准采集:在系统空闲状态下观察nvidia-smi输出,记录显卡在接下来时的温​​度与风扇初始百分比。

2.满载负载负载:运行高负载压力测试工具,强制GPU进入100%负载状态,持续观察负载从6W峰值到145W满载的过程。

3.动态调速监控:使用watch -n 1 nvidia-smi实时监控。重点观察随着温度升高,风扇是否会根据预设的温控曲线自动上调。

 

测试记录

压测前

image

压测后

image

测试结果

PASS

性能测试-GEMM性能测试

测试项目

GEMM性能测试(单卡测试)

测试方法

 

git clone https://github.com/NVIDIA/cutlass.git

cd cutlass

mkdir build && cd build

cmake .. -DCUTLASS_NVCC_ARCHS=100

(cmake .. -DCMAKE_CUDA_ARCHITECTURES=native)

make cutlass_profiler -j$(nproc)

./tools/profiler/cutlass_profiler –operation=gemm –tags=all –m=8192 –n=8192 –k=8192

测试记录

image

image

image

image

测试结果

PASS

性能测试-bandwidth带宽性能测试

测试项目

bandwidth带宽性能测试(单卡测试)

测试方法

apt install -y build-essential cmake libboost-program-options-dev

git clone https://github.com/NVIDIA/nvbandwidth.git

cd nvbandwidth

cmake .

make -j

./nvbandwidth

 

测试记录

image

image

image

测试结果

PASS

性能测试-P2P性能测试(注:单卡测试)

测试项目

P2P性能测试(单卡测试)

测试方法

git clone https://github.com/NVIDIA/cuda-samples.git

cd cuda-samples

mkdir build

cd build

apt install cmake

cmake ..

make -j$(nproc)

find / -name p2pBandwidthLatencyTest

例子:

root@vip:~/cuda-samples/build# find / -name p2pBandwidthLatencyTest

/root/cuda-samples/Samples/5_Domain_Specific/p2pBandwidthLatencyTest

/root/cuda-samples/build/Samples/5_Domain_Specific/p2pBandwidthLatencyTest

/root/cuda-samples/build/Samples/5_Domain_Specific/p2pBandwidthLatencyTest/p2pBandwidthLatencyTest

p2pBandwidthLatencyTest/p2pBandwidthLatencyTest这个就是

然后cd /root/cuda-samples/build/Samples/5_Domain_Specific/p2pBandwidthLatencyTest

执行./p2pBandwidthLatencyTest

 

测试记录

image

测试结果

PASS

性能测试-NCCL alltoall带宽性能测试

测试项目

NCCL alltoall带宽性能测试(单卡测试)

测试方法

安装nccl-test库且进入库文件下后执行

./build/alltoall_perf -b 8 -e 1G -f 2 -g 1

测试记录

image

 

测试结果

PASS

性能测试-NCCL all_reduce带宽性能测试

测试项目

NCCL all_reduce带宽性能测试(单卡测试)

测试方法

安装nccl-test库且进入库文件下后执行

1. 运行 All-Reduce 带宽测试

All-Reduce 是大模型训练(如数据并行)中最常用的底层通信算子。执行以下命令开始压测:

 

Bash

./build/all_reduce_perf -b 8 -e 1G -f 2 -g 1

 

测试记录

image

测试结果

PASS

压力测试-DCGM压力测试

测试项目

DCGM压力测试(单卡测试)

测试方法

wget https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2404/x86_64/datacenter-gpu-manager-4-cuda13_4.5.3-1_amd64.deb

wget https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2404/x86_64/datacenter-gpu-manager-4-core_4.5.3-1_amd64.deb

dpkg -i datacenter-gpu-manager-4-core_4.5.3-1_amd64.deb

dpkg -i datacenter-gpu-manager-4-cuda13_4.5.3-1_amd64.deb

# 刷新 systemd 缓存

systemctl daemon-reload

 

# 启用并启动服务

systemctl enable nvidia-dcgm

systemctl start nvidia-dcgm

 

# 确认服务状态 (应该是 Active: active (running))

systemctl status nvidia-dcgm

nvidia-smi -pm 1开启持久化

dcgmi diag -r 4

有1、2、3、4个

在 NVIDIA 数据中心 GPU 管理工具(DCGM)中,dcgmi diag -r 命令用于执行不同级别的诊断测试(Diagnostic)。参数 1、2、3、4 代表了四个预定义的测试组(Test Groups),其测试强度和持续时间逐级递增。

 

作为服务器测试工程师,你可以根据测试阶段(如:组装后初检 vs. 出货前老化)选择不同的级别。

 

DCGM 诊断级别详解

-r 1:快速检查 (Quick)

持续时间:通常小于 1 分钟。

 

目的:确认 GPU 基础健康状态和驱动环境。

 

测试内容:

 

Deployment:检查驱动程序版本、CUDA 版本、权限等。

 

Blacklist:检查显存中是否存在无法修复的页面黑名单。

 

NVLink:简单的连接状态扫描。

 

-r 2:中等强度 (Medium)

持续时间:约 2-5 分钟。

 

目的:在不进行大规模压力测试的情况下验证基本功能。

 

测试内容:

 

包含 Level 1 的所有内容。

 

Graphics / Compute:简单的计算逻辑验证。

 

Memory:显存读写基本验证(非完整扫描)。

 

-r 3:全面检查 (Full)

持续时间:约 5-20 分钟。

 

目的:生产环境或集成测试中最常用的标准级别。

 

测试内容:

 

包含 Level 2 的所有内容。

 

Stress:中等强度的压力测试,观察功耗和温度。

 

Bandwidth:测试 PCIe/NVLink 的实际带宽表现。

 

Memtest:较深入的显存位翻转检查。

 

-r 4:长期压测/老化 (Extended)

持续时间:通常较长(可能持续数十分钟甚至更久,视硬件规模而定)。

 

目的:极限压力测试,用于捕捉偶发性的硬件缺陷或散热问题。

 

测试内容:

 

包含 Level 3 的所有内容。

 

High-intensity Stress:满载压测,强制 GPU 运行在最高功耗限制附近。

 

Detailed Diagnostic:更详尽的 ECC 错误统计和热限制(Throttling)分析。

 

测试记录

image

image

image

image

 

测试结果

DCGM 4.5.3 面对最新的 RTX PRO 4000 选择 Skip,是工具本身的标准保护机制。它没有报 Fail,就说明它在底层硬件轮询时没有发现任何硬件故障(No Hardware Errors)

故targeted_stress由gpu-burn 100% 满载替代targeted_power由已由 dcgmi dmon 实时监控 145W 替代

targeted_stress测试由gpu-burn测试代替

targeted_power由Skip -> 已由 dcgmi dmon 实时监控 145W 替代

 

 

压力测试-GPU Burn测试(12h)

测试项目

GPU Burn测试(12h)(单卡测试)

测试方法

进入到gpu-burn测试工具下执行make 然后执行./gpu_burn 43200

可以使用tmux,防止压测断开

测试记录

image

测试结果

PASS

压力测试-整机压力测试(12h)

测试项目

整机压力测试(12h)

测试方法

执行GPU压测 、CPU压测、内存压测、压测12小时

Gpu使用gpu-burn压测12小时 cpu和内存使用stress-ng压测12小时

测试记录

image

image

image

测试结果

PASS

压力测试-Linux下reboot测试(100次)

测试项目

Linux下reboot测试(100次)

测试方法

执行hw_test\stability\reboot下的四个测试脚本。根据不同系统进行修改

测试记录

 

image

image

image

测试结果

cutlass_profile 内存段错误1次

NVIDIA 驱动内核签名警告(出现 101 次)

 

5.5、硬盘

结构

测试项目

磁盘结构-外观和结构检查

测试方法

1. 标签检验:检查标签是否完好无污染,标签信息是否准确

2. 外观检查:检查硬盘表面是否有划痕、磕碰,硬盘螺孔螺纹是否有损

3. 将硬盘水平放入硬盘托架中(有标签的一面向上);硬盘托架孔位与硬盘螺丝孔位对齐(有接口的一侧向外,有条型码的一侧靠近硬盘托架的卡扣)硬盘螺丝顺时针上紧安装

4. 检查硬盘托架与硬盘PCB有无直接接触和短路风险

预期结果

测试之前确保硬盘型号、接口、FW等正确,硬盘外观完好无磕碰划痕;测试过程中确保硬盘与托架配合良好无安放困难、短路等风险;硬盘安装到机器中后确保能接口接触良好,无干涉、插拔困难、划伤标签等异常发生

测试结果

PASS

信息检查

测试项目

磁盘信息检查-直连模式下检测

测试方法

Linux系统下,使用smartctl –a /dev/sd*命令查看硬盘smart信息(其中sd*为待测硬盘)

预期结果

硬盘SMART日志能正常获取;SMART各值正常

测试记录

image

 

测试结果

PASS

测试项目

磁盘信息检查-阵列卡挂载下检测

测试方法

1. Linux系统下,用命令lsscsi -g获取硬盘的ID号

2. 然后运行命令:smartctl –a /dev/sg1,抓取硬盘的SMART信息

预期结果

硬盘SMART日志能正常获取;SMART各值正常

测试记录

image

测试结果

PASS

功能

测试项目

OS安装

测试方法

1.按delete或Tab键,进入BIOS setup界面

2.进入boot设置页面,调整顺序为U盘为第一启动项

3.重启服务器,观察服务器是否从U盘开始引导(U盘启动盘提前应做好)

预期结果

1.可成功调整第一启动项为U盘启动

2.可以成功由U盘加载系统

3.视频记录以上步骤

测试记录

image

测试结果

PASS

性能测试

测试项目

磁盘性能测试-随机读吞吐量(大数据块)

测试方法

1,将需要测试的硬盘接在测试机器上,并开机进入系统,通过lsblk命令查看新安装的测试盘的盘符。

2,执行“dd if=/dev/urandom of=/var/crash/ddtest.file bs=1M count=10000 oflag=direct status=progress”

预期结果

1,机器测试期间运行稳定,无宕机重启现象。

2,机器运行过程中无异常报错。

3,测试完毕后机器以及系统正常运行。

4,测试完毕后,硬盘仍可以正常识别且可以正常读写。

测试记录

image

 

测试结果

Pass

测试项目

磁盘性能测试-随机读吞吐量(小数据块)

测试方法

1,将需要测试的硬盘接在测试机器上,并开机进入系统,通过lsblk命令查看新安装的测试盘的盘符。

2,执行“dd if=/dev/urandom of=/var/crash/ddtest.file bs=4k count=10000 oflag=direct status=progress”

预期结果

1,机器测试期间运行稳定,无宕机重启现象。

2,机器运行过程中无异常报错。

3,测试完毕后机器以及系统正常运行。

4,测试完毕后,硬盘仍可以正常识别且可以正常读写。

测试记录

image

测试结果

PASS

磁盘监控

 

磁盘.16

测试项目

磁盘监控-使用率

测试方法

1,机器开机后进入OS。

2,使用df -h命令查看硬盘使用率。

预期结果

1,读取信息成功。

2,读取的信息正确。

测试记录

image

测试结果

PASS

 

磁盘.17

测试项目

磁盘监控-温度

测试方法

1,机器开机进入OS。

2,安装smart工具读取硬盘smart分区的温度信息。

smartctl -A /dev/sda | grep 194

预期结果

1,读取信息成功。

2,读取的信息正确。

测试记录

阵列卡下,本次不涉及

测试结果

Block

 

磁盘.18

测试项目

磁盘监控-通电时间

测试方法

1,机器开机进入OS。

2,安装smart工具读取硬盘smart分区的硬盘通电时间信息。

smartctl -A /dev/sda | grep “Power_On_Hours”

预期结果

1,读取信息成功。

2,读取的信息正确。

测试记录

image

 

测试结果

PASS

5.6、散热静音

测试项目

噪音测试(整机压测后使用分贝仪检测)

测试方法

执行GPU压测 、CPU压测、内存压测、压测12小时

Gpu使用gpu-burn压测12小时 cpu和内存使用stress-ng压测12小时 然后使用分贝仪测试待测机器噪音分贝

测试记录

image

image

image

image

测试结果

PASS

 

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容