产品和性能信息
1加速器的可用性因 SKU 而异。请访问英特尔产品规格页面,了解更多产品详情。
2请参阅 intel.com/processorclaims 上的 [A16] 和 [A17]:第四代英特尔® 至强® 可扩展处理器。结果可能有所差异。
3请参阅 intel.com/processorclaims 的 [9A10]:英特尔® 至强® 6。结果可能会有所不同。
4请参阅 intel.com/processorclaims 上的 [A15-A16]:第五代英特尔至强可扩展处理器。结果可能会有所不同。
5请参阅 intel.com/processorclaims 上的 [A23]:第五代英特尔至强处理器。结果可能会有所不同。
6请参阅 intel.com/processorclaims 上的 [A210]:第五代英特尔至强处理器。结果可能会有所不同。
7请参阅 intel.com/processorclaims 上的 [A20]:第五代英特尔至强处理器。结果可能会有所不同。
8与第四代 AMD EPYC 相比,基于第四代英特尔® 至强® 处理器运行 BERT-Large 工作负载时的速度至高可提升 5.60 倍。这一性能可以使单个机群的服务器数量从 50 台减少到 9 台,每年节省 424 千瓦的电力,四年减少 719,546 千克二氧化碳排放,并节省 138 万美元的成本。BERT-Large:8462Y+:1 节点、2 个第四代英特尔® 至强® 可扩展处理器 8462Y+(32c/2.8 GHz,300W TDP),Supermicro SYS-221H-TNR 服务器,采用 1024 GB (16x64 GB/4800) DDR5 内存,微代码 0x2b000161,超线程开启,睿频开启,SNC 关闭,Ubuntu 22.04.2 LTS,5.15.0-58-generic,1 个 1.92T SAMSUNG MZQL21T9HCJR-00A07,Framework = Intel® TF 2.11.dev202242,Python 3.8,AI 模型 = BERT-Large,步长 = 30,预热 = 10;批量结果:使用 FP32(BS = 64 [16 核心/实例])、BFloat16(BS = 64 [4 核心/实例])、int8-AMX(BS = 64 [1 核心/实例),Real Time (BS1) 结果在保持 130 毫秒延迟的情况下获得的最佳分数;SLA:使用 FP32(32 核心/实例)、BFloat16(4 核心/实例)、int8-AMX(4 核心/实例)获得的最佳分数,由英特尔于 2023 年 4 月测试。BERT-Large:9354:1 节点,2 个 AMD EPYC 处理器 9354(32c/3.25 GHz,280W TDP),Supermicro H13DSH 服务器,采用 1536 GB (24x64 GB /4800) DDR5 内存,微代码 0xa101111,同步多线程开启,加速开启,NPS = 1、Ubuntu 22.04.2 LTS、5.15.0-58-generic、1 个 1.92T SAMSUNG MZQL21T9HCJR-00A07,Framework = Stock TF 2.10.1,ZenDNN = v4.0,Python 3.8,AI 模型 = BERT-Large,步长 = 30,预热 = 10;批量结果:使用 FP32(BS = 64 [1 核心/实例])获得的最佳分数,由英特尔于 2023 年 4 月测试。成本以英特尔的估算和 thinkmate.com 的信息为基准:
对拥有 50 台 AMD EPYC 9354 服务器的机群进行估算(截至 2023 年 3 月):
资本支出成本:101 万美元
运营支出成本(四年,包括用电和冷却公用事业成本、基础设施和硬件维护成本):73.26 万美元
能耗千瓦时(四年,每台服务器):43169,PUE 1.6
其他假设:公用事业成本 0.1 美元/千瓦时,千瓦时换算千克二氧化碳系数 0.42394
对拥有 9 台第四代英特尔® 至强® 8462Y 服务器的机群进行估算(截至 2023 年 3 月):
资本支出成本:22.2 万美元
运营支出成本(四年,包括用电和冷却公用事业成本、基础设施和硬件维护成本):13.9 万美元
能耗千瓦时(四年,每台服务器):51242,PUE 1.6
其他假设:公用事业成本 0.1 美元/千瓦时,千瓦时换算千克二氧化碳系数 0.42394
9第四代英特尔® 至强® 可扩展处理器调优:英特尔于 2022 年 12 月 9 日测试。1 到 4 个节点,2S,英特尔® 至强® Platinum 8480+ 56 核心,Dennard Pass 平台和软件,采用 512 GB 内存(16x32 GB DDR5 4800 MT/秒 [4800 MT/秒]),微代码 0x90000c0,超线程开启,睿频开启,Rocky Linux 8.7,4.18.0-372.32.1.el8_6.crt2.x86_64,931.5 G 固态硬盘。通过 200 Gbps OmniPath 连接多个节点。PyTorch 1.13、IPEX 1.13、Transformers 4.24.0、Accelerate 0.14、Diffusers 0.8.0、oneDNN 2.6.0、oneCCL 2021.7.1。第四代英特尔® 至强® 可扩展处理器推理:英特尔于 2022 年 12 月 9 日测试。1 个节点,2S,英特尔® 至强® Platinum 8480+ 56 核心,Archer City 平台和软件,1024 GB(16x64 GB DDR5 4800 MT/秒 [4800 MT/秒]),微代码 0x2b000111,超线程开启,睿频开启,Ubuntu 22.04.1 LTS,5.15.0-56-generic,1.5 TB 固态硬盘。通过 100 Gbps 以太网控制器 I225-LM 连接多个节点。PyTorch (commit ID: 26d1dbc) + PR 81852、Transformers 4.25.1、Accelerate 0.14、Diffusers 0.8.0、oneDNN 2.6.0。第三代英特尔® 至强® 可扩展处理器推理:英特尔于 2022 年 12 月 9 日测试。1 个节点,2S,英特尔® 至强® Platinum 8380 CPU @ 2.30 GHz 40 核心,WHITLEY 平台和软件,512 GB(16x32 GB DDR4 3200 MT/秒 [3200 MT/秒]),微代码 0xd000375,超线程开启,睿频开启,Ubuntu,5.15.0-56-generic,7.0 TB 固态硬盘。通过面向 10GBASE-T 的 10 Gbps 以太网控制器 X710 连接多个节点。PyTorch(commit ID:26d1dbc)、Transformers 4.25.1、Accelerate 0.14、Diffusers 0.8.0、oneDNN 2.6.0。性能因用途、配置和其他因素而异。请访问 intel.com/PerformanceIndex 了解更多信息。性能结果基于截至配置中所示日期的测试,并且可能无法反映所有公开的更新。有关配置详细信息,请参见备用材料。没有任何产品或组件能够做到绝对安全。