Skip to main content

基准测试影响人工智能服务器设计

人工智能推理

处理器制造商正在竭力巩固他们在不断增长的人工智能市场中的地位。因此,他们引入或改造了大量的计算产品,为人工智能用例提供服务。这些产品包括 CPU 和 GPU 等众所周知的处理选项,以及视觉处理器 (VPU) 等创新解决方案。

但是随着这些设备在实际系统中得到部署,数据表中的性能规格变得毫无意义。对设计工程师来说,重要的是处理器如何在特定用例中发挥性能。他们希望了解能够提高效率、降低成本和功耗、支持新功能的特性和优化。

但是根据这些参数评估多个解决方案需要花费大量时间。

IT 和神经网络系统集成商 ComBox Technology 的工程师在设计人工智能服务器之前,专门对多个计算解决方案进行了基准测试。他们根据执行人工智能算法的每秒帧数 (FPS) 成本测试了不同选项。这项成本是计算机视觉系统投资回报率计算过程中的一个关键指标。

ComBox 董事长 Dmitriy Rytvinskiy 说:“我们发现,搭载第 8 代智能英特尔® 酷睿 处理器的英特尔® NUC8i5BEK 在这些工作负载中提供了最大的价值,而每个月每 FPS 的平均成本只有 4 美元多一点。”

处理器每 FPS 成本披露

ComBox 工程团队开始使用多个选项对深度学习主处理器的每 FPS 成本进行测试。这些选项包括来自多家供应商的芯片、显卡和加速器模块

他们使用两个常见的图像分类卷积神经网络 (CNN) U-Net 和 DarkNet-19 对这些平台进行了测试。在 ComBox 的评估中,U-Net 算法采用 768 x 512 和 576 x 384 像素两种图像输入大小,DarkNet-19 采用 256 x 256 像素的图像数据。

两个 CNN 分别在同一设备的单独处理单元上运行。换句话说,包含 CPU 和 GPU 或集成显卡单元的设备(例如特定英特尔凌动® 处理器、英特尔® 酷睿 处理器或搭载这两种处理器其中之一的英特尔® NUC 迷你电脑平台)经过了多次测试。在所有情况下,使用英特尔® OpenVINO 工具套件或 TensorFlow/TensorRT 引擎等框架对神经网络进行了优化。

ComBox 测试人员简单地用产品成本除以每个工作负载的 FPS 性能,计算出每个竞争设备的价值,然后选出了在所有工作负载中提供最大价值的设备。如上所述,NUC8i5BEK 的性价比最高。

利用视频编码/解码作弊码在基准测试中获胜

NUC8i5BEK 搭载英特尔® 酷睿 i5-8259U。但是在 ComBox 的成套推理基准测试中,设备 CPU 不是提供最大价值的唯一因素。英特尔锐炬® Plus 655 集成显卡单元也发挥了作用。但它并不是 NUC 迷你电脑暗藏的唯一玄机。

虽然英特尔® 酷睿 i5 CPU 内核在算法执行过程中不发挥任何作用,但是它们处理图像编码和解码,使显卡单元可以专用于推理工作负载。这并不是说基准测试中的其他片上系统和显卡没有利用类似架构。有些采用了类似架构。但是与它们相比,英特尔锐炬® Plus 655 显卡、多线程四核 CPU 和 OpenVINO 的组合性能更高、价格更低。

Rytvinskiy 说:“我们根据基准测试结果在服务器中设计了 NUC8i5BEK。” 该平台可以同时在神经网络上运行多达 80 个全高清 IP 摄像头视频流。

通过封装增强人工智能和视觉处理能力

NUC 迷你电脑被封装成现成的完整系统,配备机箱、I/O 和其他装饰物,可随时用于从原型设计到轻量化商业部署的各种用途。但很显然,其外形和封装不适合在机架式服务器中集成,因此 CMBox 团队将八个 NUC 迷你电脑主板集成到一个 1U 服务器机架中(图 1)。

一台 ComBox 服务器采用 8 个英特尔® NUC 迷你电脑主板。
图 1。ComBox 8xNUC Rev 2 服务器采用八个英特尔® NUC8i5BEK 主板。(来源:ComBox)

除了八个热插拔 NUC 迷你电脑模块之外,还配备两个热插拔电源单元 (PSU) 和一个用于对模块进行控制的前面板显示屏。这八个模块提供 32 核 64 线程的总处理能力,集成 GPU 内核总数多达 3,072 个,EDRAM 高达 1 GB。

Rytvinskiy 说:“根据我们自己的建模结果,基于 8 个 NUC 迷你电脑的服务器为每个工作负载分配了适当的资源,因此性能优于其他解决方案。” “此外,由于 NUC 迷你电脑的每 FPS 成本较低,服务器的成本只有采用其他人工智能处理技术的类似平台的一半。”

专为人工智能和深度学习而设计

在完成人工智能计算替代选项的测试流程后,ComBox 开发了面向多种工作负载的高能效、高性能推理解决方案。该公司发布了一篇文章,介绍如何使用 NUC 迷你电脑创建高效率、低成本的人工智能解决方案,包括一个构建基于 NUC8i5BEK 的计算机视觉辅助烟雾探测器的项目。

虽然可能出乎意料,但是与更新的人工智能处理解决方案相比,英特尔锐炬® Plus 655 显卡和英特尔® 酷睿 处理器 CPU 的常见配置为计算机视觉推理带来了更大的价值。那么为什么要花费更高的成本,获得更低的性能?

 

作者简介

Brandon is responsible for Embedded Computing Design’s IoT Design, Automotive Embedded Systems, Security by Design, and Industrial Embedded Systems brands, where he drives content strategy, positioning, and community engagement. He is also Embedded Computing Design’s IoT Insider columnist, and enjoys covering topics that range from development kits and tools to cyber security and technology business models. Brandon received a BA in English Literature from Arizona State University, where he graduated cum laude.

Profile Photo of Brandon Lewis