使用英特尔® SSF 消除人工智能瓶颈

March 7, 2018 Patrick Mannion

机器学习和人工智能揭示了高性能计算 (HPC) 的局限性。从理论上讲,随着资源的增加,HPC 的并行架构可以进行线性扩展 — 但实际情况却并非如此。由于处理、数据传输和存储之间的不平衡,HPC 系统通常会遇到瓶颈。此外,缺乏标准化的硬件和软件会导致脱节、次优的实施。结果怎样?随着系统规模的扩大,效率会降低并且成本会升高。

新兴的可扩展系统架构

为了解决瓶颈问题,英特尔引入了英特尔® 可扩展系统架构(英特尔® SSF)。SSF 旨在为 HPC 提供更为全面、平衡和可扩展的方法。为了实现这一目标,SSF 将围绕内存、处理和网络传输调用特定元素,这些元素可与管理软件和支持参考架构配合工作(图 1)。

图 1. SSF 将围绕内存、处理和网络传输调用特定元素,这些元素可与管理软件和支持参考架构配合工作,从而消除 HPC 瓶颈。(资料来源:英特尔公司

可以在 SSF 中使用的硬件元素包括:

  • 英特尔® 至强® 处理器 E5-2600 v4 和英特尔® 至强融核 处理器
  • 使用 NVMe(非易失性内存高速)标准构建的英特尔® 傲腾 固态盘
  • 英特尔® Omni-Path 架构(英特尔® OPA)光纤和 10/40-Gbit/s 以太网

它们受面向 Lustre* 软件的英特尔® 企业版(面向 Lustre 软件的英特尔® EE)的支持。Lustre 是一种专为满足并行存储架构需求而设计的开源文件系统。英特尔在这种广受欢迎的文件系统基础上进行了增强,其中包括:

  • 面向 Lustre 的英特尔® 管理器,可以简化安装和配置
  • 面向 Hadoop* MapReduce* 的集成支持
  • 全球全天候技术支持

英特尔 SSF 还为操作系统制定了标准,包括 Linux 内核、访问控制、编程接口、运行时环境、存储和文件系统等等。举两个例子来说,它指定了 Linux 标准库 (LSB) 命令系统以及每个节点上的最小 RAM 容量。值得注意的是,SSF 为其 API 使用 LP64 编程模型。这意味着它与常见的 HPC 编程模型兼容,并且可以利用现有的代码。它支持集成原本彼此脱节的各种 HPC 功能。SSF 的优势令人印象深刻。“借助 SSF,与上一代[non-SSF-enabled]产品相比,速度提高了 25% 到 30%。”Premio Inc 的服务器和存储产品经理 Andy Lee 说道,该公司是基于 SSF 的存储解决方案的提供商。一个实际例子就是自动驾驶汽车,随着它们的发展,它们已经产生了 TB 级的数据量。“上一代至强处理器需要一个月的时间来分析所有数据并进行对象培训;现在,针对自动驾驶汽车的所有对象的培训时间可以缩短一半,”Lee 说道。Premio 已经实施了 SSF,并将其用作 FlacheSAN2N24U-D5 存储服务器的基础(图 2)。该服务器使用两个英特尔® 至强®可扩展处理器,并且支持 24 个前端访问热插拔 NVMe PCIe 3 x4 2.5 英寸驱动器。通过使用 SSF 原理以及 Omni-Path 和 100G 接口等其他元素,FlacheSAN2N24U-D5 可实现 60 Gbytes/s 的吞度量和 1200 万次 IOPS。

图 2. 来自 Premio Inc. 的 FlacheSAN2N24U-D5 存储服务器使用 SSF 来消除瓶颈,它可以达到 60 Gbytes/s 的吞吐量和 1200 万次 IOPS。(资料来源:Premio Inc.)

FlacheSAN2N24U-D5 是一种超级计算应用,Lee 表示,“您可以借助它快速分析数据,例如钻井、天气预报、石油和天然气、农业和安全数据。”

并非所有 SSF 实施都相同

虽然看起来,SSF 使得开发或选择基于 SSF 的 HPC 变得相对容易,但设计人员或潜在客户在实施或选择供应商时需要谨慎。Lee 表示,Premio 的附加价值就在于其实施了 SSF,因为它使用自制的主板,负责完成所有布线,并将其直接绑定到存储设备的驱动器(图 3)。Lee 还表示,它为实现低延迟和高吞吐量提供了正确的组件。但成本仍是一个重要因素,所以 Lee 表示他们非常重视使用现成的组件。

图 3. Premio 通过采用自主的主板设计和布线让其 SSF 实施变得与众不同,并通过其自身的组件实现了低延迟和高吞吐量。(资料来源:Premio Inc.)

设计 HPC 系统是一种好的做法,但更改和升级的需求总是在所难免。Premio 直接解决了这一问题。Lee 说道:“我们按照与未来处理器兼容的方式来设计服务器。” “您所要做的只是交换[older]计算节点并使用 Skylake [now called Xeon Scalable processors]。”Lee 表示,使用这种模块化的换入方法可以大幅节省时间,不再需要 6 个月到一年重新设计主板时间。Lee 还表示,另一个需要注意的问题是,如果不能保证设计团队花时间正确地构建基于 SSF 的新系统,那么最终会出现更多瓶颈。“我们创建了一个平衡架构来消除网络中的所有瓶颈。”他说道。例如,Premio 可以充分利用至强可扩展处理器,它能够运行全部五个 PCIe 通道,而其他处理器则只能运行两个。为了管理这些通道,Premio 还采用了 RoCE(基于融合以太网的 RDMA)网络协议。这是一种链路层协议,因此允许同一个以太网广播域中的任何两台主机之间进行通信。Premio 具有可用的和正在开发的其他 SSF 实施。人工智能如今正处于快速发展阶段,这一架构的推出正当其时。

作者简介

Patrick Mannion

Patrick Mannion is a independent content developer and consultant who has been analyzing developments in technology for more than 25 years. Formerly Brand Director for EETimes, EDN, Embedded, Planet Analog, and Embedded.com, now part of AspenCore, he has also been developing and executing community-oriented online- and events-based engineer-to-engineer learning platforms. His focus is on connecting engineers to find novel design solutions and focused skills acquisition in the areas of Embedded, IoT, Test and Measurement, RF/Wireless, and Analog & Mixed-Signal Design.

在Twitter上关注 Patrick Mannion 的更多内容
上个文章
让安全可靠的物联网计算变得经济高效
让安全可靠的物联网计算变得经济高效

面向标牌、工业控制、自动化和其他物联网应用的计算解决方案的设计人员具有超出典型消费系统要求的坚固性、...

下个文章
为使用 H.265 编解码器进行可扩展视频流式传输做好准备
为使用 H.265 编解码器进行可扩展视频流式传输做好准备

虽然 H.264 视频压缩快速、简单且被广泛使用,但按现代标准来看效率并不高。同时,它也很难渲染高质量的图像?...

×

名字
Company Name
Phone Number
Country/Region
我希望這篇公司聯絡我: -可选
!
谢谢!
Error - something went wrong!
×

离高明的解决方案仅一步之遥。

谢谢!
Error - something went wrong!