工业物联网的机器学习边缘化

August 3, 2018

Ronald van Loon

物联网正在改变工业领域，在效率和产量方面成效显著。但是要获得这些优势，您需要实时分析来自机器的各种流数据，并解释数据以获取可行见解。这意味着部署机器学习越来越重要，但问题是如何部署。

虽然云具有作为数据建模和机器学习门户的优点，但是它无法始终提供在制造、石油和天然气、建筑、运输和智能建筑行业应用中所需的实时响应速度。因此，在边缘通过机器学习增强云功能成为一种趋势。

我最近有机会与 Foghorn 的 CTO Sastry Malladi 谈论这一趋势。他的公司处于“边缘化”机器学习模型的最前沿；并且分享了对这种方法可如何彻底改变实时分析并改进工业组织的预测见解的一些见解。

在边缘部署机器学习 = 获取业务价值

Foghorn 的客户之一 Schindler Elevator 想要永久解决一些常见问题，例如，车门摩擦。在开展这项工作的过程中，Schindler 联合 Foghorn 以创建预测性维护解决方案。通过在来源处分析传感器数据，Schindler 现在可以事先确定维护需要，而不会产生与将大量数据传输到大楼外面相关联的成本、延迟、安全性及其他问题。因此，它可以采用极其高效的方式，在异常现象影响性能之前安排保养。

众多其他客户亦已看到此业务价值。作为另一个例子，在远离城市中心的场所工作的石油和天然气公司可以在边缘使用机器学习来分析数据，包括视频和音频。此数据用途众多，其中之一是可用于预测油泵之间的压力，并就异常操作参数提醒操作员；同样，所有操作都在现场本地处理绝大多数的数据时进行。

但是在我们更详细地介绍边缘化机器学习的优势之前，我们看一看企业遇到的一些挑战。

传感器生成大量数据

数据转换推动了组织跨运营安装数字、音频、视频和 3D 传感器，但这也导致出现问题。随着数据海啸般涌入，组织现在难以高效、及时地从数据取得可行见解。

显而易见的解决方案是将处理转移到边缘。根据 Gartner 报道，在未来四年，企业生成的数据中有 75% 将在边缘处理（而不是在云中处理），比现在提升 <10%。移至边缘的推动因素一方面是数据剧增，另一方面是更高的保真度分析、更低的延迟要求、安全问题和巨大成本优势需求。

需要实时分析

尽管云是存储数据和训练机器学习模型的好地方，但是它通常不适合实时数据收集或分析。带宽是一项特殊的挑战，因为工业环境通常缺乏将所有传感器数据传送到云所需的网络容量。因此，基于云的分析限制为批或微批分析，很容易遗漏数字中的转折点。

相比之下，边缘技术可以分析所有原始数据。这可提供保真度最高的分析，并提高了检测异常现象的可能性，从而实现立即反应，缩短了停机时间并降低了维护成本。

此外，虽然我们已经看到云随着时间的推移变得更安全，但是仍然存在与传输数据和将数据存储在云上相关的众多风险。这些安全问题通常会阻碍组织在云中工作。借助边缘计算，企业可以更好地控制他们的安全，这是他们接受这种方法的另一个原因。

了解边缘化过程

但是将分析移至边缘并不只是简单地更改执行处理的位置。当今使用的典型机器学习模型是基于假设仅在云环境中有意义而开发的。具体而言：

它们是针对批或微批数据而开发的，对于来自传感器等较高速度/较大数量的流数据不能很好地发挥作用。
它们是基于计算能力不受限制的假设而开发的，因此对适合边缘设备（其中大部分计算能力受限）的模型大小和权重没有施加限制。
它们包括预处理（对齐、调节、过滤等）和后处理（聚合、生成警报等）逻辑（包括为模型的一部分），这会造成严重的代码膨胀，不太适合受限的边缘设备。
运行时环境和实施语言对于云而言不是问题，但是在边缘中却大有问题。

由于这些假设在边缘不成立，机器学习模型需要进行调整以适应它们的新环境。换言之，它们需要边缘化：

它们需要连接到流数据。
它们需要对数据进行预处理/浓缩（清洗、过滤、归一化和上下文化），最好通过复杂事件处理器 (CEP) 完成。
预处理和后处理逻辑需要从模型中提取并在 CEP 引擎中执行，使得计算负载较小。
然后可以调整模型（包括权重），并且在某些情况下，省去预处理元素可实现大小和计算内存需求下降超过 80%。
最后，需要将模型转换为专为边缘设计的表达语言。这可在资源受限的环境中实现快速且高效的执行。

云在机器学习模型创建和训练过程中起着至关重要的作用，对于需要大量计算资源的深入学习模型尤其重要。模型一旦经过训练，就可以通过边缘化进行“转换”并推送到边缘。

最终，系统会以高度迭代、闭环方式，频繁地将边缘推断发送到云以进一步调整模型，并且会将更新的模型推送回边缘。因此，工业物联网中的“人工智能”可归纳为此闭环边缘到云的机器学习和模型边缘化。

当然，单单依靠边缘计算是不够的。要在企业范围内分发和分析数据，机器学习系统必须跨边缘和云。Foghorn 采用了三层方法来处理数据：

浓缩。浓缩层通过解码、过滤、插值等方法让数据准备好进行进一步的处理。简而言之，此层提高了数据质量，以确保其他层达到理想的结果。
复杂事件处理 (CEP)。该层由已经知道他们所面临的问题和模式的许多公司使用。这些公司可以在 CEP 引擎中表达他们的模式和问题，以生成用于数据分析的工具。
机器学习引擎：机器学习引擎预先包装了可帮助进行异常检测的型号，例如决策树、回归和 sndf 群集。此层是边缘和云重叠的地方。

Sastry Malladi 解释了机器学习引擎如何使用监督和无监督学习的组合。如果公司已经具有足够的历史记录数据，则可以在云中实施监督学习。如果没有，则可以在数据开始涌入时在边缘开发模型。

但在有些时候，您必须实施无监督学习技术来修订模型以进行增量更新。通过无监督学习，此模型可以在经过一段时间之后自学如何实施增量更新。