Skip to main content

数据流处理帮忙捕获更多物联网数据

根据最新的 IDC 白皮书消息,到 2025 年,全球的电子系统会产生多达 160 泽字节 (ZB) 的数据,真是令人瞠目结舌。在这些数据中,大约有 25% 的数据将由实时物联网设备产生。令人遗憾的是,可用的存储容量缺乏意味着只能保存这些实时数据中的一小部分。

数据爆炸与存储容量有限之间的矛盾造成了严重的问题:

  • 如何在存储最少数据量的情况下,避免丢失有价值的信息以及这些信息可以提供的见解?
  • 如何实时关联事件,使得您的企业可以掌握主动性而不是处于被动局面?
  • 如何足够快速地对这些关联做出响应,以便更好地服务客户并超越竞争对手?

Striim, Inc. 的 CTO 兼共同创始人 Steve Wilkes 认为答案是在内存中进行流水式数据处理和分析。

Wilkes 说道:“如果您无法存储所有数据(实际上是如果您只能存储一小部分数据),您就只能在内存中、在数据到达存储器之前,像流水那样源源不断地处理和分析数据。”

内存中数据流处理和分析:基础知识

数据流处理允许在内存中分析连续的数据流,只将状态变更导出到文件系统或数据库(图 1)。此过程称为变更数据捕获 (CDC),它在物联网环境中尤其有用,因为它允许在系统识别相关信息的同时,提取价值较低的数据点。

图 1. 通过在本地内存中分析状态或值变更并仅将变更写入文件系统或数据库,数据流处理可降低物联网数据存储要求。(资料来源:IBM

“如果您思考为什么我们要成批处理数据,这是因为一直以来存储器比 CPU 和内存更便宜,” Wilkes 解释说。“成批处理的想法是以前的技术限制逼出来的。” Wilkes 继续说:“但是随着 CPU 和内存都变得更便宜,您可以捕获变更数据,并将其转化为数据流。”

数据流处理和 CDC 如何让物联网部署获益的一个好例子是温度监控应用。不是盲目地相同的温度值批量写入数据库,数据流处理和 CDC 会将最新的机器记录与关联数据流中的最后的值进行比较。如果新的机器记录包含与数据库中最后记录的值相匹配的温度读数,则会废弃该记录。如果新的机器记录包含不同的温度值,则会将它写入到数据库中,此过程周而复始。

数据流处理和 CDC 最明显的优势是需要较少的存储空间,因为可以忽略很多重复的数据。附带优势包括:

  • 从更小、更有意义的数据集进行更快、更富有洞察力的分析
  • 更小的数据集降低了网络传输成本
  • 更充分利用处理器时钟周期,因为将更少的时间花在分析主要由重复信息组成的存档机器记录批次上

从物联网边缘到企业的数据流处理

在物联网边缘使用案例中,数据流处理和 CDC 通常部署在网关或本地服务器中,这使开发人员能够实现最大限度的数据并行处理和计算密度(图 2)。换句话说,将 CDC 功能应用到利用相同处理器 I/O 和内存资源的流式输入数据集,有助于优化性能并降低延迟。

图 2. 在网关或本地服务器中实施数据流处理和变更数据捕获 (CDC) 可降低存储要求、最大程度地降低网络传输成本并提高分析性能。(资料来源:Striim, Inc.

另外,网关和服务器处理器也趋向于使用多核器件,它们具有足够的片上内存和集成式 GPU 或信号处理功能。这些特性恰好可以满足处理来自网络边缘的传感器和执行器的数据流(主要基于信号)的需要,并且还可以支持计算密集型工作负载,例如可以集成到更复杂的事件处理数据流中的机器学习 (ML)。

根据这些要求,英特尔® 酷睿 和英特尔® 至强TM 处理器特别适用于数据流处理。

除了边缘之外,通过现代化现有系统以满足实时物联网数据的架构要求,数据流处理和 CDC 还可以使企业获益。企业历史数据库包含长期积累的大量运营数据,可以利用 CDC 和数据流处理来延伸可在网关或本地服务器中实现的相同存储节约成本、降低的网络成本、提高的分析功能(图 3)。

图 3. 可将变更数据捕获 (CDC) 应用到物联网架构内更高层的应用中,以从传统安装创建实时数据流。(资料来源:Striim, Inc.

制造业、医疗保健、网络安全等行业历来需要数小时、几天甚至更长时间来从大型数据湖提取有价值的信息,因此可以充分利用事件驱动的基础设施,使得可在几分钟或几秒钟内获得运营见解。整体结果是从北到南、从东到西或信息需要跨物联网架构流动的任何方向更加无缝、透明的数据流(图4)。

图 4. 数据流处理可以最大程度地降低存储要求和网络成本,同时提高企业中的分析速度。(资料来源:Striim, Inc.

“通过在此架构的框架中利用变更数据捕获,您可以将历史数据当作实时物联网数据处理,” Wilkes 说道。“它是使您在会写入数据库的制造或其他设备方面的现有投资适应现代需要的方法。”

例如,Striim 平台是基于 SQL 的流数据集成和分析软件套件,它允许在从传感器节点到企业数据库中应用实时内存中 CDC。Striim 环境中的应用程序都是使用数据流开发的;数据流从数据源开始,在层次结构中的某个位置使用 SQL 进行处理,最后写入相关的文件系统、数据库或云存储库。

Striim 与许多企业软件工具集成,以帮助促进多个复杂数据流的关联,并以兼容的文件或数据库格式提供结果。

高速物联网分析可最大程度地降低存储要求,最大程度地提高敏捷性

随着物联网设备产生的实时数据量不断增大,组织必须权衡数据保留的成本及管理和分析大量数据所需的时间与数据可提供的可行性信息的利弊。鉴于大多数组织都在追求充分利用最新、最有价值的数据,内存中数据流处理和分析提供了数据存储的替代方法,既可最大程度地减少资本/运营支出,又可加速提升业务敏捷性,缩短决策周期。

“这种数据流处理方法可促进您的转型想法,使您可以实时整合和联接数据,” Wilkes 说道。这确实是我们期待已久的物联网数字转型的最后部分。

要了解有关内存中数据流处理的更多信息,请观看网络研讨会 “解决物联网数据管理的主要难题”。

作者简介

Brandon is a long-time contributor to insight.tech going back to its days as Embedded Innovator, with more than a decade of high-tech journalism and media experience in previous roles as Editor-in-Chief of electronics engineering publication Embedded Computing Design, co-host of the Embedded Insiders podcast, and co-chair of live and virtual events such as Industrial IoT University at Sensors Expo and the IoT Device Security Conference. Brandon currently serves as marketing officer for electronic hardware standards organization, PICMG, where he helps evangelize the use of open standards-based technology. Brandon’s coverage focuses on artificial intelligence and machine learning, the Internet of Things, cybersecurity, embedded processors, edge computing, prototyping kits, and safety-critical systems, but extends to any topic of interest to the electronic design community. Drop him a line at techielew@gmail.com, DM him on Twitter @techielew, or connect with him on LinkedIn.

Profile Photo of Brandon Lewis