看看谁在说话：视频会议中的人工智能

September 30, 2019

Brandon Lewis

数字显示，物联网，物联网，人工智能

人工智能 (AI) 不仅在革新我们设计技术的方式，而且在改变我们使用技术的方式。例如，人工智能正在整合到视频会议系统等日常解决方案中。

这些系统使用面部识别来跟踪发言的人，并且通过调节摄像头角度，将发言人完全拉入取景框中。该系统自动显示发言人的姓名、职务及其履历信息。有些系统甚至通过人体姿势分析和手势识别来确定参与者的参与度。

集成自然语言处理的协作系统可以实时转录呼叫或将语音翻译成其他语言。“虚拟助手”会做笔记、提取相关文件以及安排电话会议。

将这些功能设计到像视频会议系统这样的普通设备中可以增加真正的价值。但这也会带来重大的工程挑战，尤其是在延迟方面。

延迟问题

使用过 Siri 或 Alexa 的任何人都会承认在提出问题与收到系统响应之间存在明显的延迟。那是因为这些系统中的大多数自然语言处理都是在云中处理的。

协作系统需要语音、视频和任何实时交付的人工智能功能。否则，质量将立即受损。为了避免增加延迟，必须在本地视频会议系统上为人工智能提供本地支持。

在本地运行人工智能是说起来容易做起来难，尤其是在对成本和功耗敏感的视频会议系统中。部分原因是因为图像和语音识别通常基于多层神经网络算法。为了计算每一层，处理器必须频繁访问内存以从诸如摄像头或麦克风的输入设备中检索数据（图 1）。

图 1. 诸如神经网络之类的人工智能工作负载需要频繁的高速内存访问。（资料来源：Omnitek）

这是许多设计决定要考虑的首要问题。选择像 GPU 这样的人工智能处理器也将需要离散的 DRAM，因为频繁的内存访问，进而增加了延迟、功耗和热量产生，还会让整体物料清单变长。

另一个选项是选择具有集成内存的计算设备，例如 FPGA 或专用工作负载加速器。这类设备可以抵消处理器加内存架构的成本并减少功耗和延迟，但是通常很难编程。

在软件方面，必须针对大小、速度和准确性优化图像和语音识别算法。这有助于满足视频会议系统的要求并充分发挥基础硬件的功用。

设计服务将其融合在一起

将所有这些工作负载与视频会议系统的核心功能集成在一起可能会在 OEM 上市方面令企业不堪重负。但是，与经验丰富的产品工程公司合作可以增加产品价值，同时仍能与市场期望保持同步。

一家希望在其视频会议产品中增加图像和语音识别功能的制造商便选择了与 VVDN Technologies 合作的途径。

VVDN Technologies 是一家工程设计服务和制造公司，专门从事图像信号处理 (ISP)、视频分析、视频拼接和多传感器集成。对于视频会议市场，该公司还开发了一系列实时边缘人工智能功能。

VVDN 与企业视频会议供应商合作，帮助开发了一个 180º 视野 (FOV) 无风扇摄像机系统，该系统集成了先进的卷积神经网络 (CNN) 算法。这类人工智能算法还支持图像和语音识别应用，例如语音捕获、人体姿势分析、手势识别等。

VVDN 使用了两个英特尔^® Movidius^™ Myriad X 视觉处理单元（英特尔^® VPU）作为摄像机的主计算元件（图 2）。Myriad X 处理器集成了一套专用的硬件加速器和片上智能内存结构，以最大程度地减少延迟、功耗和成本。

英特尔® Movidius Myriad X VPU 集成了以视觉为中心的硬件加速器和智能内存结构。（资料来源：<a data-cke-saved-href="https://newsroom.intel.com/press-kits/movidius-myriad-x-vpu/" href="https://newsroom.intel.com/press-kits/movidius-myriad-x-vpu/">英特尔<sup>®</sup> 公司</a>） — 图 2。英特尔^® Movidius^™ Myriad X VPU 集成了以视觉为中心的硬件加速器和智能内存结构。（资料来源：英特尔^® 公司）

Myriad X VPU 上的人工智能处理管道提供至少 16 条 MIPI 通道，可支持多达 8 个高清分辨率摄像头。通过这些接口获取的图像或视频数据将传递到支持 4K 分辨率（30 Hz 和 60 Hz 帧频）的集成硬件编码器。

然后，数据可以传递到高通量成像和视觉硬件加速器、由 16 个可编程矢量处理器组成的阵列、称为神经计算引擎的专用人工智能工作负载处理器或这三者的任意组合。

将所有这些处理组件联系在一起的是共享的片上智能内存结构。这意味着数据可以遍历 ISP 管道，而计算元素不必重复访问其他内存模块。直接内存访问 (DMA) 还允许多个计算元素同时访问共享内存，从而可以对一个或多个视频流进行并行处理。

因此，Myriad X 处理器有助于最大程度地减少与其他架构相关联的功耗、热量产生和成本。实际上，这些设备仅消耗 2.5 W 的功率，并且比许多独立显卡和 FPGA 产品便宜得多。

人工智能集成发挥效用

在 VVDN 人工智能视频会议系统设计中，Myriad X VPU 以每秒 30 帧 (fps) 的速度从两个输入端拍摄高清视频。然后，在 VPU 的其中一个神经计算引擎上执行 MobileNet 面部检测、手势识别和人体姿势分析 CNN 算法。该引擎则以高达 4 fps 的速度执行推理。之后，经过分析的视频通过设备的 USB 3.1 接口流式传输。

第二个 Myriad X 处理器进行语音处理，根据 OEM 的特定人工智能语音服务集成唤醒词引擎。即使在嘈杂的现实环境中，也可以在视频会议设备上实现准确的超低延迟自动语音识别 (ASR)。

双 VPU 还将两个 4K 视频流拼接在一起，以实现多种高级视频功能，包括自动取景、参与者缩放和画中画 (PiP)。

由于 VVDN 执行了软件优化，因此，仅使用 12 MB 的系统内存就可以实现所有这些功能。