深度学习如何让城市更安全

August 15, 2018

Erik Sherman

视频系统已成为城市安全的重中之重，但这些系统产生的视频很多，超过城市的处理能力。招聘员工监控视频源和搜索存档始终是一道难题。随着部署的摄像头越来越多，这个问题也越来越麻烦。

人工智能 (AI) 会有所帮助，具体体现在会使得搜索和分析视频源更轻松，从而减少手工劳动需求。但是，传统的 AI 部署也充满挑战，通常会提高成本和延长时间。

“为了自定义新应用程序或位置的 AI 算法，可能需要研发团队花费四到六个月的时间，” GeoVision Inc. 产品经理 Sean Lin 表示，“而且结果也不是特别理想，误报和其他错误太多。” 他接着说道：“城市需要的是让操作员可更轻松地在重要视频源中找到自己想要的东西，而不是大海捞针。”

深度学习解决方案的出现可大幅改善计算机视觉和视频分析。这些系统性能更强大、部署更轻松且立即可用。利用深度学习，可以根据布置摄像机的环境特征训练不同的模型。基本上可针对每种情况自定义算法，而且无需重写。

大量视频数据将是助力，而不是障碍。深度学习可持续接收数据，以便适应新条件和要求。

深度学习正在改变游戏规则

利用深入学习，面部识别或运动检测等计算机视觉技术已越来越成熟，从而实现监控和其他商品应用程序的转型。

在受控环境中，传统算法运行效果良好，但通常需针对特定使用案例编写算法。例如，检测跨过预先确定的虚拟线的物体或人员基本上就是是或否的简单算法。难题是在更复杂的情景中实施此算法。

Lin 提供了明确的例子：“采用传统算法并将其用于不同的摄像头位置时，可能有些会在公园，有些可能会在街道，这些实际环境在视频源中会显得不同。传统算法无法处理这类细节。”

“在繁忙的街道，运动检测或入侵警报可能会收到很多误报，因为人们总是走来走去。这就是传统算法的限制，” 他说道。

另一种常见情景是警察识别通缉人员的面部识别。“利用深度学习，我们只需将单张照片或一段视频输入数据库即可注册相应人员的面部。接着我们的软件会自动浏览一个月前、两个月前的所有监控录像，并且会自动为相关部门找到该人员，” Lin 表示。

他预言，很快只需一张素描而不是一张照片即可实现。虽然识别精度会下降，但使用传统算法完全做不到这点。

这就是 GeoVision Inc. 智能视频管理解决方案 (GV-VMS) 的用途所在，可改善 AI 模型并实现更复杂、更密集的分析。GeoVision 深度学习算法可针对各种状况进行训练，包括：

计算朝两个方向移动的人员或物体数量
针对多个应用程序检测和识别面部
在视频中检测到时遮挡面部以保护隐私
对在阴暗条件下拍摄的视频进行 “除雾”，以便看清楚
将采用多个摄像头拍摄的视频组合成单个全景视图
在振动环境中稳定视频
在占用代码可能有限时计算人群数量
消除广角镜头导致的失真
区域存在运动时以智能方式搜索事件

端到端解决方案

GeoVision 独特的底层深度学习功能是包含摄像头、录像服务器和视频控制中心的全方位系统。它通过标准协议与 GeoVision 和第三方 IP 摄像头连接，如图 1 所示。这种扩展使用 Intel^® 处理器实现，此类处理器可提高视频处理效率和增强深度学习功能。

图 1：GeoVision 智能视频管理系统

GV-VMS 基于英特尔^® x86 架构，充分利用了英特尔^® 酷睿^™ 处理器。结合英特尔^® OpenVINO^™ 工具包的实施，深度学习驱动型视频分析的性能提升了 8 至 10 倍。这样可以实现更强大的同步视频处理能力，而无需任何附加要求。

GeoVision 摄像头能够在网络边缘实现深度学习功能。在检测到东西时摄像头会发送警报，而不是将所有视频传输到集中位置进行分析，从而可减少采取措施前的延迟。

大多数城市还有包含摄像头、网关和软件的原有视频系统。GeoVision 应用程序编程接口 (API) 和软件开发套件 (SDK) 可实现与原有硬件和软件的连接。GeoVision 控制中心提供统一云管理软件，从而将所有 IP 摄像头都集成到整个安全和管理系统。

举个例子，梵蒂冈城国已使用视频监控系统数十年。这么多年来，这导致存在各种摄像头、网关和软件工具，而且来自多家供应商。使用 GeoVision 后，梵蒂冈城国可有策略地将旧摄像头和软件集成到集中监控解决方案。重要政府大楼、教堂、小礼拜堂和交叉路口中的摄像头都集中控制。GeoVision 解决方案产生了统一系统，可监控罗马 140 个站点的视频源。