Skip to main content

机器人的心脏?计算机视觉与人工智能

人工智能, 计算机视觉, 神经网络机器学习, 面部识别

编辑注:insight.tech 支持终止种族主义、不平等和社会不公正的行为。我们不容忍赞助商的产品被用于侵犯人权,包括但不限于政府滥用可视化技术。insight.tech 展示产品、技术和解决方案,并遵循以下前提:负责任和合乎道德地使用人工智能和计算机视觉工具、技术和方法。

 


 

机器人一直以来都是科幻小说的主题。在 1956 年的电影《禁忌星球》中,首次出现了具有鲜明个性和冷幽默的机器人罗比。在美国电视剧集《迷失太空》中,B9 型机器人具有超人的力量和音乐才能。

当然,距离具有个性、提供保护和陪伴的全自动机器人出现还有很长的路要走——在这个星球上如此,更不用说在最遥远的太空中了。但是,我们开始看到智能机器人出现在各种日常应用中:

  • 问候顾客,回答问题和引导零售购物者
  • 提供关于医院设施的信息以及有关持续患者护理的指导
  • 接待客人,引导他们到接待处,并将行李运送到酒店房间
  • 在银行中心接受付款并收集账户信息
  • 在仓库周围运送货物并担任下班时间保安

智能服务机器人剖析

视频 1 展示了 New Era AI Robotic Inc 的智能服务和交付机器人。系统使用同步定位与地图构建 (SLAM) 算法、语音和面部识别软件以及全面的传感器套件来执行上述任务。

 

视频 1.智能服务和交付机器人在多个行业中用作助手。(来源:New Era AI Robotic

 

这些功能在两个单独的子系统上执行:一个用于导航和控制,另一个用于驱动用户界面。

核心:计算机视觉和深度学习

New Era 机器人所采用的核心技术为内部 SLAM 技术,它允许 40 至 50 公斤的系统安全地在周围导航。确定性的面向控制的 SLAM 软件根据来自多个传感器的输入数据运行,为机器人提供周围环境的 2D/3D 视图,以进行物体检测、识别和回避。

“自动驾驶汽车有许多许多的传感器”,New Era AI 的首席 SLAM 软件工程师 Allen Tsai 说。“同样,室内机器人不能只依赖一个传感器。在像购物中心这样的现实环境中有非常多的人,没有什么是静态的。”

最初,系统仅利用 2D 平面 LiDAR 传感器阵列。虽然 LiDAR 具有高性价比并且相当可靠,但事实证明,它限制了机器人在动态三维空间中的导航。通过在设计中增加英特尔®实感 摄像头,New Era 实现了立体视觉,可以更好地感知角度、拐角等(图 1)。

英特尔® 实感™ 摄像头可提供深度感知和角度信息。(来源:Digital Trends)
图 1。英特尔® 实感 摄像头可提供深度感知和角度信息。(来源:Digital Trends

“利用英特尔实感摄像头,我们能使用经典的计算机视觉算法来增强图像并识别特征”,Tsai 继续说。“然后我们将其注入到 LiDAR 传感器中,这样我们就不只依赖于一个传感器。”

基于四核英特尔® 酷睿 i5 的 Linux PC 处理来自 LiDAR 阵列和实感摄像头的传感器数据,然后将 SLAM 算法应用于这些输入。这些算法绘制出机器人可互动的物理空间,精度达 5 厘米。软件随后会叠加用于标识特征(例如房间、走廊、物体等)的描述符。SLAM 算法具有极高的内存效率,可以在任何给定时间将数千张地图存储在机器人的硬盘上。因此,每个机器人仅需要 4 GB 的 DDR4 内存。

人类与面部识别和人工智能的交互

第二个计算子系统运行与人类交互所需的所有应用程序,包括面部识别、语音检测、聊天机器人和触摸屏 UI。它基于一台 Windows PC,该 PC 利用四核英特尔® 奔腾® N4200 CPU,并运行使用英特尔® OpenVINO 工具套件开发的卷积神经网络 (CNN) 算法(视频 2)。

 

视频 2. 机器人使用英特尔® OpenVINO 工具套件算法检测人脸和表情。(来源:Omar Lam Demonstration

 

OpenVINO 帮助 New Era AI 工程师优化了算法,以在包含集成的英特尔® HD Graphics 505 GPU 的奔腾处理器上执行。这提供了足够的吞吐量,从而可以实时处理由实感摄像头捕获的图像。同时也开放了一系列重要的面部识别功能。

OpenVINO 优化的算法不仅可帮助机器人检测人类,甚至可用于分析年龄、性别和情绪。借助以匿名元数据形式收集的信息,机器人操作员可以确定哪些人最有可能与机器人互动,在何处互动以及互动多久。例如,在零售或酒店环境中,这些分析可用于最大化销售额或改善客户服务。

而且,由于 Windows PC 提供的本地连接性,新算法、聊天机器人和其他软件可以随时间更新。

更逼真的机器人

New Era AI Robotic 的工程师继续整合技术,使得与机器人平台的交互成为更自然的类似于人的体验。

例如,下一代设计可利用英特尔® Movidius 视觉处理单元 (VPU) 和/或英特尔® 神经计算模块,并结合更高级的 OpenVINO 算法。此技术堆栈可能会对平台产生重大影响,实现多人同时通信、本地化自然语言处理 (NLP),甚至提高图像吞吐量和分辨率以实现更精细的地图绘制和导航。

虽然智能机器人还不能成为星际伙伴,但它们已远远领先于几年前的任何事物。它们也呈现了我们可以期待的未来几十年后的人类/机器人融合社会的样子。

作者简介

Clive "Max" Maxfield received his BSc in Control Engineering in 1980 from Sheffield Hallam University, England and began his career as a designer of central processing units (CPUs) for mainframe computers. Over the years, Max has designed everything from silicon chips to circuit boards, and from brainwave amplifiers to Steampunk Prognostication Engines (don't ask). Max is the author and/or co-author of a number of books, including Designus Maximus Unleashed (banned in Alabama), Bebop to the Boolean Boogie (An Unconventional Guide to Electronics), EDA: Where Electronics Begins, FPGAs: Instant Access, and How Computers Do Math.

Profile Photo of Max Maxfield