图像分割:探索分割任意东西 (Segment Anything) 的力量
技术创新是一件令人惊叹的事情,如今其发展速度似乎更胜从前。(虽然速度不够快,但我们总是会说:“如果我拥有这个工具,那么我会节省多少时间和精力!”)人工智能和计算机视觉尤其如此,它们改变了各行各业的运作方式,对于多种类型的企业都具有难以置信的价值。在整个 AI/计算机视觉难题中,图像分割是一个关键部分。
英特尔的 AI 传播者 Paula Ramos 与我们一起探索这个快速变化的主题。她讨论了过去、现在和未来的图像分割解决方案;深入探讨最近发布的 Meta AI 的 SAM(分割任意东西模型)(视频 1);并解释了英特尔 OpenVINO™ 工具套件提供的资源如何改善 SAM。
图像分割对计算机视觉具有什么重要意义?
计算机视觉任务有很多种,我认为图像分割是最重要的。它在对象检测、识别和分析中发挥着至关重要的作用。也许问题是:为什么它如此重要?答案很简单:图像分割有助于将单个对象与背景或其他对象隔离。我们可以利用图像分割来定位重要信息;我们可以围绕特定对象创建指标;还可以提取特征,有助于理解特定场景,这些这些都对计算机视觉非常重要。
过去开发人员在构建图像分割解决方案上面临哪些挑战?
当我在博士论文中研究图像分割时,我从事的是农业。我面临着很多挑战,因为有多种技术可以分割对象,例如阈值、边缘检测、区域增长,但没有通用的方法。根据所使用的技术,您需要仔细定义最佳方法。
我的工作是检测咖啡豆,而咖啡豆大体相似,混在一起!也许背景中也有红色,这是一个问题。因此,在我运行图像分割算法时,发生了过度分割——合并对象。或者是分割不足,缺少了一些结果。
这就是数据方面的挑战,特别是在图像分割方面,因为在光线不断变化的环境中,摄像头分辨率不同,所以很难发挥作用。基本上,您要移动摄像头,这样就会得到一些模糊的图像,或者图像中有一些噪声。检测边界也是一项挑战。传统图像分割的另一项挑战是可扩展性和效率。根据图像分辨率或数据集的大小,计算成本会更高,而这会限制实时应用。
在大多数情况下,需要人为干预才能使用这些传统方法。如果当时采用最新的图像分割技术,我就可以节省大量时间。
Meta AI 的分割任意东西模型 (SAM) 在应对这些挑战时具有什么价值?
我尤其希望七年前拥有分割任意东西模型!基本上,SAM 提高了复杂数据集的性能。因此,噪点、图像模糊、对比度低等问题都已成为 SAM 的过去式。
SAM 的另一个好处是多功能和基于提示的控制。传统方法需要针对不同的场景使用特定的技术,而 SAM 则不同,它具有多功能性,用户可以通过提示,指定他们想要分割的内容。提示可以是点、框,甚至自然语言描述。
以前,我希望能够说,“我希望看到成熟的咖啡豆”或“我希望看到未成熟的咖啡豆”,并拥有这种灵活性。这种灵活性还可以帮助开发人员处理各种分割任务。我前面还提到可扩展性和效率:使用 SAM 可以比传统方法更快处理信息。因此,这些实时应用可以更可持续,而且准确度也更高。
当然,有一些限制,因此我们需要平衡这些限制,但肯定的是,我们也在这些复杂情况中提高性能。
分割任意东西模型具有哪些商业机会?
在我们目前所知的各种不同图像分割过程中,分割任意东西模型提供了几个潜在的商业机会。例如,轻松创建内容或编辑内容,自动操纵电子邮件,或创建实时特效。增强现实或虚拟现实也受到 SAM 严重影响,实时对象检测有助于在交互体验中实现虚拟元素。
另一件事也许是零售业的产品分割。SAM 可以自动分割在线商店中的产品图像,从而提高产品销售效率。基于特定对象特征的分类是另一个有机会的领域。我还看到了机器人和自动化在各种任务中实现更精确目标识别和操纵的潜力。当然,还有自动驾驶汽车。SAM 还有潜力帮助医疗专业人员完成肿瘤分割或做出更准确诊断等任务,但我可以看到,对这种用途可能有很多保留意见。
我不想说这些业务将通过 SAM 来解决;但它是一种有潜力的应用。SAM 仍在开发中,我们仍在改进。
开发人员如何使用 OpenVINO™ 克服 SAM 的限制?
我认为,在所有这些人工智能趋势中,现在一个好事是,很多模型都是开源的,这也是我们在 SAM 上所具备的能力。OpenVINO 也是开源的,开发人员可以非常轻松访问此工具套件。每天,我们将多个 AI 趋势放入 OpenVINO Notebooks 存储库中,AI 领域会发生一些事情,两到三天后,那里就有我们的笔记本。对于开发人员来说,有一个好消息:我们已经在 OpenVINO 存储库中为 SAM 提供了优化管道。
我们现在有一系列四个笔记本。第一个是我们一直在讨论的分割任意东西模型;这是最常见的。您可以编译该模型,直接使用 OpenVINO,还可以使用神经网络压缩框架 (NNCF) 来优化该模型。
其次,我们有快速分割任意东西模型。原始 SAM 是一种需要大量计算资源的重型变换器模型。我们肯定可以通过量化来解决问题,但 FastSAM 使用 YOLOv8,将分割任意东西任务分成了两个顺序阶段。
然后,我们有 EfficientSAM,这是一种轻量级 SAM 模型,具有 SAM 的性能,而复杂性也大大降低。最近刚刚在 OpenVINO 存储库中发布的最后一个资源是 GroundingDINO plus Sam,称为 GroundedSAM。其理念是找到边界框,同时分割这些边界框中的所有东西。
真正的好处是,不需要特定的机器来运行这些笔记本;可以在笔记本电脑上运行它们,有了一些模型,就能看到图像分割。
随着 SAM 和 AI 的发展,OpenVINO 将如何继续发展?
我认为,OpenVINO 是降低构建深度学习应用复杂性的好工具。如果您拥有 AI 专业知识,那么这里是一个很好的地方,您可以详细了解 AI 趋势,以及了解 OpenVINO 如何改善您的日常工作。但如果您是新开发人员,或者如果您是开发人员,但并非 AI 专家,这也是一个很好的起点,因为您可以看到我们提供的示例,并且可以跟进 Jupyter Notebooks 中的每个单元格。
因此,我们肯定会继续创建更多示例和更多 OpenVINO 笔记本。我们有一批才华横溢的工程师从事这项工作。我们还在努力创建有意义的示例,即可以每天使用的概念证明。
另一件事是,去年 12 月,推出了 AI 电脑。我认为,这是一个很好的机会,可以了解我们每天都在增强的功能,即改进开发人员使用的硬件,这样他们无需特定硬件,便能运行最新 AI 趋势。可以在笔记本电脑上运行模型,还可以提高性能。
几年前,我自己也是一名初级开发人员,我认为对我来说,重要的是了解当时人工智能的发展情况、了解行业中的差距、领先一步、不断改进以及尝试创造新事物。
我认为人们应该了解的其他重要事项是,我们正在寻找您的需求:您希望做什么事?我们欢迎各方贡献力量。请查看 OpenVINO Notebooks 存储库,了解如何为其做出贡献。
相关内容
要详细了解图像分割,请收听使用分割任意东西,提高图像分割,并阅读 分割任意东西模型——本身具有多功能,而且有了 OpenVINO,速度更快。有关英特尔的最新创新,请在 X @Intel 和 LinkedIn 上关注他们。