复制成功

分享至

主页 > 比特币 >

Prompt一键抠图!Meta发布史上首个图像分割基础模型,开创CV新范式

2023.04.06

来源:新智元

导读:今天,Meta发布史上首个图像分割基础模型SAM,将NLP领域的prompt范式引进CV,让模型可以通过prompt一键抠图。网友直呼:CV不存在了!

就在刚刚,Meta AI发布了Segment Anything Model(SAM)——第一个图像分割基础模型。

SAM能从照片或视频中对任意对象实现一键分割,并且能够零样本迁移到其他任务。

Prompt一键抠图!Meta发布史上首个图像分割基础模型,开创CV新范式

整体而言,SAM遵循了基础模型的思路:

1. 一种非常简单但可扩展的架构,可以处理多模态提示:文本、关键点、边界框。

2. 直观的标注流程,与模型设计紧密相连。

3. 一个数据飞轮,允许模型自举到大量未标记的图像。

而且,毫不夸张地说,SAM已经学会了「物体」的一般概念,甚至对于未知物体、不熟悉的场景(例如水下和显微镜下)以及模糊的案例也是如此。

此外,SAM还能够泛化到新任务和新领域,从业者并不需要自己微调模型了。

Prompt一键抠图!Meta发布史上首个图像分割基础模型,开创CV新范式

论文地址:https://ai.facebook.com/research/publications/segment-anything/

最强大的是,Meta实现了一个完全不同的CV范式,你可以在一个统一框架prompt encoder内,指定一个点、一个边界框、一句话,直接一键分割出物体。

Prompt一键抠图!Meta发布史上首个图像分割基础模型,开创CV新范式

对此,腾讯AI算法专家金天表示,「NLP领域的prompt范式,已经开始延展到CV领域了。而这一次,可能彻底改变CV传统的预测思路。这一下你可以真的可以用一个模型,来分割任意物体,并且是动态的!」

英伟达AI科学家Jim Fan对此更是赞叹道:我们已经来到了计算机视觉领域的「GPT-3时刻」!

所以,CV真的不存在了?


SAM:一键「切出」任何图像中的所有对象


Segment Anything是致力于图像分割的第一个基础模型。

分割(Segmentation)是指识别哪些图像像素属于一个对象,一直是计算机视觉的核心任务。

但是,如果想为特定任务创建准确的分割模型,通常需要专家进行高度专业化的工作,这个过程需要训练AI的基础设施,和大量仔细标注的域内数据,因此门槛极高。

为了解决这个问题,Meta提出了一个图像分割的基础模型——SAM。这个接受了多样化数据训练的可提示模型,不仅能适应各种任务,而且操作起来也类似于在NLP模型中使用提示的方式。

SAM模型掌握了「什么是对象」这个概念,可以为任何图像或视频中的任何对象生成掩码,即使是它在训练中没有见过的对象。

SAM具有如此广泛的通用性,足以涵盖各种用例,不需要额外训练,就可以开箱即用地用于新的图像领域,无论是水下照片,还是细胞显微镜。也即是说,SAM已经具有了零样本迁移的能力。

Prompt一键抠图!Meta发布史上首个图像分割基础模型,开创CV新范式

Meta在博客中兴奋地表示:可以预计,在未来,在任何需要在图像中查找和分割对象的应用中,都有SAM的用武之地。

SAM可以成为更大的AI系统的一部分,对世界进行更通用的多模态理解,比如,理解网页的视觉和文本内容。

在AR/VR领域,SAM可以根据用户的视线选择对象,然后把对象「提升」为 3D。

对于内容创作者,SAM可以提取图像区域进行拼贴,或者视频编辑。

SAM还可以在视频中定位、跟踪动物或物体,有助于自然科学和天文学研究。

Prompt一键抠图!Meta发布史上首个图像分割基础模型,开创CV新范式

通用的分割方法

在以前,解决分割问题有两种方法。

一种是交互式分割,可以分割任何类别的对象,但需要一个人通过迭代微调掩码。

第二种是自动分割,可以分割提前定义的特定对象,但训练过程需要大量的手动标注对象(比如要分割出猫,就需要成千上万个例子)。

总之,这两种方式都无法提供通用、全自动的分割方法。

而SAM可以看作这两种方法的概括,它可以轻松地执行交互式分割和自动分割。

在模型的可提示界面上,只要为模型设计正确的提示(点击、框、文本等),就可以完成广泛的分割任务。

另外,SAM在包含超过10亿个掩码的多样化、高质量数据集上进行训练,使得模型能够泛化到新的对象和图像,超出其在训练期间观察到的内容。因此,从业者不再需要收集自己的细分数据,为用例微调模型了。

这种能够泛化到新任务和新领域的灵活性,在图像分割领域尚属首次。

Prompt一键抠图!Meta发布史上首个图像分割基础模型,开创CV新范式
(1) SAM 允许用户通过单击一下,或交互式单击许多点,来分割对象,还可以使用边界框提示模型。
(2) 在面对被分割对象的歧义时,SAM可以输出多个有效掩码,这是解决现实世界中分割问题的必备能力。
(3) SAM 可以自动发现、屏蔽图像中的所有对象。(4) 在预计算图像嵌入后,SAM可以实时为任何提示生成分割掩码,允许用户与模型进行实时交互。


工作原理


免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier