Skip to main content

计算机视觉

人类获取的信息有83%来自视觉,11%来自听觉,剩下的6%来自嗅觉、触觉、味觉。所以对人类来说,视觉是最重要的一种感官。计算机视觉是机器认知世界的基础,解决的问题就是让计算机看懂图像或视频里的内容,能像人那样通过视觉观察和理解世界。

计算机视觉的三大基础任务为分类、检测和分割。如图中所示,分类就是回答这张图是猫的问题;检测就是识别图中的猫和狗,并在图中定位出来;分割就是将猫和狗从图中提取出来。

x

图像分类

根据图像中的语义信息对不同类别的图像进行区分。如下图,图像中有person, tree, grass, sky。

x

x

人和计算机理解图像的方式不一样,存在语义差异。人通过模式识别来分辨出猫和狗,但是计算机看到的是像素矩阵。

目标检测

找出图像或视频中的目标物体,同时检测出物体的位置和大小。如下图,用边框标记出所有人的位置。在多类别目标检测中,使用不同颜色的边框对检测到的物体进行标记。

x

图像分割

图像分割又可以划分为语义分割和实例分割。都是预测每个像素点所属的类别,不同的是语义分割不区分同类目标,而实例分割则需要区分同类目标中的不同个体。

语义分割:通过将整个图像分成像素组,然后对像素组进行标记和分类。如下图,把图像分为人(红)、树木(深绿)、草地(浅绿)、天空(蓝)。

实例分割:通过目标检测和语义分割的结合,将同类别下的物体也分成不同实例。

x

语义分割

x

实例分割

目标跟踪

对图像序列中的运动目标进行检测、提取、识别和跟踪,实现对运动目标的行为理解。

x

参考资料

飞桨:计算机视觉

一文读懂计算机视觉,干货满满

综述计算机视觉五大技术:图像分类、对象检测、目标跟踪、语义分割和实例分割

第4章 图像分类基础

综述:目标检测二十年(2001-2021)