计算机视觉
人类获取的信息有83%来自视觉,11%来自听觉,剩下的6%来自嗅觉、触觉、味觉。所以对人类来说,视觉是最重要的一种感官。计算机视觉是机器认知世界的基础,解决的问题就是让计算机看懂图像或视频里的内容,能像人那样通过视觉观察和理解世界。
计算机视觉的三大基础任务为分类、检测和分割。如图中所示,分类就是回答这张图是猫的问题;检测就是识别图中的猫和狗,并在图中定位出来;分割就是将猫和狗从图中提取出来。
图像分类
根据图像中的语义信息对不同类别的图像进行区分。如下图,图像中有person, tree, grass, sky。
人和计算机理解图像的方式不一样,存在语义差异。人通过模式识别来分辨出猫和狗,但是计算机看到的是像素矩阵。
目标检测
找出图像或视频中的目标物体,同时检测出物体的位置和大小。如下图,用边框标记出所有人的位置。在多类别目标检测中,使用不同颜色的边框对检测到的物体进行标记。
图像分割
图像分割又可以划分为语义分割和实例分割。都是预测每个像素点所属的类别,不同的是语义分割不区分同类目标,而实例分割则需要区分同类目标中的不同个体。
语义分割:通过将整个图像分成像素组,然后对像素组进行标记和分类。如下图,把图像分为人(红)、树木(深绿)、草地(浅绿)、天空(蓝)。
实例分割:通过目标检测和语义分割的结合,将同类别下的物体也分成不同实例。
语义分割
实例分割
目标跟踪
对图像序列中的运动目标进行检测、提取、识别和跟踪,实现对运动目标的行为理解。