计算机视觉

人类获取的信息有83%来自视觉，11%来自听觉，剩下的6%来自嗅觉、触觉、味觉。所以对人类来说，视觉是最重要的一种感官。计算机视觉是机器认知世界的基础，解决的问题就是让计算机看懂图像或视频里的内容，能像人那样通过视觉观察和理解世界。

计算机视觉的三大基础任务为分类、检测和分割。如图中所示，分类就是回答这张图是猫的问题；检测就是识别图中的猫和狗，并在图中定位出来；分割就是将猫和狗从图中提取出来。

图像分类

根据图像中的语义信息对不同类别的图像进行区分。如下图，图像中有person, tree, grass, sky。

人和计算机理解图像的方式不一样，存在语义差异。人通过模式识别来分辨出猫和狗，但是计算机看到的是像素矩阵。

找出图像或视频中的目标物体，同时检测出物体的位置和大小。如下图，用边框标记出所有人的位置。在多类别目标检测中，使用不同颜色的边框对检测到的物体进行标记。

图像分割又可以划分为语义分割和实例分割。都是预测每个像素点所属的类别，不同的是语义分割不区分同类目标，而实例分割则需要区分同类目标中的不同个体。

语义分割：通过将整个图像分成像素组，然后对像素组进行标记和分类。如下图，把图像分为人（红）、树木（深绿）、草地（浅绿）、天空（蓝）。

实例分割：通过目标检测和语义分割的结合，将同类别下的物体也分成不同实例。

语义分割

实例分割

对图像序列中的运动目标进行检测、提取、识别和跟踪，实现对运动目标的行为理解。