图像标注
出自 MBA智库百科(https://wiki.mbalib.com/)
图像标注(Image Annotation)
目录 |
图像标注(Image Annotation)指将标签附加到图像上的过程。这可以是整个图像的一个标签,也可以是图像中每一组像素的多个标签。这个计算机视觉技术的应用被用在图像检索系统来对数据库组织和定位感兴趣的图像。
市场对图像标注精准度愈发严格,同时针对不同的应用场景,也衍生出了不同的图像标注方法。
图像标注的类型[1]
图像标注类型主要包括:分类标注、点标注、线标注、边界框、像素标注等。
01.分类(classification)
分类标注是最基本的一种标注手段,其表现形式一般就是一张图对应一个数字标签,比如 Dogs vs. Cats数据集,该数据集共可分为dog和cat两类,因此标签设计时可以用0代表dog,1代表cat
02.点标注(keypoints)
点标注通常用于对图像特征较细致的场景,如人体姿态估计,人脸特征识别等
Leeds Sports Pose数据集中每张图像标注有 14 个关节位置,可以用于对人体姿势进行检测\评估
Wider Facial Landmarks in-the-wild (WFLW) 数据集对人的眉毛、眼睛、鼻子、嘴唇等部位进行标注( landmark annotation),用来对人脸特征进行定位。一个有趣的应用就是可以给歪果仁强行带上口罩(Artificial Mask)。
03.线标注(line)
线标注最常用的应用场景就是自动驾驶领域,用来识别车道及边界。
04.边界框(bounding box)
边界框标注主要用于对象检测,用来识别某个特征在图像中的具体位置,细分一下又可以分为2D边界框(Box2D)和3D边界框(Box3D)。
05.像素标注(pixel level label)
像素标注又称区域标注,是一种将图像中像素进行归类的标注方式,主要有语义分割和实例分割两种。
图像标注的方法[2]
- 分割法
语义分割: 语义分割是指根据物体的属性,对复杂不规则图片进行进行区域划分,并标注对应上属性,以帮助训练图像识别模型。语义分割则需要按照语义用自定义画框对交通场景中的图片进行分区,区分出图片中的行人、车辆、道路、标识、树木、建筑物等。常应用于自动驾驶、人机交互、虚拟现实等领域。
实例分割: 实例分割是图像分割的一种子类型,它在像素级别上标识图像中每个物体的每个实例。实例分割和语义分割是图像分割的两种粒度级别之一。
全景分割: 全景分割结合了语义分割和实例分割,所有像素都被分配一个类标签,所有目标实例都被唯一地分割。
- 矩形框标注
矩形框标注又叫拉框标注,拉框标注是图像标注中极为常见的一种任务类型,主要是指用2D框、3D框、多边形框等标注出图像中的指定目标对象。
2D 包围框:
在这种方法中,只需要在被检测的物体周围绘制矩形框。它们用于定义对象在图像中的位置。边框可以由矩形左上角的x、y轴坐标和右下角的x、y轴坐标来确定。
2D 包围框优点和缺点:
标注起来快速和容易。
不能提供重要的信息,如物体的方向,这对许多应用来说是至关重要的。
包括不属于物体一部分的背景像素。这可能会影响训练。
3D 包围框或者立方体
类似于2D边框,除了它们还可以显示目标的深度。这种标注是通过将二维图像平面上的边界框向后投影到三维长方体来实现的。它允许系统区分三维空间中的体积和位置等特征。
3D 包围框或者立方体优点和缺点:
解决了物体方向的问题。
当物体被遮挡,这种标注可以想象包围框的维度,这可能会影响训练。
这种标注也会包括背景像素,可能会影响训练。
- 多边形标注
多边形标注是指在静态图片中,使用多边形框,标注出不规则的目标物体,相对于矩形框标注,多边形标注能够更精准地框定目标,同时对于不规则物体,也更具针对性。
优点和缺点:
多边形标记的主要优点是它消除了背景像素,并捕获了物体的精确尺寸。
非常耗时,如果物体的形状是复杂的,很难标注。
- 关键点标注
关键点标注是指在目标对象的规定位置打上关键点,例如在人脸图片上用点标注出眼角、鼻尖、嘴角等关键位置或者在人体图像上标出骨骼或穴位的位置等。
- 立方体标注
将2D图片中的车辆进行3D标注,主要应用于训练自动驾驶对会车或超车车辆的体积判断。
- 3D点云标注
3D点云标注是指从激光雷达采集的点云图中找出目标对象,并以立方体框的形式标注出来,其中包括车辆、行人、广告标志和树木等。
- 2D/3D融合标注
2D/3D融合标注是指同时对2D和3D传感器所采集到的图像数据进行标注,并建立关联。该方法能够标注出物体在平面和立体中的位置和大小,帮助自动驾驶模型增强视觉和雷达感知。
- 目标追踪
目标跟踪是从视频数据中按帧捕捉某一对象,并进行画框标注。在军事制导、视频监控、机器人视觉导航、人机交互,以及医疗诊断等许多方面有着广泛的应用前景。
- OCR转写
OCR转写是对图像中的文字内容进行标记与转写,帮助训练和完善图片与文本识别模型。
- 属性判别
属性判别是指通过人工或机器配合的方式,识别出图像中的目标物体,并将其标注上对应属性。
图像标注的应用[2]
- 自动驾驶汽车:利用语义分割对图像中的每个像素进行标记,使车辆能够感知到道路上的障碍物。这一领域的研究仍在进行中。
- 情绪检测:可以用来检测一个人的情绪(高兴,悲伤,或自然)。这可以应用于评估受试者对特定内容的情绪反应。
图像标注面临的挑战[2]
- 时间复杂度:手工标注图像需要很多时间,机器学习需要大量的数据集,需要大量的时间来有效地标注这些基于图像的数据集。
- 计算复杂度:机器学习需要精确标注的数据来运行模型。如果标注者在给图像做标注的时候,注入任何一种错误,都可能会影响到训练,所有的努力都可能付诸东流。
- 领域知识:图像标注通常需要特定领域的高级领域知识。因此,需要知道该标注什么的注解者,以及该领域的专家。
- ↑ 陈金菊.图像语义标注研究综述[J].图书馆学研究,2017(18):2-7+20.
- ↑ 2.0 2.1 2.2 Surya Remanan.Introduction to the basic content of image annotation.AI PARK.2023-1-30(引用日期)