数据标注
出自 MBA智库百科(https://wiki.mbalib.com/)
数据标注(Data Labeling)
目录 |
数据标注(Data Labeling)使用自动化的工具从互联网上抓取、收集数据包括文本、图片、语音等等,然后对抓取的数据进行整理与标注。
简单一点说是我们对一张图片、一段语音注明意思,再统一反馈给AI进行识别,AI下一次遇到这种场景就能自动识别反馈给人员,这样就是基本的数据标注[1]。
目前主流的机器学习方式是以有监督的深度学习方式为主,对于标注数据有着强依赖性需求,未经标注处理过的原始数据多以非结构化数据为主,这些数据难以被机器识别和学习。只有经过标注处理后的结构化数据才能被算法模型训练使用。
数据标注的重要性[1]
算力相当于看书需要眼睛
算法相当于思考需要大脑
标注相当于书里面的知识
人工智能运行的基本逻辑是:
- AI需要用眼睛算力查看
- 记录数据书里面的知识
- 然后用大脑算法
- 转换成自己知识
- 最后应用学到的知识用来工作
所以数据标注相当于机器的 “燃料”,有了数据AI才能用算法+算力辨别场景进行工作。
在人工智能发展历程中,数据一直被当作其“血液”。数据标注是人工智能算法得以有效运营的关键环节,想要实现人工智能就要先让计算机学会理解并具备判断事物的能力。数据标注的过程就是通过人工贴标的方式,为机器系统提供大量学习的样本,数据标注是把需要机器识别和分辨的数据打上标签,然后让计算机不断地学习这些数据的特征,最终实现计算机能够自主识别。
可以说数据决定了AI的落地程度,精准的数据集产品和高度定制化数据服务更是受到各大企业的重视。
数据标注的主要类型[2]
数据标注的类型主要是图像标注、语音标注、3D点云标注和文本标注。
- 图像标注
图像标注是对未经处理的图片数据进行加工处理,转换为机器可识别信息,然后输送到人工智能算法和模型里完成调用。
常见的图像标注方法有语义分割、矩形框标注、多边形标注、关键点标注、点云标注、3D立方体标注、2D/3D融合标注、目标追踪等。
- 语音标注
语音标注是标注员把语音中包含的文字信息、各种声音先“提取”出来,再进行转写或者合成,标注后的数据主要被用于人工智能机器学习,使计算机可以拥有语音识别能力。
常见的语音标注类型有ASA语音转写、语音切割、语音清洗、情绪判断、声纹识别、音素标注、韵律标注、发音校对等。
- 3D点云标注
点云数据一般由激光雷达等3D扫描设备获取空间若干点的信息,包括XYZ位置信息、RGB颜色信息和强度信息等,是一种多维度的复杂数据集合。
3D点云数据可以提供丰富的几何、形状和尺度信息,并且不容易受到光照强度变化和其它物体遮挡等影响,可以很好地了解机器的周围环境。
常见的3D点云标注类型有3D点云目标检测标注、3D点云语义分割标注、2D3D融合标注、点云连续帧标注等。
- 文本标注
文本标注是对文本进行特征标记的过程,对其打上具体的语义、构成、语境、目的、情感等数据标签,通过标注好的训练数据,我们可以教会机器如何来识别文本中所隐含的意图或者情感,使机器可以更好地理解语言。
常见的文本标注有ocr转写、词性标注、命名实体标注、语句泛化、情感分析、句子编写、槽位提取、意图匹配、文本判断、文本匹配、文本信息抽取、文本清洗、机器翻译等。
数据标注方法[3]
选择适当的数据标注方法非常重要,因为这一环节所需的时间和资源最多。数据标注可以使用许多方法:
驻场:使用现有的人员和资源。虽然这种方法能够更好地控制结果,但却可能耗时多,代价高昂,如果需要聘用和从头开始培训标注人员,情况更是如此。
外包:聘用临时的自由职业者标注数据。你将能够评估这些承包商的技能,但对工作流组织的控制会减少。
众包:你可以选择使用可信的第三方数据合作伙伴来众包你的数据标注需求,如果你缺少内部资源,这将是一个理想的选择。在整个模型构建过程中,数据合作伙伴可以提供专业知识,并可以提供能够快速处理大量数据的标注员。对于那些期待大规模部署AI的公司而言,众包是理想之选。
通过机器:数据标注也可通过机器完成。应考虑使用ML辅助数据标注,特别是在必须大规模准备训练数据的情况下。ML还用于需要数据分类的自动化业务流程。
构建计算机视觉系统时,首先需要标记图像、像素或关键点,或者创建完全包围数字图像的边界(称为边界框),以生成训练数据集。例如,你可以按质量类型(如产品与生活方式图像)或内容(图像本身的实际内容)对图像进行分类,或者你可以在像素级别对图像进行分割。然后,你可以使用这些训练数据来构建计算机视觉模型,该模型可用于自动对图像进行分类、检测对象的位置、识别图像中的关键点或分割图像。
自然语言处理要求你首先手动识别文本的重要部分,或者用特定标签标记文本,以生成你的训练数据集。例如,你可能想要识别文本导语的情感或意图,识别词性,对专有名词(如地点和人物)进行分类,以及识别图像、pdf或其他文件中的文本。为此,你可以在文本周围绘制边界框,然后在训练数据集中手动转录文本。自然语言处理模型用于情感分析、实体名称识别和光学字符识别。
- 音频处理:
音频处理将各种声音,如语音、野生动物噪声(吠叫、哨声或啁啾声)和建筑声音(打碎玻璃、扫描或警报)转换为结构化格式,以便可以在机器学习中使用。音频处理通常需要你首先手动将其转录为书面文本。从那里,可以通过添加标签和对音频进行分类来发现关于音频的更深层次的信息。这种分类的音频成为训练数据集。
具体业务场景的应用[2]
1.智能驾驶
智能驾驶汽车需要使用算法处理大量复杂场景,需要有海量准确高质量的数据对算法模型进行训练,车辆、行人、障碍物、天气、车道线、路标等车外环境识别算法,驾乘人员的疲劳监测、违规行为识别算法,智能座舱的语音交互、多模态交互技术都需要标注数据。
2.智能安防
智能安防是人工智能与信息技术结合的关键领域,需要高质准确的数据对技术进行训练升级。门禁生物识别、城市道路监控、车辆人流监测、违规行为监测、高空抛物监测、行人重识别等AI技术都需数据标注过程。
3.智能家居
以AI驱动智能家居,两者同向发展的AIoT是目前主流趋势。人脸识别、指纹识别门禁系统、非法闯入检测、扫地机器人、智能语音助手、智能终端控制等场景的AI技术都需要度数据进行标注。
4.智慧金融
AI为传统金融行业、零售行业赋能,简化商业购买流程。身份认证、智能客服、智能营销、智能风控、虚拟购物场景的商品图像、票据单据、人脸识别、指定语料等AI技术都需要数据标注支持。
5.智能互联网
智能互联网包括智能应用、文娱互动、智能搜索、内容审核等主要场景,聊天机器人、图文检索、多模态意图判断、情感分析、违法违规内容审核、智能美颜等AI技术需要数据标注支持。
6.智慧工业
智慧工业视觉的4大应用场景分别是测量、识别、引导、检测。包括复杂缺陷检测,安全帽反光衣识别、缺陷检测,烟火检测、违法施工检测、睡岗检测等算法都需要数据标注服务。