全球专业中文经管百科,由121,994位网友共同编写而成,共计436,015个条目

數據標註

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

數據標註(Data Labeling)

目錄

什麼是數據標註

  數據標註(Data Labeling)使用自動化的工具從互聯網上抓取、收集數據包括文本、圖片、語音等等,然後對抓取的數據進行整理與標註。

  簡單一點說是我們對一張圖片、一段語音註明意思,再統一反饋給AI進行識別,AI下一次遇到這種場景就能自動識別反饋給人員,這樣就是基本的數據標註[1]

  目前主流的機器學習方式是以有監督的深度學習方式為主,對於標註數據有著強依賴性需求,未經標註處理過的原始數據多以非結構化數據為主,這些數據難以被機器識別和學習。只有經過標註處理後的結構化數據才能被演算法模型訓練使用。

數據標註的重要性[1]

  人工智慧組成部分有三個:演算法、算力、標註

  算力相當於看書需要眼睛

  演算法相當於思考需要大腦

  標註相當於書裡面的知識

  人工智慧運行的基本邏輯是:

  • AI需要用眼睛算力查看
  • 記錄數據書裡面的知識
  • 然後用大腦演算法
  • 轉換成自己知識
  • 最後應用學到的知識用來工作

  所以數據標註相當於機器的 “燃料”,有了數據AI才能用演算法+算力辨別場景進行工作。

  在人工智慧發展歷程中,數據一直被當作其“血液”。數據標註是人工智慧演算法得以有效運營的關鍵環節,想要實現人工智慧就要先讓電腦學會理解並具備判斷事物的能力。數據標註的過程就是通過人工貼標的方式,為機器系統提供大量學習的樣本,數據標註是把需要機器識別和分辨的數據打上標簽,然後讓電腦不斷地學習這些數據的特征,最終實現電腦能夠自主識別。

  可以說數據決定了AI的落地程度,精準的數據集產品和高度定製化數據服務更是受到各大企業的重視。

數據標註的主要類型[2]

  數據標註的類型主要是圖像標註、語音標註、3D點雲標註和文本標註。

  • 圖像標註

  圖像標註是對未經處理的圖片數據進行加工處理,轉換為機器可識別信息,然後輸送到人工智慧演算法和模型里完成調用。

  常見的圖像標註方法有語義分割、矩形框標註、多邊形標註、關鍵點標註、點雲標註、3D立方體標註、2D/3D融合標註、目標追蹤等。

  • 語音標註

  語音標註是標註員把語音中包含的文字信息、各種聲音先“提取”出來,再進行轉寫或者合成,標註後的數據主要被用於人工智慧機器學習,使電腦可以擁有語音識別能力

  常見的語音標註類型有ASA語音轉寫、語音切割、語音清洗、情緒判斷、聲紋識別、音素標註、韻律標註、發音校對等。

  • 3D點雲標註

  點雲數據一般由激光雷達等3D掃描設備獲取空間若幹點的信息,包括XYZ位置信息、RGB顏色信息和強度信息等,是一種多維度的複雜數據集合。

  3D點雲數據可以提供豐富的幾何、形狀和尺度信息,並且不容易受到光照強度變化和其它物體遮擋等影響,可以很好地瞭解機器的周圍環境。

  常見的3D點雲標註類型有3D點雲目標檢測標註、3D點雲語義分割標註、2D3D融合標註、點雲連續幀標註等。

  • 文本標註

  文本標註是對文本進行特征標記的過程,對其打上具體的語義、構成、語境、目的、情感等數據標簽,通過標註好的訓練數據,我們可以教會機器如何來識別文本中所隱含的意圖或者情感,使機器可以更好地理解語言。

  常見的文本標註有ocr轉寫、詞性標註、命名實體標註、語句泛化、情感分析、句子編寫、槽位提取、意圖匹配、文本判斷、文本匹配、文本信息抽取、文本清洗、機器翻譯等。

數據標註方法[3]

  選擇適當的數據標註方法非常重要,因為這一環節所需的時間和資源最多。數據標註可以使用許多方法:

  駐場:使用現有的人員和資源。雖然這種方法能夠更好地控制結果,但卻可能耗時多,代價高昂,如果需要聘用和從頭開始培訓標註人員,情況更是如此。

  外包聘用臨時的自由職業者標註數據。你將能夠評估這些承包商的技能,但對工作流組織的控制會減少。

  眾包你可以選擇使用可信的第三方數據合作伙伴來眾包你的數據標註需求,如果你缺少內部資源,這將是一個理想的選擇。在整個模型構建過程中,數據合作伙伴可以提供專業知識,並可以提供能夠快速處理大量數據的標註員。對於那些期待大規模部署AI的公司而言,眾包是理想之選。

  通過機器:數據標註也可通過機器完成。應考慮使用ML輔助數據標註,特別是在必須大規模準備訓練數據的情況下。ML還用於需要數據分類的自動化業務流程

數據標註的應用

  構建電腦視覺系統時,首先需要標記圖像、像素或關鍵點,或者創建完全包圍數字圖像的邊界(稱為邊界框),以生成訓練數據集。例如,你可以按質量類型(如產品與生活方式圖像)或內容(圖像本身的實際內容)對圖像進行分類,或者你可以在像素級別對圖像進行分割。然後,你可以使用這些訓練數據來構建電腦視覺模型,該模型可用於自動對圖像進行分類、檢測對象的位置、識別圖像中的關鍵點或分割圖像。

  自然語言處理要求你首先手動識別文本的重要部分,或者用特定標簽標記文本,以生成你的訓練數據集。例如,你可能想要識別文本導語的情感或意圖,識別詞性,對專有名詞(如地點和人物)進行分類,以及識別圖像、pdf或其他文件中的文本。為此,你可以在文本周圍繪製邊界框,然後在訓練數據集中手動轉錄文本。自然語言處理模型用於情感分析、實體名稱識別和光學字元識別。

  • 音頻處理:

  音頻處理將各種聲音,如語音、野生動物雜訊(吠叫、哨聲或啁啾聲)和建築聲音(打碎玻璃、掃描或警報)轉換為結構化格式,以便可以在機器學習中使用。音頻處理通常需要你首先手動將其轉錄為書面文本。從那裡,可以通過添加標簽和對音頻進行分類來發現關於音頻的更深層次的信息。這種分類的音頻成為訓練數據集。

具體業務場景的應用[2]

  1.智能駕駛

  智能駕駛汽車需要使用演算法處理大量複雜場景,需要有海量準確高質量的數據對演算法模型進行訓練,車輛、行人、障礙物、天氣、車道線、路標等車外環境識別演算法,駕乘人員的疲勞監測、違規行為識別演算法,智能座艙的語音交互、多模態交互技術都需要標註數據

  2.智能安防

  智能安防是人工智慧信息技術結合的關鍵領域,需要高質準確的數據對技術進行訓練升級。門禁生物識別、城市道路監控、車輛人流監測、違規行為監測、高空拋物監測、行人重識別等AI技術都需數據標註過程。

  3.智能家居

  以AI驅動智能家居,兩者同向發展的AIoT是目前主流趨勢人臉識別指紋識別門禁系統、非法闖入檢測、掃地機器人、智能語音助手、智能終端控制等場景的AI技術都需要度數據進行標註。

  4.智慧金融

  AI為傳統金融行業零售行業賦能,簡化商業購買流程。身份認證、智能客服、智能營銷、智能風控、虛擬購物場景的商品圖像、票據單據、人臉識別、指定語料等AI技術都需要數據標註支持。

  5.智能互聯網

  智能互聯網包括智能應用、文娛互動、智能搜索、內容審核等主要場景,聊天機器人、圖文檢索、多模態意圖判斷、情感分析、違法違規內容審核、智能美顏等AI技術需要數據標註支持。

  6.智慧工業

  智慧工業視覺的4大應用場景分別是測量、識別、引導、檢測。包括複雜缺陷檢測,安全帽反光衣識別、缺陷檢測,煙火檢測、違法施工檢測、睡崗檢測等演算法都需要數據標註服務。

相關條目

參考文獻

本條目對我有幫助1
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您認為本條目還有待完善,需要補充新內容或修改錯誤內容,請編輯條目投訴舉報

本条目由以下用户参与贡献

上任鹅陈.

評論(共0條)

提示:評論內容為網友針對條目"數據標註"展開的討論,與本站觀點立場無關。

發表評論請文明上網,理性發言並遵守有關規定。

打开APP

以上内容根据网友推荐自动排序生成

下载APP

闽公网安备 35020302032707号