圖像標註
出自 MBA智库百科(https://wiki.mbalib.com/)
圖像標註(Image Annotation)
目錄 |
圖像標註(Image Annotation)指將標簽附加到圖像上的過程。這可以是整個圖像的一個標簽,也可以是圖像中每一組像素的多個標簽。這個電腦視覺技術的應用被用在圖像檢索系統來對資料庫組織和定位感興趣的圖像。
市場對圖像標註精準度愈發嚴格,同時針對不同的應用場景,也衍生出了不同的圖像標註方法。
圖像標註的類型[1]
圖像標註類型主要包括:分類標註、點標註、線標註、邊界框、像素標註等。
01.分類(classification)
分類標註是最基本的一種標註手段,其表現形式一般就是一張圖對應一個數字標簽,比如 Dogs vs. Cats數據集,該數據集共可分為dog和cat兩類,因此標簽設計時可以用0代表dog,1代表cat
02.點標註(keypoints)
點標註通常用於對圖像特征較細緻的場景,如人體姿態估計,人臉特征識別等
Leeds Sports Pose數據集中每張圖像標註有 14 個關節位置,可以用於對人體姿勢進行檢測\評估
Wider Facial Landmarks in-the-wild (WFLW) 數據集對人的眉毛、眼睛、鼻子、嘴唇等部位進行標註( landmark annotation),用來對人臉特征進行定位。一個有趣的應用就是可以給歪果仁強行帶上口罩(Artificial Mask)。
03.線標註(line)
線標註最常用的應用場景就是自動駕駛領域,用來識別車道及邊界。
04.邊界框(bounding box)
邊界框標註主要用於對象檢測,用來識別某個特征在圖像中的具體位置,細分一下又可以分為2D邊界框(Box2D)和3D邊界框(Box3D)。
05.像素標註(pixel level label)
像素標註又稱區域標註,是一種將圖像中像素進行歸類的標註方式,主要有語義分割和實例分割兩種。
圖像標註的方法[2]
- 分割法
語義分割: 語義分割是指根據物體的屬性,對複雜不規則圖片進行進行區域劃分,並標註對應上屬性,以幫助訓練圖像識別模型。語義分割則需要按照語義用自定義畫框對交通場景中的圖片進行分區,區分出圖片中的行人、車輛、道路、標識、樹木、建築物等。常應用於自動駕駛、人機交互、虛擬現實等領域。
實例分割: 實例分割是圖像分割的一種子類型,它在像素級別上標識圖像中每個物體的每個實例。實例分割和語義分割是圖像分割的兩種粒度級別之一。
全景分割: 全景分割結合了語義分割和實例分割,所有像素都被分配一個類標簽,所有目標實例都被唯一地分割。
- 矩形框標註
矩形框標註又叫拉框標註,拉框標註是圖像標註中極為常見的一種任務類型,主要是指用2D框、3D框、多邊形框等標註出圖像中的指定目標對象。
2D 包圍框:
在這種方法中,只需要在被檢測的物體周圍繪製矩形框。它們用於定義對象在圖像中的位置。邊框可以由矩形左上角的x、y軸坐標和右下角的x、y軸坐標來確定。
2D 包圍框優點和缺點:
標註起來快速和容易。
不能提供重要的信息,如物體的方向,這對許多應用來說是至關重要的。
包括不屬於物體一部分的背景像素。這可能會影響訓練。
3D 包圍框或者立方體
類似於2D邊框,除了它們還可以顯示目標的深度。這種標註是通過將二維圖像平面上的邊界框向後投影到三維長方體來實現的。它允許系統區分三維空間中的體積和位置等特征。
3D 包圍框或者立方體優點和缺點:
解決了物體方向的問題。
當物體被遮擋,這種標註可以想象包圍框的維度,這可能會影響訓練。
這種標註也會包括背景像素,可能會影響訓練。
- 多邊形標註
多邊形標註是指在靜態圖片中,使用多邊形框,標註出不規則的目標物體,相對於矩形框標註,多邊形標註能夠更精準地框定目標,同時對於不規則物體,也更具針對性。
優點和缺點:
多邊形標記的主要優點是它消除了背景像素,並捕獲了物體的精確尺寸。
非常耗時,如果物體的形狀是複雜的,很難標註。
- 關鍵點標註
關鍵點標註是指在目標對象的規定位置打上關鍵點,例如在人臉圖片上用點標註出眼角、鼻尖、嘴角等關鍵位置或者在人體圖像上標出骨骼或穴位的位置等。
- 立方體標註
將2D圖片中的車輛進行3D標註,主要應用於訓練自動駕駛對會車或超車車輛的體積判斷。
- 3D點雲標註
3D點雲標註是指從激光雷達採集的點雲圖中找出目標對象,並以立方體框的形式標註出來,其中包括車輛、行人、廣告標誌和樹木等。
- 2D/3D融合標註
2D/3D融合標註是指同時對2D和3D感測器所採集到的圖像數據進行標註,並建立關聯。該方法能夠標註出物體在平面和立體中的位置和大小,幫助自動駕駛模型增強視覺和雷達感知。
- 目標追蹤
目標跟蹤是從視頻數據中按幀捕捉某一對象,併進行畫框標註。在軍事制導、視頻監控、機器人視覺導航、人機交互,以及醫療診斷等許多方面有著廣泛的應用前景。
- OCR轉寫
OCR轉寫是對圖像中的文字內容進行標記與轉寫,幫助訓練和完善圖片與文本識別模型。
- 屬性判別
屬性判別是指通過人工或機器配合的方式,識別出圖像中的目標物體,並將其標註上對應屬性。
圖像標註的應用[2]
- 自動駕駛汽車:利用語義分割對圖像中的每個像素進行標記,使車輛能夠感知到道路上的障礙物。這一領域的研究仍在進行中。
- 情緒檢測:可以用來檢測一個人的情緒(高興,悲傷,或自然)。這可以應用於評估受試者對特定內容的情緒反應。
圖像標註面臨的挑戰[2]
- 時間複雜度:手工標註圖像需要很多時間,機器學習需要大量的數據集,需要大量的時間來有效地標註這些基於圖像的數據集。
- 計算複雜度:機器學習需要精確標註的數據來運行模型。如果標註者在給圖像做標註的時候,註入任何一種錯誤,都可能會影響到訓練,所有的努力都可能付諸東流。
- 領域知識:圖像標註通常需要特定領域的高級領域知識。因此,需要知道該標註什麼的註解者,以及該領域的專家。
- ↑ 陳金菊.圖像語義標註研究綜述[J].圖書館學研究,2017(18):2-7+20.
- ↑ 2.0 2.1 2.2 Surya Remanan.Introduction to the basic content of image annotation.AI PARK.2023-1-30(引用日期)