掩蔽效應
出自 MBA智库百科(https://wiki.mbalib.com/)
掩蔽效應(Masking Effects)
目錄 |
掩蔽效應(Masking Effects)是物理學、心理學等多學科概念,指的是由於出現多個同一類別(如聲音、圖像)的刺激,導致被試不能完整接受全部刺激的信息。其中,視覺掩蔽效應包括明度掩蔽效應和模式掩蔽效應,其影響因素主要包括空間域、時間域和色彩域;聽覺掩蔽效應則主要包括雜訊、人耳、頻域、時域和時間掩蔽效應[1]。
掩蔽效應是一個較為複雜的生理和心理現象。大量的統計研究表明,一個聲音對另一個聲音的掩蔽量與很多因素有關,主要取決於這兩個聲音的相對強度和頻率結構,但是聽者對某個聲音的註意力也會影響其它聲音的掩蔽作用。一般來說,兩個頻率越接近的聲音,彼此的掩蔽量就越大;聲壓級越高,掩蔽量也越大。此外,高頻聲容易被低頻聲掩蔽(特別是當低頻聲很響時),而低頻聲則很難為高頻聲掩蔽。例如,我們在欣賞音樂時,低音鼓的聲壓級即使並不高,我們也能從一片樂器聲中清晰地聽到它的聲音。同理,具有高頻特性的小提琴比較容易被低頻的管樂器所掩蔽[1]。
人們在安靜環境中聽一個聲音,即使這個聲音的聲壓級很低也可以聽到,說明人耳對這個聲音的聽閾可以很低。但是,在傾聽一個聲音的同時,如果存在另一個聲音(掩蔽聲),就會影響到人耳對所聽聲音的聽聞效果,這時對所聽聲音的聽閾就要提高。這種由於某個聲音的存在而使人耳對別的聲音聽覺靈敏度降低的現象,稱為“掩蔽效應”[2]。
聽覺掩蔽效應
掩蔽效應出現在一個聲信號由於同時存在的強度超過一定聲級的聲音,而被判斷為聽不懂或聽不見。換句話說,一個音的聽閥為另一個(掩蔽)聲的存在而提高的過程。
聲音如何發生掩蔽?
對於純音,當聲信號的頻率接近掩蔽聲的頻率時,掩蔽效應更加明顯。低頻聲對頻率較高的聲音產生可觀的掩蔽效應,頻率較高的聲一定程度上也能掩蔽頻率較低的音。隨著掩蔽聲的聲壓級升高,掩蔽的頻率範圍越來越大。註意,窄帶雜訊產生的掩蔽不能直接從用寬頻雜訊所作的掩蔽實驗預估。反之亦然。除了頻率隱蔽外,還存在時間掩蔽,有時,一個音能被超前於他的聲所掩蔽,這叫前掩蔽;也能被跟著他的聲所掩蔽,這叫後掩蔽。
後掩蔽的出現是當信號被切斷,人耳需要一段時間來恢復正常聽力。舉個例子,一個很短的可聽咔噠聲,剛好在爆裂雜訊後響起,但它是聽不到的。
複雜的掩蔽效應
掩蔽效應宛如一個人站在你的面前會遮擋你的視線一樣,一個聲音也會被另一個聲音所掩蓋。即由於某一個聲音的存在,要聽清另外的聲音必須把這些聲音提高。聽閾所提高的分貝數稱為掩蔽量,人的聽覺器官能夠分辨同時存在的幾個聲音,但是若某一個聲音增大,別的聲音就難以聽清甚至聽不到了。
在音質設計較差的廳堂中,掩蔽現象是很普遍的,一些不想聽到的雜訊使聽眾很難或不可能聽清楚和欣賞所要聽的聲音。在這種情況下,一種聲音(如廳堂中的語言聲)的聽閾,由於其它聲音的掩蔽(如街道雜訊或通風雜訊)而提高了。
純音對純音、噪音對純音的掩蔽效應結論如下:
1. 純音間的掩蔽
對處於中等強度時的純音最有效的掩蔽是出現在它的頻率附近。 低頻的純音可以有效地掩蔽高頻的純音,而反過來則作用很小。
2. 噪音對純音的掩蔽
噪音是由多種純音組成,具有無限寬的頻譜。若掩蔽聲為寬頻雜訊,被掩蔽聲為純音,則它產生的掩蔽門限在低頻段一般高於雜訊功率譜密度17dB,且較平坦;超過500Hz時大約每十倍頻程增大10dB。若掩蔽聲為窄帶雜訊,被掩蔽聲為純音,則情況較複雜。其中位於被掩蔽音附近的由純音分量組成的窄帶雜訊即臨界頻帶的掩蔽作用最明顯。
所謂臨界頻帶是指當某個純音被以它為中心頻率,且具有一定帶寬的連續雜訊所掩蔽時,如果該純音剛好能被聽到時的功率等於這一頻帶內雜訊的功率,那麼這一帶寬稱為臨界頻帶寬度。
臨界頻帶的單位叫巴克(Bark),1Bark=一個臨界頻帶寬度。頻率小於500Hz時,1Bark約等於freq/100;頻率大於500Hz時,1Bark約等於9+41og(freq/1000),即約為某個純音中心頻率的20%。通常認為,20Hz-16kHz範圍內有24個子臨界頻帶。而當某個純音位於掩蔽聲的臨界頻帶之外時,掩蔽效應仍然存在。
掩蔽類型
1. 頻域掩蔽
所謂頻域掩蔽是指掩蔽聲與被掩蔽聲同時作用時發生掩蔽效應,又稱同時掩蔽。這時,掩蔽聲在掩蔽效應發生期間一直起作用,是一種較強的掩蔽效應。通常,頻域中的一個強音會掩蔽與之同時發聲的附近的弱音,弱音離強音越近,一般越容易被掩蔽;反之,離強音較遠的弱音不容易被掩蔽。
例如,—個1000Hz的音比另一個900Hz的音高18dB,則900Hz的音將被1000Hz的音掩蔽。而若1000Hz的音比離它較遠的另一個1800Hz的音高18dB,則這兩個音將同時被人耳聽到。若要讓1800Hz的音聽不到,則1000Hz的音要比1800Hz的音高45dB。
一般來說,低頻的音容易掩蔽高頻的音;在距離強音較遠處,絕對聞閾比該強音所引起的掩蔽閾值高,這時,雜訊的掩蔽閾值應取絕對聞閾。
2. 時域掩蔽
所謂時域掩蔽是指掩蔽效應發生在掩蔽聲與被掩蔽聲不同時出現時,又稱異時掩蔽。異時掩蔽又分為導前掩蔽和滯後掩蔽。若掩蔽聲音出現之前的一段時間內發生掩蔽效應,則稱為導前掩蔽;否則稱為滯後掩蔽。產生時域掩蔽的主要原因是人的大腦處理信息需要花費一定的時間,異時掩蔽也隨著時間的推移很快會衰減,是一種弱掩蔽效應。
一般情況下,導前掩蔽只有3ms—20ms,而滯後掩蔽卻可以持續50ms—100m。研究聲音和它引起的聽覺之間關係的一門邊緣學科。它既是聲學的一個分支,也是心理物理學的一個分支。心理聲學本可包括言語和音樂這樣一些複合聲和它們的知覺。這些可見語言聲學、音樂聲學等條,本條只限於較基礎和簡單的心理聲學現象,即:
剛剛能引起聽覺的聲音——聽閾;
聲音的強度、頻率、頻譜和時長這些參量所決定的聲音的主觀屬性——響度、音調、音色和音長;
某些和複合聲音有關的特殊的心理聲學效應——餘音、掩蔽、非線性、雙耳效應。
掩蔽效應的分類[1]
各個領域掩蔽效應有很多,掩蔽機制也有所不同。
Averbach 和 Coriell指出,在圖像呈現後馬上呈現一個其他刺激信息,該圖像就會被抹去,這個現象為掩蔽(masking)。
看不見的黑猩猩實驗
1990年代哈佛大學設計著名的“看不見的黑猩猩實驗”。
研究人員讓志願者看一段打籃球視頻,要求他們數出三名穿白衣者傳球次數,而無需理會三名穿黑衣者。
視頻中,那些人傳球時,一個穿黑色毛茸茸外套、打扮成大猩猩模樣的人,走進他們中間,面對鏡頭捶打胸膛,在鏡頭前停留9秒後退出。
當視頻播完後,一半志願者回答,沒看見“大猩猩”上場。而當他們自己回看視頻時,都不敢相信自己眼睛,那個“大猩猩”是如此明顯,而且在視頻中持續時間如此之長。
視而不見很容易也很普遍,背後有其原因所在。
1998年愛爾蘭神經科學家雷·多蘭與同事約翰·莫裡斯和阿尼·奧曼發現,大腦可以在無意識和有意識層次上對面部表情進行加工。
在一個實驗中,他們先給被試看兩張表現憤怒面孔幻燈片。在放第一張時,他們播放一陣令人心煩“白噪音”,讓被試對這一面孔記憶貼上負面標簽;放第二張時,沒有播放任何聲音。
接下來,他們分次選擇這兩張憤怒面孔幻燈片之一,讓幻燈片一閃而過,然後再放第三張無表情面孔幻燈片。這時會出現視覺“後掩蔽效應”,人們對後面幻燈片感知會覆蓋掉前面幻燈片。當他們問被試看到什麼時,被試回答看到無表情面孔,而不是憤怒面孔。
不過,掩蔽並沒有100%。研究人員發現,儘管出現掩蔽效應,被試意識不到自己看到憤怒面孔幻燈片,但在潛意識狀態下會感知到,因為被試腦部活動會根據憤怒面孔幻燈片是否伴有“白噪音”而有所不同。
在生活中,如果一個人第一次看到某個人就討厭,可能是大腦潛意識識別加工表情區域判斷出,這個人可能形似某個曾經對自己造成傷害的人,儘管在意識層面完全不記得這個曾造成傷害的人是誰。
- 影響因素
空間域
視覺的大小不僅與鄰近區域的平均亮度有關,還與鄰近區域的亮度在空間上的變化(不均勻性)有關。假設將一個光點放在亮度不均勻的背景上,通過改變光點的亮度測試此時的視覺,人們發現,背景亮度變化越劇烈,視覺越高,即人眼的對比度靈敏度越低。這種現象稱為空間域中的視覺的掩蔽效應(Masking)。
時間域
影響時間域中掩蔽效應的因素比較複雜,對它的研究還處於初始階段。這裡僅介紹一些實驗結果,這些結果可能在數據壓縮方面具有潛在的應用價值。實驗表明,當電視圖像序列中相鄰畫面的變化劇烈(例如場景切換)時,人眼的分辨力會突然劇烈下降,例如下降到原有分辨力的1/10。也就是說,當新場景突然出現時,人基本上看不清晰景物,在大約0.5秒之後,視力才會逐漸恢復到正常水平。顯然,在這0.5秒內,傳送解析度很高的圖像是沒有必要的。研究者還發現,當眼球跟著畫面中的運動物體轉動時,人眼的解析度要高於不跟著物體轉動的情況。而通常在看電視時,眼睛是很難跟蹤運動中的物體的。
色彩域
在亮度變化劇烈的背景上,例如在黑白跳變的邊沿上,人眼對色彩變化的敏感程度明顯地降低。類似地,在亮度變化劇烈的背景上,人眼對彩色信號的雜訊(例如彩色信號的量化雜訊)也不易察覺。這些都體現了亮度信號對彩色信號的掩蔽效應。
明度掩蔽效應
指在目標刺激信息隨後呈現的閃光越明亮,被試對目標刺激信息的回憶成績就越差,好像是閃光在擦拭原先呈現的圖像似的。
在明度掩蔽中,亮光的強度在掩蔽中起著關鍵性作用。在亮度知覺的實驗中,掩蔽的破壞效應是它的亮度及其持續時間的複合函數。如一個以20英尺朗伯亮光的亮光持續2ms,正好相當於以5英尺朗伯亮光持續8ms時的破壞效應。
只有在同一隻眼睛前呈現目標刺激和掩蔽刺激,圖像才會被破壞。在右眼前呈現字母,而隨後在左眼前呈現閃光,就不會導致掩蔽效應。這表明,掩蔽效應是在視網膜水平,即它在兩眼信息整合之前就已經發生了。
模式掩蔽效應
指隨後呈現的圖像刺激信息對被試的回憶成績產生的破壞效應。
在模式掩蔽中,起重要作用的是目標字母呈現與掩蔽刺激開始之間的時間間隔。與明度遮掩相比,其效應的產生與否與在同一眼睛呈現掩蔽刺激是無關的。在右眼前呈現字母,而後在左眼前呈現模式刺激,會產生在同一隻眼睛前呈現字母和圖像刺激時同樣的掩蔽效果,這表明模式掩蔽發生在兩眼信息整合之後。
聽覺中的掩蔽效應指人的耳朵只對最明顯的聲音反應敏感,而對於不明顯的聲音,反應則較不為敏感。一個聲音的聞閾值由於另一個聲音的出現而提高的效應。 前者稱為掩蔽音(masking tone),後者稱為被掩蔽聲(masked tone)。對於兩個純音來說,最明顯的掩蔽效應出現在掩蔽聲頻率附近,低頻純音能有效地掩蔽高頻純音,而高頻純音對低頻純音的掩蔽效應小。
例如在聲音的整個頻率譜中,如果某一個頻率段的聲音比較強,則人就對其它頻率段的聲音不敏感了。應用此原理,人們發明瞭mp3等壓縮的數字音樂格式,在這些格式的文件里,只突出記錄了人耳朵較為敏感的中低頻段聲音,而對於較高的頻率的聲音則簡略記錄,從而大大壓縮了所需的存儲空間。在人們欣賞音樂時,如果設備對低頻響應得比較好,則會使人感到高頻響應不好,反之亦然。
雜訊掩蔽效應
雜訊的掩蔽效應是指一個聲音的聽閾因另外一個或多個聲音的存在而提高的現象。在工業生產上,雜訊的掩蔽效應是廣泛存在的。這一掩蔽效應經常使操作人員聽不到事故的前兆和警戒信號(行車信號、危險報警信號等)而發生工傷事故。另外,由於雜訊掩蔽了指令信號而引起誤操作亦會導致事故的發生。在我國大中型鋼鐵企業中,就曾發生過因高爐排氣放空的強雜訊掩蔽了火車鳴笛聲,而造成鐵軌上正在作業的工人被軋死的慘重事故。柳州鋼鐵廠曾因高爐鼓風機雜訊大於100dB,影響了電話聯繫,將“關風”誤聽成“送風”,造成了誤操作,影響了安全生產。在化工行業也不乏其例。因此,治理雜訊應引起各級安全部門的高度重視。
人耳掩蔽效應
一個較弱的聲音(被掩蔽音)的聽覺感受被另一個較強的聲音(掩蔽音)影響的現象稱為人耳的“掩蔽效應”。 人耳的掩蔽效應 。被掩蔽音單獨存在時的聽閾分貝值,或者說在安靜環境中能被人耳聽到的純音的最小值稱為絕對聞閾。實驗表明,200~800Hz絕對聞閾值最小,即人耳對它的微弱聲音最敏感;而在高頻區絕對聞閾值要大得多。在200~800Hz範圍內聞閾隨頻率變化最不顯著,即在這個範圍內語言可儲度最高。在掩蔽情況下,提高被掩蔽弱音的強度,使人耳能夠聽見時的聞閾稱為掩蔽聞閾(或稱掩蔽門限),被掩蔽弱音必須提高的分貝值稱為掩蔽量(或稱閾移)。
頻域掩蔽效應
一個強純音會掩蔽在其附近同時發聲的弱純音,這種特性稱為頻域掩蔽,也稱同時掩蔽(simultaneous masking)。如,一個聲強為60dB、頻率為900Hz的純音,另外還有一個1000Hz的純音,前者比後者高18dB,在這種情況下我們的耳朵就只能聽到那個900Hz的強音。如果有一個1600Hz的純音和一個聲強比它低18dB的800Hz的純音,那麼我們的耳朵將會同時聽到這兩個聲音。要想讓800Hz的純音也聽不到,則需要把它降到比1600Hz的純音低45dB。一般來說,弱純音離強純音越近就越容易被掩蔽;低頻純音可以有效地掩蔽高頻純音,但高頻純音對低頻純音的掩蔽作用則不明顯。
由於聲音頻率與掩蔽曲線不是線性關係,為從感知上來統一度量聲音頻率,引入了“臨界頻帶(criticalband)”的概念。通常認為,在20Hz到16kHz範圍內有24個臨界頻帶。
時域掩蔽效應
除了同時發出的聲音之間有掩蔽現象之外,在時間上相鄰的聲音之間也有掩蔽現象,並且稱為時域掩蔽。時域掩蔽又分為超前掩蔽(pre-masking)和滯後掩蔽(post-masking)。產生時域掩蔽的主要原因是人的大腦處理信息需要花費一定的時間。一般來說,超前掩蔽很短,只有大約5~20ms,而滯後掩蔽可以持續50~200ms。這個區別也是很容易理解的。
時間掩蔽效應
同步掩蔽效應和不同頻率聲音的頻率和相對音量有關,時間掩蔽則僅僅和時間有關。如果兩個聲音在時間上特別接近,人類在分辨它們的時候也會有困難。例如如果一個很強的聲音後面緊跟著一個很弱的聲音,後一個聲音就很難聽到。但是如果在第一個聲音停止後過一段時間再播放第二個聲音,後一個聲音就可以聽到。到底應該間隔多長時間?對純音一般來講是5毫秒。當然如果在時序上反過來效果是一樣的,如果一個較弱的聲音出現在一個較強的聲音之前而且間隔很短,那個較弱的聲音你也聽不到。
詞語掩蔽效應[3]
不僅視覺、聽覺等感覺領域有掩蔽現象,與之密切相關知覺領域,也有類似、相關掩蔽效應,不過掩蔽機制有所不同。
其中一個實驗,被試被分成兩組,共同觀看30秒劫匪打劫銀行模擬錄像,其中包括劫匪臉部特寫。
一組被試在觀看錄像後用5分鐘時間寫下劫匪相貌特征,另一組只是安靜度過5分鐘,然後兩組被試從8張照片中選出錄像中搶劫犯。
結果第一組被試成功再認率只有38%,第二組卻達到64%。這就是詞語掩蔽效應,書面寫下相貌特征,反而影響外貌識別。想當然認為有效,最後不僅無效,還有害。
原因在於,在信息有限情況下,直覺思維可以做出顯著貢獻。在適合運用直覺情境,尤其是沒有明確正誤標準時,用邏輯思考替代直覺,反而會影響直覺發揮正麵價值。
例如,有些證人因為受詞語掩蔽效應干擾,錯誤指認凶手,導致無辜之人坐牢,此類案件並不少見。
再來看一個實驗,學者蒂莫西·威爾森與喬納森·斯庫勒將被試分成兩組,對5種不同品牌草莓醬口味進行盲測。
第一組在品嘗後首先在紙上寫出喜歡與不喜歡草莓醬及其原因,然後用1至9分對5種草莓醬口味好壞進行評分;第二組被試需要在品嘗後立即評分。
威爾森與斯庫勒發現,第一組被試評分與專家評判相去甚遠,而第二組被試評分卻與專家選擇很接近。
第一組被試經過邏輯思考卻做出錯誤判斷,一個重要原因也是詞語掩蔽效應。難以用語言描述味覺,相對感性,用詞語來表達,反而會幹擾直覺判斷。
當然,並非所有情境都會出現詞語掩蔽效應。如果經驗知識、邏輯思考等能發揮作用,與直覺思維相輔相成,就不會出現詞語掩蔽效應。
廳堂音質設計
在廳堂音質設計中,排除低頻雜訊干擾是一個重要的目的。掩蔽現象可以適當地應用於環境雜訊控制。如果掩蔽雜訊為連續的聲音,而又不太響亮,且沒有信息內容時,它可以成為使人易於接受的本底雜訊,同時也可以抑制其它干擾的雜訊,使人聽到這些聲音時從心理上不覺得煩燥。如剎車的刺耳聲、盤子碰撞聲,便可以用風扇之類較柔和的雜訊來掩蔽。有時,甚至通風和空調雜訊、公路上連續不斷的交通車輛的雜訊,以及噴水池聲音等都可以作為良好的掩蔽雜訊源。一般來說,如果待掩蔽的雜訊聲壓級低於掩蔽聲的聲壓級,利用一種雜訊來掩蔽另一種雜訊通常可取得滿意的效果[2]。
喧鬧的雞尾酒會
你和好友來到了充滿雜訊的 雞尾酒會,雖然費力一點,但是依然可以和好友交流,當然,你也可以從眾多的聲音當中分辨出好友講話說了些什麼。當我們在夜店或酒吧這樣比較嘈雜的環境中進行交談時,我們可以對聲源進行有選擇地聆聽,這種現象就被稱為雞尾酒會效應。所謂的雞尾酒會效應,是指我們的耳朵可以單獨選擇一種聲音聆聽的功能。
人工智慧的語音識別,就是模仿人耳的這種雞尾酒會效應,從眾多的雜訊和自然環境雜訊中,撿拾有用的語音信號,加以濾波放大,最後得到一個相對乾凈的語音,當然這個是通過,軟體技術,頻譜識別、頻率過濾等演算法來實現的。
音頻壓縮
音頻壓縮的具體演算法不勝枚舉,舉出兩個代表性的例子:MP3與AAC。MP3作為MPEG1的官方編碼格式,早先被廣泛運用於各個國家的廣播電視,在隨身聽興起的時代又廣泛用於音頻的分發和傳播的過程中;而AAC則經常作為視頻音軌的文件格式,大多數的視頻網站都是使用的AAC格式的音軌。
MP3編碼器採用快速傅里葉變換(FFT)和改良的離散餘弦變換(MDCT)進行時頻域變換。我們不需要討論這些演算法實際上是如何工作的,只需要討論它們對傳入音頻的影響:即,將音頻每個部分分成32個“子帶”。這些子帶代表原始信號頻譜的不同部分。這是因為一段聲音往往包含著大量不同頻段的部分,通過將音頻分成子帶,MP3編碼器可以根據其頻率內容對不同類型的聲音進行分類,根據心理聲學模型的要求將某些優先於其他聲音的部分分析出來(判據正是上文提到的掩蔽效應)。在之後,子帶部分被組合成“幀”。編碼器檢查這些幀的內容,並嘗試確定頻域和時域中的掩蔽將發生的位置,判斷哪些部分可以“失真”(即之前掩蔽效應中講到的降低精度)。編碼器計算每個幀的“屏蔽雜訊”比,併在過程的最後階段使用此信息,給不同的幀分配不同的採樣精度。
在位分配期間,編碼器決定應該使用多少位數據來編碼每一幀。編碼器需要為掩蔽效應發生的少的幀分配更多位,為掩蔽效應發生地更多的幀分配更少的位,這是因為掩蔽效應的發生可以帶來數據量的精簡。可用的總比特數根據所需的傳輸比特率而變化,這是在編碼開始之前根據用戶的需要選擇的,常見的如128kbps、256kbps和320kbps。
編碼完成後,所有幀都會被保存,在保存的時候可以使用霍夫曼編碼對文件進行進一步的精簡。保存的每個幀都有一些位元組的標題數據來指示該幀情況,此處具體內容可以參考MP3的文件結構。
AAC可以視作是在MP3基礎上改進後得到的一種更優的壓縮演算法,其總的流程與MP3類似,但是引入了更多的模塊。比起MP3,它的優點有[5]:更多的採樣率選擇範圍、更多的通道數、更高的編碼效率和精度、任意比特率和可變幀長度;AAC採用了更高效的濾波器組,使用純MDCT編碼,而不是MP3的MDCT和FFT混合的編碼方式;另外AAC引入了MP3沒有的模塊以改善效果,如雜訊整形(TNS)、反向預測、線性感知替代(PNS)、Luhn mod N檢驗位等等。