掩蔽效应
出自 MBA智库百科(https://wiki.mbalib.com/)
掩蔽效应(Masking Effects)
目录 |
掩蔽效应(Masking Effects)是物理学、心理学等多学科概念,指的是由于出现多个同一类别(如声音、图像)的刺激,导致被试不能完整接受全部刺激的信息。其中,视觉掩蔽效应包括明度掩蔽效应和模式掩蔽效应,其影响因素主要包括空间域、时间域和色彩域;听觉掩蔽效应则主要包括噪声、人耳、频域、时域和时间掩蔽效应[1]。
掩蔽效应是一个较为复杂的生理和心理现象。大量的统计研究表明,一个声音对另一个声音的掩蔽量与很多因素有关,主要取决于这两个声音的相对强度和频率结构,但是听者对某个声音的注意力也会影响其它声音的掩蔽作用。一般来说,两个频率越接近的声音,彼此的掩蔽量就越大;声压级越高,掩蔽量也越大。此外,高频声容易被低频声掩蔽(特别是当低频声很响时),而低频声则很难为高频声掩蔽。例如,我们在欣赏音乐时,低音鼓的声压级即使并不高,我们也能从一片乐器声中清晰地听到它的声音。同理,具有高频特性的小提琴比较容易被低频的管乐器所掩蔽[1]。
人们在安静环境中听一个声音,即使这个声音的声压级很低也可以听到,说明人耳对这个声音的听阈可以很低。但是,在倾听一个声音的同时,如果存在另一个声音(掩蔽声),就会影响到人耳对所听声音的听闻效果,这时对所听声音的听阈就要提高。这种由于某个声音的存在而使人耳对别的声音听觉灵敏度降低的现象,称为“掩蔽效应”[2]。
听觉掩蔽效应
掩蔽效应出现在一个声信号由于同时存在的强度超过一定声级的声音,而被判断为听不懂或听不见。换句话说,一个音的听阀为另一个(掩蔽)声的存在而提高的过程。
声音如何发生掩蔽?
对于纯音,当声信号的频率接近掩蔽声的频率时,掩蔽效应更加明显。低频声对频率较高的声音产生可观的掩蔽效应,频率较高的声一定程度上也能掩蔽频率较低的音。随着掩蔽声的声压级升高,掩蔽的频率范围越来越大。注意,窄带噪声产生的掩蔽不能直接从用宽带噪声所作的掩蔽实验预估。反之亦然。除了频率隐蔽外,还存在时间掩蔽,有时,一个音能被超前于他的声所掩蔽,这叫前掩蔽;也能被跟着他的声所掩蔽,这叫后掩蔽。
后掩蔽的出现是当信号被切断,人耳需要一段时间来恢复正常听力。举个例子,一个很短的可听咔哒声,刚好在爆裂噪声后响起,但它是听不到的。
复杂的掩蔽效应
掩蔽效应宛如一个人站在你的面前会遮挡你的视线一样,一个声音也会被另一个声音所掩盖。即由于某一个声音的存在,要听清另外的声音必须把这些声音提高。听阈所提高的分贝数称为掩蔽量,人的听觉器官能够分辨同时存在的几个声音,但是若某一个声音增大,别的声音就难以听清甚至听不到了。
在音质设计较差的厅堂中,掩蔽现象是很普遍的,一些不想听到的噪声使听众很难或不可能听清楚和欣赏所要听的声音。在这种情况下,一种声音(如厅堂中的语言声)的听阈,由于其它声音的掩蔽(如街道噪声或通风噪声)而提高了。
纯音对纯音、噪音对纯音的掩蔽效应结论如下:
1. 纯音间的掩蔽
对处于中等强度时的纯音最有效的掩蔽是出现在它的频率附近。 低频的纯音可以有效地掩蔽高频的纯音,而反过来则作用很小。
2. 噪音对纯音的掩蔽
噪音是由多种纯音组成,具有无限宽的频谱。若掩蔽声为宽带噪声,被掩蔽声为纯音,则它产生的掩蔽门限在低频段一般高于噪声功率谱密度17dB,且较平坦;超过500Hz时大约每十倍频程增大10dB。若掩蔽声为窄带噪声,被掩蔽声为纯音,则情况较复杂。其中位于被掩蔽音附近的由纯音分量组成的窄带噪声即临界频带的掩蔽作用最明显。
所谓临界频带是指当某个纯音被以它为中心频率,且具有一定带宽的连续噪声所掩蔽时,如果该纯音刚好能被听到时的功率等于这一频带内噪声的功率,那么这一带宽称为临界频带宽度。
临界频带的单位叫巴克(Bark),1Bark=一个临界频带宽度。频率小于500Hz时,1Bark约等于freq/100;频率大于500Hz时,1Bark约等于9+41og(freq/1000),即约为某个纯音中心频率的20%。通常认为,20Hz-16kHz范围内有24个子临界频带。而当某个纯音位于掩蔽声的临界频带之外时,掩蔽效应仍然存在。
掩蔽类型
1. 频域掩蔽
所谓频域掩蔽是指掩蔽声与被掩蔽声同时作用时发生掩蔽效应,又称同时掩蔽。这时,掩蔽声在掩蔽效应发生期间一直起作用,是一种较强的掩蔽效应。通常,频域中的一个强音会掩蔽与之同时发声的附近的弱音,弱音离强音越近,一般越容易被掩蔽;反之,离强音较远的弱音不容易被掩蔽。
例如,—个1000Hz的音比另一个900Hz的音高18dB,则900Hz的音将被1000Hz的音掩蔽。而若1000Hz的音比离它较远的另一个1800Hz的音高18dB,则这两个音将同时被人耳听到。若要让1800Hz的音听不到,则1000Hz的音要比1800Hz的音高45dB。
一般来说,低频的音容易掩蔽高频的音;在距离强音较远处,绝对闻阈比该强音所引起的掩蔽阈值高,这时,噪声的掩蔽阈值应取绝对闻阈。
2. 时域掩蔽
所谓时域掩蔽是指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现时,又称异时掩蔽。异时掩蔽又分为导前掩蔽和滞后掩蔽。若掩蔽声音出现之前的一段时间内发生掩蔽效应,则称为导前掩蔽;否则称为滞后掩蔽。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间,异时掩蔽也随着时间的推移很快会衰减,是一种弱掩蔽效应。
一般情况下,导前掩蔽只有3ms—20ms,而滞后掩蔽却可以持续50ms—100m。研究声音和它引起的听觉之间关系的一门边缘学科。它既是声学的一个分支,也是心理物理学的一个分支。心理声学本可包括言语和音乐这样一些复合声和它们的知觉。这些可见语言声学、音乐声学等条,本条只限于较基础和简单的心理声学现象,即:
刚刚能引起听觉的声音——听阈;
声音的强度、频率、频谱和时长这些参量所决定的声音的主观属性——响度、音调、音色和音长;
某些和复合声音有关的特殊的心理声学效应——余音、掩蔽、非线性、双耳效应。
掩蔽效应的分类[1]
各个领域掩蔽效应有很多,掩蔽机制也有所不同。
Averbach 和 Coriell指出,在图像呈现后马上呈现一个其他刺激信息,该图像就会被抹去,这个现象为掩蔽(masking)。
看不见的黑猩猩实验
1990年代哈佛大学设计著名的“看不见的黑猩猩实验”。
研究人员让志愿者看一段打篮球视频,要求他们数出三名穿白衣者传球次数,而无需理会三名穿黑衣者。
视频中,那些人传球时,一个穿黑色毛茸茸外套、打扮成大猩猩模样的人,走进他们中间,面对镜头捶打胸膛,在镜头前停留9秒后退出。
当视频播完后,一半志愿者回答,没看见“大猩猩”上场。而当他们自己回看视频时,都不敢相信自己眼睛,那个“大猩猩”是如此明显,而且在视频中持续时间如此之长。
视而不见很容易也很普遍,背后有其原因所在。
1998年爱尔兰神经科学家雷·多兰与同事约翰·莫里斯和阿尼·奥曼发现,大脑可以在无意识和有意识层次上对面部表情进行加工。
在一个实验中,他们先给被试看两张表现愤怒面孔幻灯片。在放第一张时,他们播放一阵令人心烦“白噪音”,让被试对这一面孔记忆贴上负面标签;放第二张时,没有播放任何声音。
接下来,他们分次选择这两张愤怒面孔幻灯片之一,让幻灯片一闪而过,然后再放第三张无表情面孔幻灯片。这时会出现视觉“后掩蔽效应”,人们对后面幻灯片感知会覆盖掉前面幻灯片。当他们问被试看到什么时,被试回答看到无表情面孔,而不是愤怒面孔。
不过,掩蔽并没有100%。研究人员发现,尽管出现掩蔽效应,被试意识不到自己看到愤怒面孔幻灯片,但在潜意识状态下会感知到,因为被试脑部活动会根据愤怒面孔幻灯片是否伴有“白噪音”而有所不同。
在生活中,如果一个人第一次看到某个人就讨厌,可能是大脑潜意识识别加工表情区域判断出,这个人可能形似某个曾经对自己造成伤害的人,尽管在意识层面完全不记得这个曾造成伤害的人是谁。
- 影响因素
空间域
视觉的大小不仅与邻近区域的平均亮度有关,还与邻近区域的亮度在空间上的变化(不均匀性)有关。假设将一个光点放在亮度不均匀的背景上,通过改变光点的亮度测试此时的视觉,人们发现,背景亮度变化越剧烈,视觉越高,即人眼的对比度灵敏度越低。这种现象称为空间域中的视觉的掩蔽效应(Masking)。
时间域
影响时间域中掩蔽效应的因素比较复杂,对它的研究还处于初始阶段。这里仅介绍一些实验结果,这些结果可能在数据压缩方面具有潜在的应用价值。实验表明,当电视图像序列中相邻画面的变化剧烈(例如场景切换)时,人眼的分辨力会突然剧烈下降,例如下降到原有分辨力的1/10。也就是说,当新场景突然出现时,人基本上看不清晰景物,在大约0.5秒之后,视力才会逐渐恢复到正常水平。显然,在这0.5秒内,传送分辨率很高的图像是没有必要的。研究者还发现,当眼球跟着画面中的运动物体转动时,人眼的分辨率要高于不跟着物体转动的情况。而通常在看电视时,眼睛是很难跟踪运动中的物体的。
色彩域
在亮度变化剧烈的背景上,例如在黑白跳变的边沿上,人眼对色彩变化的敏感程度明显地降低。类似地,在亮度变化剧烈的背景上,人眼对彩色信号的噪声(例如彩色信号的量化噪声)也不易察觉。这些都体现了亮度信号对彩色信号的掩蔽效应。
明度掩蔽效应
指在目标刺激信息随后呈现的闪光越明亮,被试对目标刺激信息的回忆成绩就越差,好像是闪光在擦拭原先呈现的图像似的。
在明度掩蔽中,亮光的强度在掩蔽中起着关键性作用。在亮度知觉的实验中,掩蔽的破坏效应是它的亮度及其持续时间的复合函数。如一个以20英尺朗伯亮光的亮光持续2ms,正好相当于以5英尺朗伯亮光持续8ms时的破坏效应。
只有在同一只眼睛前呈现目标刺激和掩蔽刺激,图像才会被破坏。在右眼前呈现字母,而随后在左眼前呈现闪光,就不会导致掩蔽效应。这表明,掩蔽效应是在视网膜水平,即它在两眼信息整合之前就已经发生了。
模式掩蔽效应
指随后呈现的图像刺激信息对被试的回忆成绩产生的破坏效应。
在模式掩蔽中,起重要作用的是目标字母呈现与掩蔽刺激开始之间的时间间隔。与明度遮掩相比,其效应的产生与否与在同一眼睛呈现掩蔽刺激是无关的。在右眼前呈现字母,而后在左眼前呈现模式刺激,会产生在同一只眼睛前呈现字母和图像刺激时同样的掩蔽效果,这表明模式掩蔽发生在两眼信息整合之后。
听觉中的掩蔽效应指人的耳朵只对最明显的声音反应敏感,而对于不明显的声音,反应则较不为敏感。一个声音的闻阈值由于另一个声音的出现而提高的效应。 前者称为掩蔽音(masking tone),后者称为被掩蔽声(masked tone)。对于两个纯音来说,最明显的掩蔽效应出现在掩蔽声频率附近,低频纯音能有效地掩蔽高频纯音,而高频纯音对低频纯音的掩蔽效应小。
例如在声音的整个频率谱中,如果某一个频率段的声音比较强,则人就对其它频率段的声音不敏感了。应用此原理,人们发明了mp3等压缩的数字音乐格式,在这些格式的文件里,只突出记录了人耳朵较为敏感的中低频段声音,而对于较高的频率的声音则简略记录,从而大大压缩了所需的存储空间。在人们欣赏音乐时,如果设备对低频响应得比较好,则会使人感到高频响应不好,反之亦然。
噪声掩蔽效应
噪声的掩蔽效应是指一个声音的听阈因另外一个或多个声音的存在而提高的现象。在工业生产上,噪声的掩蔽效应是广泛存在的。这一掩蔽效应经常使操作人员听不到事故的前兆和警戒信号(行车信号、危险报警信号等)而发生工伤事故。另外,由于噪声掩蔽了指令信号而引起误操作亦会导致事故的发生。在我国大中型钢铁企业中,就曾发生过因高炉排气放空的强噪声掩蔽了火车鸣笛声,而造成铁轨上正在作业的工人被轧死的惨重事故。柳州钢铁厂曾因高炉鼓风机噪声大于100dB,影响了电话联系,将“关风”误听成“送风”,造成了误操作,影响了安全生产。在化工行业也不乏其例。因此,治理噪声应引起各级安全部门的高度重视。
人耳掩蔽效应
一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。 人耳的掩蔽效应 。被掩蔽音单独存在时的听阈分贝值,或者说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。实验表明,200~800Hz绝对闻阈值最小,即人耳对它的微弱声音最敏感;而在高频区绝对闻阈值要大得多。在200~800Hz范围内闻阈随频率变化最不显著,即在这个范围内语言可储度最高。在掩蔽情况下,提高被掩蔽弱音的强度,使人耳能够听见时的闻阈称为掩蔽闻阈(或称掩蔽门限),被掩蔽弱音必须提高的分贝值称为掩蔽量(或称阈移)。
频域掩蔽效应
一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽(simultaneous masking)。如,一个声强为60dB、频率为900Hz的纯音,另外还有一个1000Hz的纯音,前者比后者高18dB,在这种情况下我们的耳朵就只能听到那个900Hz的强音。如果有一个1600Hz的纯音和一个声强比它低18dB的800Hz的纯音,那么我们的耳朵将会同时听到这两个声音。要想让800Hz的纯音也听不到,则需要把它降到比1600Hz的纯音低45dB。一般来说,弱纯音离强纯音越近就越容易被掩蔽;低频纯音可以有效地掩蔽高频纯音,但高频纯音对低频纯音的掩蔽作用则不明显。
由于声音频率与掩蔽曲线不是线性关系,为从感知上来统一度量声音频率,引入了“临界频带(criticalband)”的概念。通常认为,在20Hz到16kHz范围内有24个临界频带。
时域掩蔽效应
除了同时发出的声音之间有掩蔽现象之外,在时间上相邻的声音之间也有掩蔽现象,并且称为时域掩蔽。时域掩蔽又分为超前掩蔽(pre-masking)和滞后掩蔽(post-masking)。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。一般来说,超前掩蔽很短,只有大约5~20ms,而滞后掩蔽可以持续50~200ms。这个区别也是很容易理解的。
时间掩蔽效应
同步掩蔽效应和不同频率声音的频率和相对音量有关,时间掩蔽则仅仅和时间有关。如果两个声音在时间上特别接近,人类在分辨它们的时候也会有困难。例如如果一个很强的声音后面紧跟着一个很弱的声音,后一个声音就很难听到。但是如果在第一个声音停止后过一段时间再播放第二个声音,后一个声音就可以听到。到底应该间隔多长时间?对纯音一般来讲是5毫秒。当然如果在时序上反过来效果是一样的,如果一个较弱的声音出现在一个较强的声音之前而且间隔很短,那个较弱的声音你也听不到。
词语掩蔽效应[3]
不仅视觉、听觉等感觉领域有掩蔽现象,与之密切相关知觉领域,也有类似、相关掩蔽效应,不过掩蔽机制有所不同。
其中一个实验,被试被分成两组,共同观看30秒劫匪打劫银行模拟录像,其中包括劫匪脸部特写。
一组被试在观看录像后用5分钟时间写下劫匪相貌特征,另一组只是安静度过5分钟,然后两组被试从8张照片中选出录像中抢劫犯。
结果第一组被试成功再认率只有38%,第二组却达到64%。这就是词语掩蔽效应,书面写下相貌特征,反而影响外貌识别。想当然认为有效,最后不仅无效,还有害。
原因在于,在信息有限情况下,直觉思维可以做出显著贡献。在适合运用直觉情境,尤其是没有明确正误标准时,用逻辑思考替代直觉,反而会影响直觉发挥正面价值。
例如,有些证人因为受词语掩蔽效应干扰,错误指认凶手,导致无辜之人坐牢,此类案件并不少见。
再来看一个实验,学者蒂莫西·威尔森与乔纳森·斯库勒将被试分成两组,对5种不同品牌草莓酱口味进行盲测。
第一组在品尝后首先在纸上写出喜欢与不喜欢草莓酱及其原因,然后用1至9分对5种草莓酱口味好坏进行评分;第二组被试需要在品尝后立即评分。
威尔森与斯库勒发现,第一组被试评分与专家评判相去甚远,而第二组被试评分却与专家选择很接近。
第一组被试经过逻辑思考却做出错误判断,一个重要原因也是词语掩蔽效应。难以用语言描述味觉,相对感性,用词语来表达,反而会干扰直觉判断。
当然,并非所有情境都会出现词语掩蔽效应。如果经验知识、逻辑思考等能发挥作用,与直觉思维相辅相成,就不会出现词语掩蔽效应。
厅堂音质设计
在厅堂音质设计中,排除低频噪声干扰是一个重要的目的。掩蔽现象可以适当地应用于环境噪声控制。如果掩蔽噪声为连续的声音,而又不太响亮,且没有信息内容时,它可以成为使人易于接受的本底噪声,同时也可以抑制其它干扰的噪声,使人听到这些声音时从心理上不觉得烦燥。如刹车的刺耳声、盘子碰撞声,便可以用风扇之类较柔和的噪声来掩蔽。有时,甚至通风和空调噪声、公路上连续不断的交通车辆的噪声,以及喷水池声音等都可以作为良好的掩蔽噪声源。一般来说,如果待掩蔽的噪声声压级低于掩蔽声的声压级,利用一种噪声来掩蔽另一种噪声通常可取得满意的效果[2]。
喧闹的鸡尾酒会
你和好友来到了充满噪声的 鸡尾酒会,虽然费力一点,但是依然可以和好友交流,当然,你也可以从众多的声音当中分辨出好友讲话说了些什么。当我们在夜店或酒吧这样比较嘈杂的环境中进行交谈时,我们可以对声源进行有选择地聆听,这种现象就被称为鸡尾酒会效应。所谓的鸡尾酒会效应,是指我们的耳朵可以单独选择一种声音聆听的功能。
人工智能的语音识别,就是模仿人耳的这种鸡尾酒会效应,从众多的噪声和自然环境噪声中,捡拾有用的语音信号,加以滤波放大,最后得到一个相对干净的语音,当然这个是通过,软件技术,频谱识别、频率过滤等算法来实现的。
音频压缩
音频压缩的具体算法不胜枚举,举出两个代表性的例子:MP3与AAC。MP3作为MPEG1的官方编码格式,早先被广泛运用于各个国家的广播电视,在随身听兴起的时代又广泛用于音频的分发和传播的过程中;而AAC则经常作为视频音轨的文件格式,大多数的视频网站都是使用的AAC格式的音轨。
MP3编码器采用快速傅里叶变换(FFT)和改良的离散余弦变换(MDCT)进行时频域变换。我们不需要讨论这些算法实际上是如何工作的,只需要讨论它们对传入音频的影响:即,将音频每个部分分成32个“子带”。这些子带代表原始信号频谱的不同部分。这是因为一段声音往往包含着大量不同频段的部分,通过将音频分成子带,MP3编码器可以根据其频率内容对不同类型的声音进行分类,根据心理声学模型的要求将某些优先于其他声音的部分分析出来(判据正是上文提到的掩蔽效应)。在之后,子带部分被组合成“帧”。编码器检查这些帧的内容,并尝试确定频域和时域中的掩蔽将发生的位置,判断哪些部分可以“失真”(即之前掩蔽效应中讲到的降低精度)。编码器计算每个帧的“屏蔽噪声”比,并在过程的最后阶段使用此信息,给不同的帧分配不同的采样精度。
在位分配期间,编码器决定应该使用多少位数据来编码每一帧。编码器需要为掩蔽效应发生的少的帧分配更多位,为掩蔽效应发生地更多的帧分配更少的位,这是因为掩蔽效应的发生可以带来数据量的精简。可用的总比特数根据所需的传输比特率而变化,这是在编码开始之前根据用户的需要选择的,常见的如128kbps、256kbps和320kbps。
编码完成后,所有帧都会被保存,在保存的时候可以使用霍夫曼编码对文件进行进一步的精简。保存的每个帧都有一些字节的标题数据来指示该帧情况,此处具体内容可以参考MP3的文件结构。
AAC可以视作是在MP3基础上改进后得到的一种更优的压缩算法,其总的流程与MP3类似,但是引入了更多的模块。比起MP3,它的优点有[5]:更多的采样率选择范围、更多的通道数、更高的编码效率和精度、任意比特率和可变帧长度;AAC采用了更高效的滤波器组,使用纯MDCT编码,而不是MP3的MDCT和FFT混合的编码方式;另外AAC引入了MP3没有的模块以改善效果,如噪声整形(TNS)、反向预测、线性感知替代(PNS)、Luhn mod N检验位等等。