冪律
出自 MBA智库百科(https://wiki.mbalib.com/)
冪律(Power Laws)
目錄 |
所謂冪律,是說節點具有的連線數和這樣的節點數目乘積是一個定值,也就是幾何平均是定值,比如有10000個連線的大節點有10個,有1000個連線的中節點有100個,100個連線的小節點有1000個……,在對數坐標上畫出來會得到一條斜向下的直線。
1932年,哈佛大學的語言學專家Zipf在研究英文單詞出現的頻率時,發現如果把單詞出現的頻率按由大到小的順序排列,則每個單詞出現的頻率與它的名次的常數次冪存在簡單的反比關係,這種分佈就稱為Zipf定律,它表明在英語單詞中,只有極少數的詞被經常使用,而絕大多數詞很少被使用。實際上,包括漢語在內的許多國家的語言都有這種特點。
19世紀的義大利經濟學家Pareto研究了個人收入的統計分佈,發現少數人的收入要遠多於大多數人的收入,提出了著名的80/20法則,即20%的人口占據了80%的社會財富。個人收入X不小於某個特定值x的概率與x的常數次冪亦存在簡單的反比關係,即為Pareto定律。
Zipf定律與Pareto定律都是簡單的冪函數,我們稱之為冪律分佈;還有其它形式的冪律分佈,像名次—規模分佈,規模—概率分佈,這四種形式在數學上是等價的。
冪律分佈表現為一條斜率為冪指數的負數的直線,這一線性關係是判斷給定的實例中隨機變數是否滿足冪律的依據。
實際上,冪律分佈廣泛存在於物理學、地球與行星科學、電腦科學、生物學、生態學、人口統計學與社會科學、經濟與金融學等眾多領域中,且表現形式多種多樣。在自然界與日常生活中,包括地震規模大小的分佈(古登堡2里希特定律) 、月球錶面上月坑直徑的分佈、行星間碎片大小的分佈 、太陽耀斑強度的分佈 、電腦文件大小的分佈 、戰爭規模的分佈 、人類語言中單詞頻率的分佈 、大多數國家姓氏的分佈 、科學家撰寫的論文數的分佈、論文被引用的次數的分佈、網頁被點擊次數的分佈 、書籍及唱片的銷售冊數或張數的分佈、每類生物中物種數的分佈、甚至電影所獲得的奧斯卡獎項數的分佈等,都是典型的冪律分佈。
以網頁被點擊次數的分佈為例,儘管中國向七千九百萬網民提供的網站接近六十萬個,但只有為數不多的網站,才擁有網民一次訪問難以窮盡的豐富內容,擁有接納許多人同時訪問的足夠帶寬,進而有條件演化成熱門網站,擁有極高的點擊率,像新浪,搜狐,網易等門戶網站。網頁被點擊次數的冪律分佈其冪指數在 0.60-1.03之間,而網站訪問量的冪律分佈其冪指數則接近1。克裡斯·安德森的“長尾理論”即是冪律的口語化表達。
統計物理學家習慣於把服從冪律分佈的現象稱為無標度現象,即,系統中個體的尺度相差懸殊,缺乏一個優選的規模。可以說,凡有生命的地方,有進化,有競爭的地方都會出現不同程度的無標度現象。