全球专业中文经管百科,由121,994位网友共同编写而成,共计436,034个条目

齊普夫定律

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

齊普夫定律(Zipf's Law)又稱為字詞分佈定律

目錄

齊普夫定律概述

  齊普夫定律是美國語言學家G.K.齊普夫George Kingsley Zipf)於本世紀40年代提出的詞頻分佈定律。它可以表述為:如果把一篇較長文章中每個詞出現的頻次統計起來,按照高頻詞在前、低頻詞在後的遞減順序排列,並用自然數個這些詞編上的等級序號,即頻次最高的詞等級為1,頻次次之的等級為2,......,頻次最小的詞等級為D,。若用f表示頻次,r 表示序號,則有fr=C(C為常數)。人們稱該式為齊普夫定律。

  齊普夫定律是描述一系列實際現象的特點非常到位的經驗定律之一。它認為,如果我們按照大小或者流行程度給某個大集合中的各項進行排序,集合中第二項的比重大約是第一項的一半,而第三項的比重大約是第一項的三分之一,以此類推。換句話來說,一般來講,排在第k位的項目其比重為第一項的1/k。

  齊普夫定律還從定量角度描述了目前流行的一個主題: 長尾巴定律The Long Tail)。以一個集合中按流行程度排名的物品(如亞馬遜網站上銷售的圖書)為例。表示流行程度的圖表會向下傾斜,位於左上角的是幾十本最流行的圖書。該圖會向右下角逐漸下降,那條長尾巴會列出每年銷量只有一兩本的幾十萬種圖書。換成英文即齊普夫定律最初應用的領域,這條長尾巴就是你很少會遇到的幾十萬個單詞,譬如floriferous或者refulgent。

  把流行程度作為大致衡量價值的標準,齊普夫定律隨後就會得出每一個物品的價值。也就是說,假設有100萬個物品,那麼最流行的100個物品將貢獻總價值的三分之一,其次的10000個物品將貢獻另外的三分之一; 剩餘的98.99萬個將貢獻剩下的三分之一。有n個物品的集合其價值與log(n)成正比。

齊普夫定律的應用範圍

  1.詞表編製

  2.利用齊普夫定律,解決辭彙控制,詞表規模確定,選詞標準等問題。

  3.文獻標引控制

  齊普夫定律主要應用於統計標引法。確定有效詞的詞頻值。從而可通過電腦確定有效詞。

  4.情報檢索的文獻組織。

齊普夫定律的運用實例

  電子郵件列表成員的相對價值。

  按照齊普夫定律,這種網路的成員可以像齊普夫定律排列單詞那樣來排序——按照你收件箱當中電子郵件的數量。每個人所發的電子郵件都會給你收件箱的總“價值”貢獻1/k,這裡的k是指每個人的排名。

  郵件量排名第一位的那個人因而獲得被設為1/1即1的值(這個人就相當於前面那個例子中的單詞the)。排在第二位的那個人將貢獻一半的值,即1/2。而按照齊普夫定律,排在第k位的那個人將為你為這個郵件網路賦予的總價值添加大約1/k。

  這個總價值就是網路所有其他成員的遞減的1/k值之和。所以如果你的網路有n個成員,這個值就與1 + 1/2 + 1/3 +… + 1/(n-1)成正比,這接近log(n)。說得更準確些,這差不多等於log(n)與恆定值相加之和。當然,n-1個其他成員可以從網路得到類似的值,所以所有n的值以n log(n)增加。

相關條目

本條目對我有幫助17
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您認為本條目還有待完善,需要補充新內容或修改錯誤內容,請編輯條目投訴舉報

本条目由以下用户参与贡献

Cabbage,Zfj3000,连晓雾.

評論(共1條)

提示:評論內容為網友針對條目"齊普夫定律"展開的討論,與本站觀點立場無關。
222.241.79.* 在 2010年7月4日 15:50 發表

難怪要爭第一,第二!

回複評論

發表評論請文明上網,理性發言並遵守有關規定。

打开APP

以上内容根据网友推荐自动排序生成

官方社群
下载APP

闽公网安备 35020302032707号