亲爱的MBA智库百科用户:


过去的17年,百科频道一直以免费公益的形式为大家提供知识服务,这是我们团队的荣幸和骄傲。 然而,在目前越来越严峻的经营挑战下,单纯依靠不断增加广告位来维持网站运营支出,必然会越来越影响您的使用体验,这也与我们的初衷背道而驰。 因此,经过审慎地考虑,我们决定推出VIP会员收费制度,以便为您提供更好的服务和更优质的内容。


MBA智库百科VIP会员,您的权益将包括: 1、无广告阅读; 2、免验证复制。


当然,更重要的是长期以来您对百科频道的支持。诚邀您加入MBA智库百科VIP会员,共渡难关,共同见证彼此的成长和进步!



MBA智库百科项目组
2023年8月10日
百科VIP
未登录
无广告阅读
免验证复制
1年VIP
¥ 9.9
支付方式:
微信支付
支付宝
PayPal
购买数量:
1
应付金额:
9.9
汇率换算:
1.32
美元(USD)
  • 美元(USD)
  • 加元(CAD)
  • 日元(JPY)
  • 英镑(GBP)
  • 欧元(EUR)
  • 澳元(AUD)
  • 新台币(TWD)
  • 港元(HKD)
  • 新加坡(SGD)
  • 菲律宾(PHP)
  • 泰铢(THB)

按当月汇率换算,

包含手续费

打开手机微信 扫一扫继续付款
立即开通
PayPal支付后,可能会遇到VIP权益未及时开通的情况,请您耐心等待,或者联系百科微信客服:mbalib888。
温馨提示:当无法进去支付页面时,可刷新后重试或更换浏览器
开通百科会员即视为同意《MBA智库·百科会员服务规则》

支付成功

全球专业中文经管百科,由121,994位网友共同编写而成,共计436,063个条目

概率論模型

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

概率論模型(Probabilistic Model)

目錄

[隱藏]

什麼是概率論模型[1]

  概率論模型是基於概率排序原理,在概率框架中處理信息檢索問題。模型中假設特征項之間是相互獨立的,該模型是基於概率原則:給定一個用戶查詢q和文檔集中的一個文檔dj,概率模型試圖估計用戶找到其感興趣的文檔dj概率,概率模型假設這個相關概率只是依賴於查詢和文檔表示。進而假設模型在文檔集中存在一個子集,它是查詢q的結果集。理想結果集記為R,它使得總體的相關概率最大。集合R中的文檔被認為是與查詢相關的,不在集合R中的文檔則被認為是不相關的。

  概率論模型基本上是一種基於貝葉斯決策理論的自適應模型。與前兩種模型不同的是,它的查詢式子不是直接由用戶編定的。而是由系統通過某種歸納式學習過程(相關反饋)來構造一個決策函數去表示信息查詢

概率論模型的基礎[2]

  概率論模型的基礎是概率,預估計信息資源與用戶需求的相關性,根據相關性大小進行排序,排到最前面的文檔將會是最有可能滿足用戶需求的文檔。Van Rijsbergen和Robertson等人提出的概率檢索模型的基本思想是根據先前檢索過程中得到的相關性先驗信息來計算文檔集合中每篇文檔成為相關文檔的概率,並根據統計理論(如貝葉斯決策等)來確定哪些文檔可作為輸出文檔集。相關工作中,將布爾檢索和概率檢索模型有機地結合起來,但它在沒有獲得樣本文檔之前,無法估計詞條相關性且該方法複雜度較大。

概率論模型的基本準則[3]

  概率論模型的基本準則是:文本按照與查詢的概率相關性大小排序,排在前面的文本是最有可能被獲取的文本,即如果文本滿足如下公式則該文本被獲取:

p(Rel|Doc) \ge p(Notrel|Doc)

  其中,p(Rel | Doc)表示文本Doc與查詢有關的條件概率;p(Notrel | Doc)表示文本Doc與查詢不相關的條件概率。根據貝葉斯規則,上述公式可以改寫成

\frac{p(Doc|Rel)p(Rel)}{p(Doc|Notrel)p(Notrel)}\ge 1

  所獲取的文本可以利用上述公式的左端進行排序。

  利用概率論模型的關鍵是如何計算左端式子中的概率。如果查詢由一個片語成,或者組成查詢的詞之間相互獨立,那麼查詢詞的權重可以由下式計算:

w=\frac{r/(R-r)}{(n-r)/[N-n-(R-r)]}

  式中,N是文本庫中文本的數量;n是文本庫中包含該詞的文本數量;R是與查詢相關的文本數目(相關的文本數目在訓練文本庫中是已知的);r是與查詢相關而且包含該詞的文本數目。

  這樣查詢q可以表示為(w_1,w_2,\cdots,w_i),其中,叫wi由上述公式計算得到。文本d表示為(x_1,x_2,\cdots,x_i),其中,如果詞存在於文本中,則對應的xi = 1,反之則xi = 0。查詢q與文本d之間的相似度函數定義為

sim(q,d)=\sum^t_{k=1}x_k w_k

  利用概率論模型的典型系統有Kwok與Robertson等,它們在利用樣本計算詞權重的過程中考慮了詞在文檔中出現的頻率,其中Kwok系統還考慮了詞在整個樣本集合中出現的頻率。概率論模型的效果要明顯優於布爾模型,但比向量空間模型略差。

  概率論模型的一個特例是貝葉斯網路,由於該模型適合於超文本系統,因此在超文本信息成為當前信息獲取主流信息的情況下,該模型的應用越來越廣泛。

參考文獻

  1. 林培光,康海燕編著.面向Web的個性語義信息檢索技術 2009.中國財政經濟出版社,2009
  2. 高凱,郭立煒,許雲峰編著.網路信息檢索技術及搜索引擎系統開發.科學出版社,2010
  3. 陸建江,張亞非等編著.智能檢索技術.科學出版社,2009
本條目對我有幫助2
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您認為本條目還有待完善,需要補充新內容或修改錯誤內容,請編輯條目投訴舉報

本条目由以下用户参与贡献

KAER,连晓雾,Lin.

評論(共0條)

提示:評論內容為網友針對條目"概率論模型"展開的討論,與本站觀點立場無關。

發表評論請文明上網,理性發言並遵守有關規定。

打开APP

以上内容根据网友推荐自动排序生成

官方社群
下载APP
告MBA智库百科用户的一封信
亲爱的MBA智库百科用户: 过去的17年,百科频道一直以免费公益的形式为大家提供知识服务,这是我们团队的荣幸和骄傲。 然而,在目前越来越严峻的经营挑战下,单纯依靠不断增加广告位来维持网站运营支出,必然会越来越影响您的使用体验,这也与我们的初衷背道而驰。 因此,经过审慎地考虑,我们决定推出VIP会员收费制度,以便为您提供更好的服务和更优质的内容。 MBA智库百科VIP会员(9.9元 / 年,点击开通),您的权益将包括: 1、无广告阅读; 2、免验证复制。 当然,更重要的是长期以来您对百科频道的支持。诚邀您加入MBA智库百科VIP会员,共渡难关,共同见证彼此的成长和进步!
MBA智库百科项目组
2023年8月10日

闽公网安备 35020302032707号

添加收藏

    新建收藏夹

    编辑收藏夹

    20