全球专业中文经管百科,由121,994位网友共同编写而成,共计436,015个条目

相对熵

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

(重定向自信息增益)

相对熵(Relative Entropy; KL散度; Kullback–Leibler divergence; KLD; 信息散度; 信息增益)

目录

什么是相对熵

  相对熵是指两个概率分布P和Q差别的非对称性的度量。 相对熵是用来 度量使用基于Q的编码来编码来自P的样本平均所需的额外的比特个数。典型情况下,P表示数据的真实分布,Q表示数据的理论分布,模型分布,或P的近似分布。

相对熵的定义

  对于离散随机变量,其概率分布PQ的相对熵可按下式定义为 D_{\mathrm{KL}}(P\|Q) = \sum_i P(i) \ln \frac{P(i)}{Q(i)}。即按概率P求得的PQ的对数差的平均值。相对熵仅当概率PQ各自总和均为1,且对于任何i皆满足Q(i) > 0P(i) > 0时,才有定义。式中出现0ln0的情况,其值按0处理。

  对于连续随机变量,其概率分布PQ可按积分方式定义为 [1]

  D_{\mathrm{KL}}(P\|Q) = \int_{-\infty}^\infty p(x) \ln \frac{p(x)}{q(x)} \, {\rm d}x,其中pq分别表示分布PQ的密度。   更一般的,若PQ为集合X的概率测度,且Q关于P绝对连续|绝对连续,则从PQ的相对熵定义为 D_{\mathrm{KL}}(P\|Q) = -\int_X \ln \frac{{\rm d}Q}{{\rm d}P} \,{\rm d}P, 其中,假定右侧的表达形式存在,则\frac{{\rm d}Q}{{\rm d}P}Q关于P的拉东-尼科迪姆定理|R–N导数。

  相应的,若P关于Q绝对连续|绝对连续,则

 D_{\mathrm{KL}}(P\|Q) = \int_X \ln \frac{{\rm d}P}{{\rm d}Q} \,{\rm d}P = \int_X \frac{{\rm d}P}{{\rm d}Q} \ln\frac{{\rm d}P}{{\rm d}Q}\,{\rm d}Q,

  即为P关于Q的相对熵。

相对熵的特性

  相对熵的值为非负数:

 D_{\mathrm{KL}}(P\|Q) \geq 0

  由吉布斯不等式可知,当且仅当P = QDKL(P||Q)为零。

  尽管从直觉上相对熵是个度量|度量或距离函数, 但是它实际上并不是一个真正的度量或距离。因为相对熵不具有对称性:从分布PQ的距离(或度量)通常并不等于从QP的距离(或度量)。

 D_{\mathrm{KL}}(P\|Q) \neq D_{\mathrm{KL}}(Q\|P)

相对熵和其它量的关系

  自信息和相对熵

  I(m) = DKLim | pi),

  互信息和相对熵

I(X;Y) = DKL(P(X,Y) | | P(X)P(Y)) = EXDKL(P(Y | X) | | P(Y)) = EYDKL(P(X | Y) | | P(X))

  信息熵和相对熵

H(X) = ExI(x) = logNDKL(P(X) | | PU(X))

  条件熵和相对熵

H(X | Y) = logNDKL(P(X,Y) | | PU(X)P(Y)) = (i)logNDKL(P(X,Y) | | P(X)(Y)) − DKL(P(X) | | PU(X)) = H(X) − I(X;Y) = iilogNEYDKLP(X | Y) | | PU(X)

  交叉熵和相对熵

  H(p,q) = Ep[ − logq] = H(p) + DKL(p | q)

参考文献

  1. C. Bishop (2006). Pattern Recognition and Machine Learning. p. 55.

  

本条目对我有帮助6
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您认为本条目还有待完善,需要补充新内容或修改错误内容,请编辑条目投诉举报

本条目由以下用户参与贡献

Tracy.

评论(共0条)

提示:评论内容为网友针对条目"相对熵"展开的讨论,与本站观点立场无关。

发表评论请文明上网,理性发言并遵守有关规定。

打开APP

以上内容根据网友推荐自动排序生成

下载APP

闽公网安备 35020302032707号