最大似然估計

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

最大似然估計（Maximum Likelihood，ML）

最大似然估計概述

　　 最大似然估計是一種統計方法，它用來求一個樣本集的相關概率密度函數的參數。這個方法最早是遺傳學家以及統計學家羅納德·費雪爵士在1912年至1922年間開始使用的。

　　“似然”是對likelihood 的一種較為貼近文言文的翻譯，“似然”用現代的中文來說即“可能性”。故而，若稱之為“最大可能性估計”則更加通俗易懂。

　　最大似然法明確地使用概率模型，其目標是尋找能夠以較高概率產生觀察數據的系統發生樹。最大似然法是一類完全基於統計的系統發生樹重建方法的代表。該方法在每組序列比對中考慮了每個核苷酸替換的概率。

　　例如，轉換出現的概率大約是顛換的三倍。在一個三條序列的比對中，如果發現其中有一列為一個C，一個T和一個G，我們有理由認為，C和T所在的序列之間的關係很有可能更接近。由於被研究序列的共同祖先序列是未知的，概率的計算變得複雜；又由於可能在一個位點或多個位點發生多次替換，並且不是所有的位點都是相互獨立，概率計算的複雜度進一步加大。儘管如此，還是能用客觀標準來計算每個位點的概率，計算表示序列關係的每棵可能的樹的概率。然後，根據定義，概率總和最大的那棵樹最有可能是反映真實情況的系統發生樹。

[編輯]

最大似然估計的原理

　　給定一個概率分佈 $D$ ，假定其概率密度函數（連續分佈）或概率聚集函數（離散分佈）為 $f D$ ，以及一個分佈參數 $θ$ ，我們可以從這個分佈中抽出一個具有 $n$ 個值的採樣 $X_1, X_2,\ldots, X_n$ ，通過利用 $f D$ ，我們就能計算出其概率：

$\mathbb{P}(x_1,x_2,\dots,x_n) = f_D(x_1,\dots,x_n \mid \theta)$

　　但是，我們可能不知道 $θ$ 的值，儘管我們知道這些採樣數據來自於分佈 $D$ 。那麼我們如何才能估計出 $θ$ 呢？一個自然的想法是從這個分佈中抽出一個具有 $n$ 個值的採樣 $X 1, X 2,..., X n$ ，然後用這些採樣數據來估計 $θ$ .

　　一旦我們獲得 $X_1, X_2,\ldots, X_n$ ，我們就能從中找到一個關於 $θ$ 的估計。最大似然估計會尋找關於 $θ$ 的最可能的值（即，在所有可能的 $θ$ 取值中，尋找一個值使這個採樣的“可能性”最大化）。這種方法正好同一些其他的估計方法不同，如 $θ$ 的非偏估計，非偏估計未必會輸出一個最可能的值，而是會輸出一個既不高估也不低估的 $θ$ 值。

　　要在數學上實現最大似然估計法，我們首先要定義可能性:

$\mbox{lik}(\theta) = f_D(x_1,\dots,x_n \mid \theta)$

　　並且在 $θ$ 的所有取值上，使這個[[函數最大化。這個使可能性最大的 $\widehat{\theta}$ 值即被稱為 $θ$ 的最大似然估計。

[編輯]

註意

這裡的可能性是指 $x_1,x_2,\ldots,x_n$ 不變時，關於 $θ$ 的一個函數。
最大似然估計函數不一定是惟一的，甚至不一定存在。

[編輯]

最大似然估計的例子

[編輯]

離散分佈，離散有限參數空間

　　考慮一個拋硬幣的例子。假設這個硬幣正面跟反面輕重不同。我們把這個硬幣拋80次（即，我們獲取一個採樣 $x_1=\mbox{H}, x_2=\mbox{T}, \ldots, x_{80}=\mbox{T}$ 並把正面的次數記下來，正面記為H，反面記為T）。並把拋出一個正面的概率記為 $p$ ，拋出一個反面的概率記為 $1 - p$ （因此，這裡的 $p$ 即相當於上邊的 $θ$ ）。假設我們拋出了49個正面，31 個反面，即49次H，31次T。假設這個硬幣是我們從一個裝了三個硬幣的盒子裡頭取出的。這三個硬幣拋出正面的概率分別為 $p = 1 / 3$ , $p = 1 / 2$ , $p = 2 / 3$ . 這些硬幣沒有標記，所以我們無法知道哪個是哪個。使用最大似然估計，通過這些試驗數據（即採樣數據），我們可以計算出哪個硬幣的可能性最大。這個可能性函數取以下三個值中的一個：

$\begin{matrix} \mathbb{P}(\mbox{H=49, T=31 }\mid p=1/3) & = & \binom{80}{49}(1/3)^{49}(1-1/3)^{31} \approx 0.000 \\ &&\\ \mathbb{P}(\mbox{H=49, T=31 }\mid p=1/2) & = & \binom{80}{49}(1/2)^{49}(1-1/2)^{31} \approx 0.012 \\ &&\\ \mathbb{P}(\mbox{H=49, T=31 }\mid p=2/3) & = & \binom{80}{49}(2/3)^{49}(1-2/3)^{31} \approx 0.054 \\ \end{matrix}$

　　我們可以看到當 $\widehat{p}=2/3$ 時，可能性函數取得最大值。這就是 $p$ 的最大似然估計.

[編輯]

離散分佈，連續參數空間

　　現在假設例子1中的盒子中有無數個硬幣，對於 $0\leq p \leq 1$ 中的任何一個 $p$ ，都有一個拋出正面概率為 $p$ 的硬幣對應，我們來求其可能性函數的最大值：

$\begin{matrix} \mbox{lik}(\theta) & = & f_D(\mbox{H=49,T=80-49}\mid p) = \binom{80}{49} p^{49}(1-p)^{31} \\ \end{matrix}$

　　其中 $0\leq p \leq 1$ . 我們可以使用微分法來求最值。方程兩邊同時對 $p$ 取微分，並使其為零。

$\begin{matrix} 0 & = & \frac{d}{dp} \left( \binom{80}{49} p^{49}(1-p)^{31} \right) \\ & & \\ & \propto & 49p^{48}(1-p)^{31} - 31p^{49}(1-p)^{30} \\ & & \\ & = & p^{48}(1-p)^{30}\left[ 49(1-p) - 31p \right] \\ \end{matrix}$

　　在不同比例參數值下一個二項式過程的可能性曲線 t = 3, n = 10；其最大似然估計值發生在其眾數(數學)併在曲線的最大值處。

　　其解為 $p = 0$ , $p = 1$ ，以及 $p = 49 / 80$ . 使可能性最大的解顯然是 $p = 49 / 80$ （因為 $p = 0$ 和 $p = 1$ 這兩個解會使可能性為零）。因此我們說最大似然估計值為 $\widehat{p}=49/80$ .

　　這個結果很容易一般化。只需要用一個字母 $t$ 代替49用以表達伯努利試驗中的被觀察數據（即樣本）的'成功'次數，用另一個字母 $n$ 代表伯努利試驗的次數即可。使用完全同樣的方法即可以得到最大似然估計值:

$\widehat{p}=\frac{t}{n}$

　　對於任何成功次數為 $t$ ，試驗總數為 $n$ 的伯努利試驗。

[編輯]

連續分佈，連續參數空間

　　最常見的連續概率分佈是正態分佈，其概率密度函數如下：

$f(x\mid \mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

　　其 $n$ 個正態隨機變數的採樣的對應密度函數（假設其獨立並服從同一分佈）為：

$f(x_1,\ldots,x_n \mid \mu,\sigma^2) = \left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} e^{-\frac{ \sum_{i=1}^{n}(x_i-\mu)^2}{2\sigma^2}}$

　　或：

$f(x_1,\ldots,x_n \mid \mu,\sigma^2) = \left( \frac{1}{2\pi\sigma^2} \right)^{n/2} \exp\left(-\frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2}\right)$ ,

　　這個分佈有兩個參數： $μ,σ 2$ . 有人可能會擔心兩個參數與上邊的討論的例子不同，上邊的例子都只是在一個參數上對可能性進行最大化。實際上，在兩個參數上的求最大值的方法也差不多：只需要分別把可能性 $\mbox{lik}(\mu,\sigma) = f(x_1,,\ldots,x_n \mid \mu, \sigma^2)$ 在兩個參數上最大化即可。當然這比一個參數麻煩一些，但是一點也不複雜。使用上邊例子同樣的符號，我們有 $θ = (μ,σ 2)$ .

　　最大化一個似然函數同最大化它的自然對數是等價的。因為自然對數log是一個連續且在似然函數的值域內嚴格遞增的函數。[註意：可能性函數（似然函數）的自然對數跟信息熵以及Fisher信息聯繫緊密。求對數通常能夠一定程度上簡化運算，比如在這個例子中可以看到：

$\begin{matrix} 0 & = & \frac{\partial}{\partial \mu} \log \left( \left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} e^{-\frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2}} \right) \\ & = & \frac{\partial}{\partial \mu} \left( \log\left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} - \frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2} \right) \\ & = & 0 - \frac{-2n(\bar{x}-\mu)}{2\sigma^2} \\ \end{matrix}$

　　這個方程的解是 $\widehat{\mu} = \bar{x} = \sum^{n}_{i=1}x_i/n$ . 這的確是這個函數的最大值，因為它是 $μ$ 裡頭惟一的拐點並且二階導數嚴格小於零。

　　同理，我們對 $σ$ 求導，並使其為零。

$\begin{matrix} 0 & = & \frac{\partial}{\partial \sigma} \log \left( \left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} e^{-\frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2}} \right) \\ & = & \frac{\partial}{\partial \sigma} \left( \frac{n}{2}\log\left( \frac{1}{2\pi\sigma^2} \right) - \frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2} \right) \\ & = & -\frac{n}{\sigma} + \frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{\sigma^3} \\ \end{matrix}$

這個方程的解是 $\widehat{\sigma}^2 = \sum_{i=1}^n(x_i-\widehat{\mu})^2/n$ .

因此，其關於 $θ = (μ,σ 2)$ 的最大似然估計為：

$\widehat{\theta}=(\widehat{\mu},\widehat{\sigma}^2) = (\bar{x},\sum_{i=1}^n(x_i-\bar{x})^2/n)$ .

[編輯]

性質

[編輯]

泛函不變性（Functional invariance）

　　如果 $\widehat{\theta}$ 是 $θ$ 的一個最大似然估計，那麼 $α = g (θ)$ 的最大似然估計是 $\widehat{\alpha} = g(\widehat{\theta})$ . 函數 g 無需是一個——映射。

[編輯]

漸近線行為

　　最大似然估計函數在採樣樣本總數趨於無窮的時候達到最小方差（其證明可見於Cramer-Rao lower bound）。當最大似然估計非偏時，等價的，在極限的情況下我們可以稱其有最小的均方差。對於獨立的觀察來說，最大似然估計函數經常趨於正態分佈。

[編輯]

偏差

　　最大似然估計的非偏估計偏差是非常重要的。考慮這樣一個例子，標有1到n的n張票放在一個盒子中。從盒子中隨機抽取票。如果n是未知的話，那麼n的最大似然估計值就是抽出的票上標有的n，儘管其期望值的只有 $(n + 1) / 2$ . 為了估計出最高的n值，我們能確定的只能是n值不小於抽出來的票上的值。

[編輯]

最大似然估計的一般求解步驟^[1]

　　基於對似然函數L( $θ$ )形式(一般為連乘式且各因式>0)的考慮，求 $θ$ 的最大似然估計的一般步驟如下：

　　(1)寫出似然函數

　　 $L\theta=\prod_{i=1}^n p(x_i;\theta)$ (總體X為離散型時)

　　或 $L\theta=\prod_{i=1}^n f(x_i;\theta)$ (總體X為連續型時)

　　(2)對似然函數兩邊取對數有

　　 $lnL\theta=\sum_{i=1}^n lnp(x_i;\theta)$

　　或 $lnL\theta=\sum_{i=1}^n lnf(x_i;\theta)$

　　(3)對lnL\theta求導數並令之為0：

　　 $\frac{dlnL\theta}{d\theta}=0$

　　此方程為對數似然方程。解對數似然方程所得，即為未知參數的最大似然估計值。

　　例1

　　設總體X~N( $μ$ ， $σ 2$ ), $μ$ ， $σ 2$ 為未知參數， $X 1$ , $X 2$ ..., $X n$ 是來自總體X的樣本， $X 1$ , $X 2$ ..., $X n$ 是對應的樣本值，求 $μ$ 與 $σ 2$ 的最大似然估計值。

　　解 X的概率密度為

　　f(x; $μ$ ， $σ 2$ )= $\frac{1}{\sqrt{2\pi\sigma}}e^-\frac{(x_i-\mu)^2}{2\sigma^2}$ ( $-\infty$ <x<+ $\infty$ ),

　　可得似然函數如下：

　　L( $μ$ ， $σ 2$ )= $\prod_{i=1}^n\frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{(x_i-\mu)^2}{2{\sigma}^2}}$

　　取對數，得

　　lnL( $μ$ ， $σ 2$ )= $-\frac{n}{2}ln(2\pi)-\frac{n}{2}ln(\sigma^2)-\frac{1}{2{\delta}^2}\sum_{i=1}^n{(x_i-\mu)}^2$

　　令

　　 $\begin{cases}\frac{\partial}{\partial\mu}ln L(\mu,\sigma)=0,\\\frac{\partial}{\partial\sigma^2}\ln L(\mu,\sigma)=0,\end{cases}$

　　可得

　　 $\begin{cases}\frac{1}{\sigma^2}(\sum_{i=1}^2x_i-n\mu)=0,\\-\frac{n}{2\sigma^2}+\frac{1}{2(\sigma^2)^2}\sum_{i=1}^n(x_i-\mu)^2=0.\end{cases}$

　　解得

　　 $\begin{cases}\widehat{\mu}=\frac{1}{n}\sum_{i=1}^n x_i=\overline{x}, \\\widehat{\sigma}^2=\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2.\end{cases}$

　　故 $μ$ 和 $δ 2$ 的最大似然估計量分別為

　　 $\widehat{\mu}=\overline{X}$ ， $\widehat{\delta^2}=\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^2$

[編輯]

參考文獻

↑ 王翠香編著.概率統計.北京大學出版社,2010.02

取自"https://wiki.mbalib.com/zh-tw/%E6%9C%80%E5%A4%A7%E4%BC%BC%E7%84%B6%E4%BC%B0%E8%AE%A1"

打开MBA智库App, 阅读完整内容打开App

如果您認為本條目還有待完善，需要補充新內容或修改錯誤內容，請編輯條目或投訴舉報。

本条目由以下用户参与贡献

Cabbage,Dan,Yixi,鲈鱼,KAER,泡芙小姐,Tracy.

頁面分類: 統計方法

評論(共16條)

提示:評論內容為網友針對條目"最大似然估計"展開的討論，與本站觀點立場無關。

147.143.227.* 在 2011年3月17日 06:22 發表

例子好難哦~ 不理解~ 哎我太淺薄了

回複評論

鲈鱼 (討論 | 貢獻) 在 2011年3月17日 14:00 發表

147.143.227.* 在 2011年3月17日 06:22 發表

例子好難哦~ 不理解~ 哎我太淺薄了

補充了最大似然估計的求解步驟，希望對你有幫助！~~

回複評論

155.41.58.* 在 2011年3月27日 01:41 發表

簡明易懂！很好！

回複評論

219.231.157.* 在 2011年3月29日 09:37 發表

tinghao

回複評論

2.230.8.* 在 2012年6月24日 06:07 發表

感謝

回複評論

202.101.245.* 在 2012年10月11日 17:36 發表

Good

回複評論

59.41.252.* 在 2013年3月27日 16:37 發表

有沒有多元的~

回複評論

125.64.231.* 在 2013年6月12日 02:24 發表

厲害，講的可以

回複評論

刘浩成 (討論 | 貢獻) 在 2013年6月13日 07:06 發表

好

回複評論

183.250.211.* 在 2013年10月1日 10:50 發表

不明白

回複評論

121.28.69.* 在 2013年11月7日 13:24 發表

喜歡尤其是例題

回複評論

182.18.102.* 在 2014年4月2日 20:46 發表

好

回複評論

59.46.241.* 在 2015年3月4日 19:47 發表

我還是太笨啦。。。

回複評論

183.62.37.* 在 2015年9月22日 10:43 發表

謝謝您的分享，很有啟發~

回複評論

118.186.17.* 在 2017年2月17日 14:28 發表

贊

回複評論

Mbqq (討論 | 貢獻) 在 2017年12月22日 12:32 發表

太棒了

回複評論

發表評論請文明上網，理性發言並遵守有關規定。

查看

工具▼

最大似然估計

出自 MBA智库百科(https://wiki.mbalib.com/)

目錄

最大似然估計概述

最大似然估計的原理

註意

最大似然估計的例子

離散分佈，離散有限參數空間

離散分佈，連續參數空間

連續分佈，連續參數空間

性質

泛函不變性（Functional invariance）

漸近線行為

偏差

最大似然估計的一般求解步驟^[1]

參考文獻

温馨提示

本条目相关课程

本条目由以下用户参与贡献

評論(共16條)

導航

意见反馈

查看

工具▼

最大似然估計

出自 MBA智库百科(https://wiki.mbalib.com/)

目錄

最大似然估計概述

最大似然估計的原理

註意

最大似然估計的例子

離散分佈，離散有限參數空間

離散分佈，連續參數空間

連續分佈，連續參數空間

性質

泛函不變性（Functional invariance）

漸近線行為

偏差

最大似然估計的一般求解步驟[1]

參考文獻

温馨提示

本條目相關文檔

本条目相关课程

本条目由以下用户参与贡献

評論(共16條)

導航

意见反馈

最大似然估計的一般求解步驟^[1]