網頁

2013年11月24日

從 N 個數中取出 n 個數之「平均值」的期望值與變異數

從四個數 {1,2,5,8} 中取出三個數,假設其「平均值」為 \(\overline{X}\),
求 \(\overline{X}\) 的:期望值 \(E[\overline{X}]\) 與變異數 \(Var[\overline{X}]\)
假設 {1,2,5,8} 的平均數 \(\mu\),標準差 \(\sigma\) 為:
\(\mu=\dfrac{1+2+5+8}{4}\)

\( \sigma =\sqrt{\dfrac{(1-\mu)^2+(2-\mu)^2+(5-\mu)^2+(8-\mu)^2 }{ 4 }}=\sqrt { \dfrac { 1^2+2^2+5^2+8^2 }{ 4 } - \mu^2} \)
從這兩個數的定義中可以推出:
\(1+2+5+8=4\mu\)

\( 1^2+2^2+5^2+8^2=4(\mu^2+\sigma^2) \)
從 {1,2,5,8} 挑出三個數,可以挑出 {1,2,5}、{1,2,8}、{1,5,8}、{2,5,8} 等四個不同的組合,這四個組合被挑中的機率都是一樣的,也就是 \(\frac{1}{4}\)。它們的「平均數」與機率列於下表:
組合 平均數 機率
{1,2,5} \(\overline{x}_1=\dfrac{1+2+5}{3}\) \(\dfrac{1}{4}\)
{1,2,8} \(\overline{x}_2=\dfrac{1+2+8}{3}\) \(\dfrac{1}{4}\)
{1,5,8} \(\overline{x}_3=\dfrac{1+5+8}{3}\) \(\dfrac{1}{4}\)
{2,5,8} \(\overline{x}_4=\dfrac{2+5+8}{3}\) \(\dfrac{1}{4}\)
因此,這些「平均數」的期望值,可以用下面的方式計算:

\( \begin{array}{rcl} E[\bar { X } ]&=&\dfrac { \bar { x } _{ 1 }+\bar { x } _{ 2 }+\bar { x } _{ 3 }+\bar { x } _{ 4 } }{ 4 } \\ &=&\dfrac { \left( \frac { 1+2+5 }{ 3 } \right) +\left( \frac { 1+2+8 }{ 3 } \right) +\left( \frac { 1+5+8 }{ 3 } \right) +\left( \frac { 2+5+8 }{ 3 } \right) }{ 4 } \\ &=&\frac { 1 }{ 3 } \cdot \frac { 1 }{ 4 } \cdot \left( 1\times 3+2\times 3+5\times 3+8\times 3 \right) \\ &=&\dfrac { 1+2+5+8 }{ 4 } \\ &=&\mu \end{array} \)
所以,這些平均數的「期望值」就是原來的 \(\mu\)。

在上面的計算中,1、2、5、8 各被挑中幾次是很重要的關鍵。舉 1 為例,我們只要再從 {2,5,8} 中挑兩個數,就可以與 1 組成三個數,因此有 \(C^3_2\) 種挑法,這也就是為什麼 1 會被挑中 3 次的原因。同理,2、5、8 當然也各被挑中三次。

接著,我們來計算這些平均數的「變異數」:
\( \begin{array}{rcl} Var[\bar { X } ]&=&(\bar { x } _{ 1 }-\mu )^{ 2 }\cdot \frac { 1 }{ 4 } +(\bar { x } _{ 2 }-\mu )^{ 2 }\cdot \frac { 1 }{ 4 } +(\bar { x } _{ 3 }-\mu )^{ 2 }\cdot \frac { 1 }{ 4 } +(\bar { x } _{ 4 }-\mu )^{ 2 }\cdot \frac { 1 }{ 4 } \\ \\ &=&\frac { 1 }{ 4 } \left[ \left( \frac { 1+2+5 }{ 3 } -\mu \right) ^{ 2 }+\left( \frac { 1+2+8 }{ 3 } -\mu \right) ^{ 2 }+\left( \frac { 1+5+8 }{ 3 } -\mu \right) ^{ 2 }+\left( \frac { 2+5+8 }{ 3 } -\mu \right) ^{ 2 } \right] \\ \\ &=&+\frac { 1 }{ 4 } \left[ \left( \frac { 1+2+5 }{ 3 } \right) ^{ 2 }+\left( \frac { 1+2+8 }{ 3 } \right) ^{ 2 }+\left( \frac { 1+5+8 }{ 3 } \right) ^{ 2 }+\left( \frac { 2+5+8 }{ 3 } \right) ^{ 2 } \right] \\ \\ && -\frac { 1 }{ 4 } \cdot 2\mu \left[ \left( \frac { 1+2+5 }{ 3 } \right) +\left( \frac { 1+2+8 }{ 3 } \right) +\left( \frac { 1+5+8 }{ 3 } \right) +\left( \frac { 2+5+8 }{ 3 } \right) \right] \\ \\ && +\frac { 1 }{ 4 } \cdot 4\mu^2 \end{array} \)
但在計算期望值的過程中,我們知道所有平均數的期望值就是原來的 \(\mu\),所以:
\( \left( \frac { 1+2+5 }{ 3 } \right) +\left( \frac { 1+2+8 }{ 3 } \right) +\left( \frac { 1+5+8 }{ 3 } \right) +\left( \frac { 2+5+8 }{ 3 } \right) = 4\mu \)
比較麻煩的部份是:
\( \left( \frac { 1+2+5 }{ 3 } \right) ^{ 2 }+\left( \frac { 1+2+8 }{ 3 } \right) ^{ 2 }+\left( \frac { 1+5+8 }{ 3 } \right) ^{ 2 }+\left( \frac { 2+5+8 }{ 3 } \right) ^{ 2 } \)
在這個算式中,\(1^2\)、\(2^2\)、\(5^2\)、\(8^2\) 各被算了幾次?還有,\(1 \times 2\), \(1 \times 5\), \(1 \times 8\), ... , \(5 \times 8\) 又各被算了幾次?

如果要知道 \(1^2\) 被算了幾次,我們就必須知道 {1,x,y} 這樣的組合出現了幾次,其中 x, y 必須從剩下的 {2,5,8} 中挑出兩個數,也就是 \(C^3_2=3\) 次。因此,\(1^2\)、\(2^2\)、\(5^2\)、\(8^2\) 都被算了 3 次。

利用類似的推理,如果要知道 \(1 \times 2\) 被算了幾次,我們就必須知道 {1,2,x} 這樣的組合出現了幾次,其中 x 必須從剩下的 {5,8} 中挑出,也就是 \(C^2_1=2\) 次。

因此,\(1 \times 2\), \(1 \times 5\), \(1 \times 8\), ... , \(5 \times 8\) 都被算了 2 次。

但要小心的是,就像在平方公式中:\((a+b)^2=a^2+2ab+b^2\) 一樣,\(ab\) 這一項前面是有乘到 2 的,所以所有的次數還要再乘以 2,也就是\(1 \times 2\), \(1 \times 5\), \(1 \times 8\), ... , \(5 \times 8\) 其實都被算了 4 次。

再來,因為:
\( \begin{array}{rcl} &&(1+2+5+8)^2\\ \\ &=&(1^2+2^2+5^2+8^2)+2(1\times 2+1\times 5+1\times 8+\cdots+5\times 8) \end{array} \)
因此:
\( \begin{array}{rcl} &&1\times 2+1\times 5+1\times 8+\cdots+5\times 8\\ \\ &=&\frac{1}{2}\left[(1+2+5+8)^2-(1^2+2^2+5^2+8^2)\right]\\ \\ &=&\frac{1}{2}\left[(4\mu)^2-4(\mu^2+\sigma^2)\right]\\ \\ &=&6\mu^2-2\sigma^2 \end{array} \)
由以上的說明,我們可以算出:
\( \begin{array}{rcl} &&\left( \frac { 1+2+5 }{ 3 } \right) ^{ 2 }+\left( \frac { 1+2+8 }{ 3 } \right) ^{ 2 }+\left( \frac { 1+5+8 }{ 3 } \right) ^{ 2 }+\left( \frac { 2+5+8 }{ 3 } \right) ^{ 2 }\\ \\ &=&\frac{1}{9}\left[(1+2+5)^2+(1+2+8)^2+(1+5+8)^2+(2+5+8)^2\right]\\ \\ &=&\frac{1}{9}\left[3(1^2+2^2+5^2+8^2)+4(1\times 2+1\times 5+1\times 8+\cdots+5\times 8)\right]\\ \\ &=&\frac{1}{9}\left[3\cdot 4(\mu^2+\sigma^2)+4(6\mu^2-2\sigma^2)\right]\\ \\ &=&\frac{1}{9}\left[(36\mu^2+4\sigma^2\right]\\ \\ &=&4\mu^2+\frac{4}{9}\sigma^2 \end{array} \)
接著,我們將上面沒算完的 \(Var[\bar{X}]\) 完成:
\( \begin{array}{rcl} Var[\bar { X } ]&=&+\frac { 1 }{ 4 } \left[ \left( \frac { 1+2+5 }{ 3 } \right) ^{ 2 }+\left( \frac { 1+2+8 }{ 3 } \right) ^{ 2 }+\left( \frac { 1+5+8 }{ 3 } \right) ^{ 2 }+\left( \frac { 2+5+8 }{ 3 } \right) ^{ 2 } \right] \\ \\ && -\frac { 1 }{ 4 } \cdot 2\mu \left[ \left( \frac { 1+2+5 }{ 3 } \right) +\left( \frac { 1+2+8 }{ 3 } \right) +\left( \frac { 1+5+8 }{ 3 } \right) +\left( \frac { 2+5+8 }{ 3 } \right) \right] \\ \\ && +\frac { 1 }{ 4 } \cdot 4\mu^2\\ \\ &=&+\frac { 1 }{ 4 } \left[ 4\mu^2+\frac{4}{9}\sigma^2 \right] -\frac { 1 }{ 4 } \cdot 2\mu \left[ 4\mu \right] +\frac { 1 }{ 4 } \cdot 4\mu^2\\ \\ &=&\frac{1}{9}\sigma^2 \end{array} \)
事實上,理解了上面的計算之後,我們可以得到一個更通用的定理:

從 N 個數 \(X=\{a_1,a_2,a_3,\cdots,a_N\}\) 中取出 n 個數,假設其「平均值」為 \(\bar{X}\),則:
\(E[\bar{X}]=\mu\)

\(Var[\bar{X}]=\dfrac{1}{n}\left(\dfrac{N-n}{N-1}\right)\sigma^2\)
其中 \(\mu\) 與 \(\sigma\) 為 \(X=\{a_1,a_2,a_3,\cdots,a_N\}\) 的平均數與標準差。
在開始證明之前,必須先知道,由 \(\mu\) 與 \(\sigma\) 的定義:
\(\mu=\dfrac{a_1+a_2+\cdots+a_N}{N}\)

\(\sigma=\sqrt{\dfrac{(a_1-\mu)^2+(a_2-\mu)^2+\cdots+(a_N-\mu)^2}{N}}\)
我們可以推得下面兩個結果,這兩個算式會用在後面的計算中:
\(a_1+a_2+\cdots+a_N=N\mu\)

\(a_1^2+a_2^2+\cdots+a_N^2=N(\mu^2+\sigma^2)\)
從 N 個數中挑出 n 個,有 \(C^N_n\) 種不同的組合,假設 \(C^N_n=m\),那麼每一種組合被挑中的機會都是 \(\frac{1}{m}\),因此:
\( E[\bar{X}]=\dfrac{1}{m}\left[\left(\dfrac{a_1+a_2+\cdots+a_n}{n}\right)+\cdots+\left(\dfrac{a_{N-n+1}+a_{N-n+2}+\cdots+a_N}{n}\right)\right] \)
跟之前的計算一樣,我們必須算出 \(a_1,a_2,a_3,\cdots,a_N\) 這些數字到底被加了幾次?

舉 \(a_1\) 來說,如果選 n 個數字中有包含 \(a_1\),那麼另外 n-1 個數字就必須從剩下的 N-1 個數中挑出,因此包含 \(a_1\) 的組合共有 \(C^{N-1}_{n-1}\) 個,但因為:
\( m=C^N_n=\dfrac{N!}{n!(N-n)!}=\dfrac{N}{n}\cdot\dfrac{(N-1)!}{(n-1)!(N-n)!}=\dfrac{N}{n}\cdot C^{N-1}_{n-1} \)
因此:
\( C^{N-1}_{n-1}=\dfrac{mn}{N}\\ \)
所以 \(\bar{X}\) 的期望值為:
\( \begin{array}{rcl} E[\bar{X}]&=&\dfrac{1}{m}\left[\left(\dfrac{a_1+a_2+\cdots+a_n}{n}\right)+\cdots+\left(\dfrac{a_{N-n+1}+a_{N-n+2}+\cdots+a_N}{n}\right)\right]\\ \\ &=&\dfrac{1}{mn}\left[C^{N-1}_{n-1}(a_1+a_2+\cdots+a_N)\right]\\ \\ &=&\dfrac{1}{mn}\left[\dfrac{mn}{N}\cdot(N\mu)\right]\\ \\ &=&\mu \end{array} \)


再來,我們來計算變異數 \(Var[\bar{X}]\):
\( \begin{array}{rl} &\dfrac{1}{m}\left[\left(\dfrac{a_1+a_2+\cdots+a_n}{n}\right)-\mu\right]^2 +\cdots+\dfrac{1}{m}\left[\left(\dfrac{a_{N-n+1}+a_{N-n+2}+\cdots+a_N}{n}\right)-\mu\right]^2\\ \\ =&+\dfrac{1}{m}\left[\left(\dfrac{a_1+a_2+\cdots+a_n}{n}\right)^2+\cdots+\left(\dfrac{a_{N-n+1}+a_{N-n+2}+\cdots+a_N}{n}\right)^2\right]\\ \\ &-\dfrac{2\mu}{m}\left[\left(\dfrac{a_1+a_2+\cdots+a_n}{n}\right)+\cdots+\left(\dfrac{a_{N-n+1}+a_{N-n+2}+\cdots+a_N}{n}\right)\right]\\ \\ &+\dfrac{1}{m}\cdot m\mu^2\\ \\ =&+\dfrac{1}{mn^2}\left[C^{N-1}_{n-1}(a_1^2+a_2^2+\cdots+a_N^2)+C^{N-2}_{n-2}\cdot 2(a_1 a_2+a_1 a_3+\cdots+a_{N-1} a_{N})\right]\\ \\ &-\dfrac{2\mu}{m}\left[m\mu\right]+\mu^2\\ \\ =&\dfrac{1}{mn^2}\left[\dfrac{mn}{N}\cdot N(\mu^2+\sigma^2)+\dfrac{mn(n-1)}{N(N-1)}\left[ (a_1+a_2+\cdots+a_N)^2-(a_1^2+a_2^2+\cdots+a_N^2) \right]\right]\\ \\ &-\mu^2\\ \\ =&\dfrac{1}{mn^2}\left[\dfrac{mn}{N}\cdot N(\mu^2+\sigma^2)+\dfrac{mn(n-1)}{N(N-1)}\left[ (N\mu)^2-N(\mu^2+\sigma^2) \right]\right]-\mu^2\\ \\ =&\dfrac{1}{n}\left[(\mu^2+\sigma^2)+\dfrac{(n-1)}{N(N-1)}\left[ N(N-1)\mu^2-N\sigma^2 \right]\right]-\mu^2\\ \\ =&\dfrac{1}{n}\left[(\mu^2+\sigma^2)+ (n-1)\mu^2 -\dfrac{n-1}{N-1}\sigma^2\right]-\mu^2\\ \\ =&\dfrac{1}{n}\left[n\mu^2+\left(\dfrac{N-n}{N-1}\right)\sigma^2\right]-\mu^2\\ \\ =&\dfrac{1}{n}\left(\dfrac{N-n}{N-1}\right)\sigma^2 \end{array} \)

沒有留言:

張貼留言