網頁

2009年4月5日 星期日

標準差的幾何意義

右圖是計算標準差的公式。可是為什麼要這樣算?我們可以把一份資料的n個值看成是n維空間中的座標,因此一份資料就是n維空間中的一個點。在此看法下,標準差就是該份資料與 n維空間對角線之垂直距離的根號 n分之一。對角線就是該空間中所有向度座標都相等的點所組成的線,就是座標為(t, t, ..... t)的線 t為任一實數。

一份正好落在對角線上的資料其標準差是0,這顯然是相當無趣的資料,因為每一個值都剛好等於平均值。不過直覺上,用一份資料與對角線的距離來估計該份資料的散佈情況應該是合理的,至於根號 n分之一則是為了正規化,讓不同筆數的資料之間可以互相比較。

PS.
昨天問了幾位同學為何標準差要這樣算,有點意外的,有很多根本不了解標準差的意義,更不用說了解為什麼要這麼算了。說老實話,我不太容易體會這個問題在思考上的盲點,因為標準差算是相當直觀的概念,其算法應該也不必當作公式背,只要按照常理推斷就可以把公式設計出來。最直觀的當然是平均誤差,也就是每一個取樣與平均數之差距的平均值,然後導入空間概念,用計算距離的方式取代平均誤差就可以設計出標準差的算法與概念。需要想一下的是為何以根號 n 作為標準化的除數。我的解釋如下:

當我們要比較距離時,須考慮各項距離參考點所處空間的維度。考慮一個邊長為1的正方形區域,在其間取兩點的最大可能距離為根號2,當這個區域增加一個維度而成為正方體時,區域中任取兩點之最大可能距離為根號3。依此類推,在n維空間中的「正方體」區域任取兩點,其最大可能距離為根號n。因此,當不同維度空間中所量測的距離要放在一起比較時,需要除以根號n來正規化,才能將在不同量測條件取得的值相互比較。另一個切入概念是說,二維空間中的線段可以是某些更高維度空間線段的投影。一個個數為m的母體可以看成是在m維空間中的一個點,其標準差是該點與空間對角線的距離除以根號 m。當我們用n個取樣值來估計一個統計母體的標準差時,我們希望量測在m維空間中母體與對角線垂直線段在n維空間中投影的距離 ,但因為母體的平均值未知,取樣的平均值不太可能剛好等於母體的平均值,也因此取樣標準差對母體標準差的推估都太低了,也因此會有bessel's correction的需要。當然我們無法用投影距離推算出其在更高維度空間中的距離,不過我們可以合理的期望,如果取樣的方式適當,所忽略的m-n個維度之座標值的分佈情況與整個母體的分佈大約相同的話,將所量測出來的值除以維度的根號應該是合理的標準化差距,可以做為不同統計數值間的比較。

至於為何需要bessel's correction,以n-1取代n作為除數來計算標準差?其關鍵就是上述的,母體平均數為未知,若是以取樣值的平均數代替,所推估出來的標準差當然偏低。至於為何是n-1,而不用其他數值就需要再深入探討了。

(這個問題可以參照 丁村成老師的著作)(2011,10,16補述,謝謝 http://kevinlyu.blogspot.com/2011/05/blog-post_21.html的介紹)

下一個練習可以是兩個屬性之間相關性的分析。

4 則留言:

Peter 提到...

為找標準差的意義, 幾何意義, ... 來到府上了.
謝謝分享.

USstock 提到...

"一份正好落在對角線上的資料其標準差是0"

不對吧,從公式看,就是全部資料的每一組數值都等於平均值,其標準差才會是0.
只要有任一組數值不等於平均值,則其減去平均值後的平方再除以n再開根號,仍然是大於0的數.

soreros 提到...

一份落在對角線上的資料就是對角線上的一個點,這個點既然在對角線上,代表其每一個座標軸上的分量都一樣。這個點(也就是這份統計資料)的每一個座標軸的分量就代表一筆量測值, 既然每一個量測值都相同,當然其平均值也相同, 所以標準差當然就是0, 這並沒有任何問題。

例如三個人的年齡都是20歲, 這份資料就是三維空間中的一個點, 其座標為(20, 20, 20),這個點落在對角線上。這條對角線任何其他的點因為其三個座標軸的分量相同(對角線的定義),也各自代表一份標準差為0,有三筆量測值的統計資料。

soreros 提到...

我發現wikipedia對標準差的幾何意義有很好的解釋, 可以參照
http://en.wikipedia.org/wiki/Standard_deviation 文中Geometric interpretation 的一段文字。