環境行為學者觀察行人在空間中移動模式時所遭遇的處境似乎有點像量子物理學家在觀察電子。首先,電子是測不準的,因為觀察必然會干預到電子的行為,行人也是。第二,機率是描述電子的語言,而行人的行為基本上無法預測,但卻可以用機率來描述大群的行人,或者單一行人長時間的行為模式。我們可以觀察空間中行人出現在某個位置,展現某種行為的機率,或者是跟蹤少數的行人,觀察其行為模式,但是我們無法觀察其行為舉止背後的動機,並據以預測其後續行動,或解釋其先前的行為舉止。
如果我們只觀察行人出現在每一個位置的機率,不需管她是誰,想要做甚麼,往哪裡去。只用機率幅來描述空間中行人出現的機率,這樣的表示方法會不會有甚麼用處?一個空間變成一個場,場中每個點為行人出現的機率。
網頁
2009年4月24日 星期五
機率-化簡馭繁的屠龍寶刀
機率是幫助我們簡化複雜現象的法寶。任何事情,如果會受到多 不勝數的物件、事件或環境因素的影響,就很有可能可以用機率簡單化解此困難的處境,讓我們可以用簡單到難以置信的方法來分析或預測該事情的發展。最先想到 的例子當然就是骰子了。一顆骰子被拋出,掉落、翻滾、彈跳,最後靜止在桌面上,其中一面朝上顯示出一個數字。這是一個極其複雜的物理現象,我們需要計算拋 出的力道、方向、骰子的重量、重心、彈性係數、氣流、阻力、摩擦力.....等等多不勝數的物理性質如何影響骰子的運動過程。一顆骰子都已經這麼複雜,那 麼一千顆骰子呢?極其簡單,賭場只要能夠吸引一千位客人來擲骰子,幾乎可以說就是穩賺不賠。以下是兩個例子:
計算任意圖形的面積
- 把圖形填滿畫在一張紙上,然後用另一張紙蓋起來。在這張紙上任意(隨機,每一次戳洞不受先前已戳之洞的影響)戳洞,計算破洞的總數n,以及破洞顯示出圖形顏色的次數m。
- A*m/n的值隨著n值的增加將趨近於圖形的面積,A指覆蓋紙張的面積。
- 一盒兩千片的拼圖,拼好後是一張50公分見方,比例尺為二萬分之一的衛星照片
- 房間裡面有鉛筆、白紙、量角器、計算機和比例尺
2009年4月12日 星期日
關於組織
以下是一篇多年前的老文章,正好翻出來,做了一點修改後姑且放在這裡。
組織的定義可以簡化為「一群交換資訊的個體」,而這所謂的個體不見得就是人,可以是任何「資訊處理單元」,也就是能夠接受/產出資訊的單元。至於這個組織是否 展現自我組織的現象,是否彼此合作,是否擴展個體能力,是否達成個體所不能等等,則是我們希望藉由研究進一步瞭解的現象,例如哪一種組織可以具備創造力? 什麼樣結構的組織引發合作的行為?等等(註一)。
自 我組織的現象無所不在,例如沙漠的沙丘在風吹襲下變化無常,卻總是形成特定的形狀、一株海綿被外力打碎之後自動回復其大致的型態、一個國家經過權力交替之 後政府照常運作等等,都是一個組織因內部變動或外來資訊引發其溝通模式的重整,個體所扮演的角色可能改變(原來在下面的砂子跑到上面、原來的政治犯成為國 家領導),但組織全體卻維持一個特定的模式。自我組織是學習能力的根源。
說白蟻群是具有學習能力的組織。白蟻至少二億年前就演化出來,成 為具有高度文明的社會群體,其間經歷多少外在環境嚴厲的挑戰,沒有學習能力是不可能辦到的。試想人類的住宅和森林的環境有多大差異?白蟻群沒有學習能力的 話怎麼可能在這兩種極端的環境都生存下來?白蟻窩的建築成就可能人也辦不到,可以想像把全台北市人口都集中在一座比101高兩倍的大樓,生老病死吃喝拉撒 都在其中,內部溫度不論冬夏都維持在穩定的範圍(註二)。更不可思議的,是歷經數十年甚至上百年未間斷的營造與維護,從小住宅擴大到摩天大樓這個過程中從 未間斷使用。
註一
清楚的定義是必要的。定義含糊的推論無法被批判、否證,也失去作為科學研究的基本要件 (5107)。 所有偉大的理論都是從簡單清楚的定義開始,遠者如幾何學,近者如賽局理論。不過這不一定對刊登論文有益,要求精確會寫不出論文,含糊其詞反而可以讓評審自由詮釋成他認同的說法而提高刊登的可能性,或是隱藏錯誤讓評審抓不到。
註二
白蟻對溫度極其挑剔,低於攝氏16度或高於攝氏24度(大約,忘記了)都能影響其生存。
組織的定義可以簡化為「一群交換資訊的個體」,而這所謂的個體不見得就是人,可以是任何「資訊處理單元」,也就是能夠接受/產出資訊的單元。至於這個組織是否 展現自我組織的現象,是否彼此合作,是否擴展個體能力,是否達成個體所不能等等,則是我們希望藉由研究進一步瞭解的現象,例如哪一種組織可以具備創造力? 什麼樣結構的組織引發合作的行為?等等(註一)。
自 我組織的現象無所不在,例如沙漠的沙丘在風吹襲下變化無常,卻總是形成特定的形狀、一株海綿被外力打碎之後自動回復其大致的型態、一個國家經過權力交替之 後政府照常運作等等,都是一個組織因內部變動或外來資訊引發其溝通模式的重整,個體所扮演的角色可能改變(原來在下面的砂子跑到上面、原來的政治犯成為國 家領導),但組織全體卻維持一個特定的模式。自我組織是學習能力的根源。
說白蟻群是具有學習能力的組織。白蟻至少二億年前就演化出來,成 為具有高度文明的社會群體,其間經歷多少外在環境嚴厲的挑戰,沒有學習能力是不可能辦到的。試想人類的住宅和森林的環境有多大差異?白蟻群沒有學習能力的 話怎麼可能在這兩種極端的環境都生存下來?白蟻窩的建築成就可能人也辦不到,可以想像把全台北市人口都集中在一座比101高兩倍的大樓,生老病死吃喝拉撒 都在其中,內部溫度不論冬夏都維持在穩定的範圍(註二)。更不可思議的,是歷經數十年甚至上百年未間斷的營造與維護,從小住宅擴大到摩天大樓這個過程中從 未間斷使用。
註一
清楚的定義是必要的。定義含糊的推論無法被批判、否證,也失去作為科學研究的基本要件 (5107)。 所有偉大的理論都是從簡單清楚的定義開始,遠者如幾何學,近者如賽局理論。不過這不一定對刊登論文有益,要求精確會寫不出論文,含糊其詞反而可以讓評審自由詮釋成他認同的說法而提高刊登的可能性,或是隱藏錯誤讓評審抓不到。
註二
白蟻對溫度極其挑剔,低於攝氏16度或高於攝氏24度(大約,忘記了)都能影響其生存。
2009年4月5日 星期日
標準差的幾何意義
右圖是計算標準差的公式。可是為什麼要這樣算?我們可以把一份資料的n個值看成是n維空間中的座標,因此一份資料就是n維空間中的一個點。在此看法下,標準差就是該份資料與 n維空間對角線之垂直距離的根號 n分之一。對角線就是該空間中所有向度座標都相等的點所組成的線,就是座標為(t, t, ..... t)的線 t為任一實數。
一份正好落在對角線上的資料其標準差是0,這顯然是相當無趣的資料,因為每一個值都剛好等於平均值。不過直覺上,用一份資料與對角線的距離來估計該份資料的散佈情況應該是合理的,至於根號 n分之一則是為了正規化,讓不同筆數的資料之間可以互相比較。
PS.
昨天問了幾位同學為何標準差要這樣算,有點意外的,有很多根本不了解標準差的意義,更不用說了解為什麼要這麼算了。說老實話,我不太容易體會這個問題在思考上的盲點,因為標準差算是相當直觀的概念,其算法應該也不必當作公式背,只要按照常理推斷就可以把公式設計出來。最直觀的當然是平均誤差,也就是每一個取樣與平均數之差距的平均值,然後導入空間概念,用計算距離的方式取代平均誤差就可以設計出標準差的算法與概念。需要想一下的是為何以根號 n 作為標準化的除數。我的解釋如下:
當我們要比較距離時,須考慮各項距離參考點所處空間的維度。考慮一個邊長為1的正方形區域,在其間取兩點的最大可能距離為根號2,當這個區域增加一個維度而成為正方體時,區域中任取兩點之最大可能距離為根號3。依此類推,在n維空間中的「正方體」區域任取兩點,其最大可能距離為根號n。因此,當不同維度空間中所量測的距離要放在一起比較時,需要除以根號n來正規化,才能將在不同量測條件取得的值相互比較。另一個切入概念是說,二維空間中的線段可以是某些更高維度空間線段的投影。一個個數為m的母體可以看成是在m維空間中的一個點,其標準差是該點與空間對角線的距離除以根號 m。當我們用n個取樣值來估計一個統計母體的標準差時,我們希望量測在m維空間中母體與對角線垂直線段在n維空間中投影的距離 ,但因為母體的平均值未知,取樣的平均值不太可能剛好等於母體的平均值,也因此取樣標準差對母體標準差的推估都太低了,也因此會有bessel's correction的需要。當然我們無法用投影距離推算出其在更高維度空間中的距離,不過我們可以合理的期望,如果取樣的方式適當,所忽略的m-n個維度之座標值的分佈情況與整個母體的分佈大約相同的話,將所量測出來的值除以維度的根號應該是合理的標準化差距,可以做為不同統計數值間的比較。
至於為何需要bessel's correction,以n-1取代n作為除數來計算標準差?其關鍵就是上述的,母體平均數為未知,若是以取樣值的平均數代替,所推估出來的標準差當然偏低。至於為何是n-1,而不用其他數值就需要再深入探討了。
(這個問題可以參照 丁村成老師的著作)(2011,10,16補述,謝謝 http://kevinlyu.blogspot.com/2011/05/blog-post_21.html的介紹)
下一個練習可以是兩個屬性之間相關性的分析。
一份正好落在對角線上的資料其標準差是0,這顯然是相當無趣的資料,因為每一個值都剛好等於平均值。不過直覺上,用一份資料與對角線的距離來估計該份資料的散佈情況應該是合理的,至於根號 n分之一則是為了正規化,讓不同筆數的資料之間可以互相比較。
PS.
昨天問了幾位同學為何標準差要這樣算,有點意外的,有很多根本不了解標準差的意義,更不用說了解為什麼要這麼算了。說老實話,我不太容易體會這個問題在思考上的盲點,因為標準差算是相當直觀的概念,其算法應該也不必當作公式背,只要按照常理推斷就可以把公式設計出來。最直觀的當然是平均誤差,也就是每一個取樣與平均數之差距的平均值,然後導入空間概念,用計算距離的方式取代平均誤差就可以設計出標準差的算法與概念。需要想一下的是為何以根號 n 作為標準化的除數。我的解釋如下:
當我們要比較距離時,須考慮各項距離參考點所處空間的維度。考慮一個邊長為1的正方形區域,在其間取兩點的最大可能距離為根號2,當這個區域增加一個維度而成為正方體時,區域中任取兩點之最大可能距離為根號3。依此類推,在n維空間中的「正方體」區域任取兩點,其最大可能距離為根號n。因此,當不同維度空間中所量測的距離要放在一起比較時,需要除以根號n來正規化,才能將在不同量測條件取得的值相互比較。另一個切入概念是說,二維空間中的線段可以是某些更高維度空間線段的投影。一個個數為m的母體可以看成是在m維空間中的一個點,其標準差是該點與空間對角線的距離除以根號 m。當我們用n個取樣值來估計一個統計母體的標準差時,我們希望量測在m維空間中母體與對角線垂直線段在n維空間中投影的距離 ,但因為母體的平均值未知,取樣的平均值不太可能剛好等於母體的平均值,也因此取樣標準差對母體標準差的推估都太低了,也因此會有bessel's correction的需要。當然我們無法用投影距離推算出其在更高維度空間中的距離,不過我們可以合理的期望,如果取樣的方式適當,所忽略的m-n個維度之座標值的分佈情況與整個母體的分佈大約相同的話,將所量測出來的值除以維度的根號應該是合理的標準化差距,可以做為不同統計數值間的比較。
至於為何需要bessel's correction,以n-1取代n作為除數來計算標準差?其關鍵就是上述的,母體平均數為未知,若是以取樣值的平均數代替,所推估出來的標準差當然偏低。至於為何是n-1,而不用其他數值就需要再深入探討了。
(這個問題可以參照 丁村成老師的著作)(2011,10,16補述,謝謝 http://kevinlyu.blogspot.com/2011/05/blog-post_21.html的介紹)
下一個練習可以是兩個屬性之間相關性的分析。
訂閱:
文章 (Atom)