Posted by : Chih-Hao Chang 2015年3月2日 星期一


統計已經是發展很久的學問,但是很多人聽到統計就會感覺得高深莫測,或者對統計有所畏懼。想知道統計學家的故事可以參考統計改變了世界這本書。而這本聰明學統計的目的是讓大家了解不要誤用統計,畢竟任何人拿套裝軟体(excel, Stata, SAS, R, SPSS) 都可以跑統計了。
這本書寫的很好,解釋的比黑天鵝或隨機騙局還清楚。

作者說統計的警探工作就是分辨重要關係。例如在20週年同學會上,可以把畢業同學有吸菸或沒有吸菸得到癌症的比率拿來分析嗎?當然是不行因為已經往生的吸菸者不會來參加了。所以畢業越久的同學會,數據偏差越嚴重。

而統計的一開始,就是描述性統計,把一堆數字變成一個簡化的數字,不管是使用mean or median,都有其各自解讀的意義(或者作者有意讓讀者接收的訊息)。有時也可以使用相對數字(和其他人比較),或者ratio(百分之幾)讓人更了解。

數據不會說謊,不過有些是胡言亂語。許多統計的詭計來自蘋果和橘子的比較。例如不計通貨膨脹(貨幣的時間價值),或是以低基期來強調高成長率,或是老闆和員工都加薪百分之十,都繳一樣的稅率(或許老闆的稅率更低)。或是把切切在高點,不管是一年、五年報酬率都很可觀。
在2007年時就有看過報紙寫投資十年獲利800%。(可搜尋美林世界礦業基金就知道)


相關性,兩個變數有關連,越接近1或-1關連越強。被拿來推薦您可能喜歡的東西,不過不代表因果關係(大數據一書也有提到)。

各自獨立事件的機率可以相乘,但是像今天下雨和明天下雨就不是獨立事件,今年撞壞車子保費會被調高,因為今年和明年撞壞也不是獨立事件。
左邊發動機故障+右邊發動機故障是獨立事件嗎?

期望值:期望值是負的,還是有可能賺錢。所以壞的決策有可能是好結果,好的決策也可能是壞結果。
包牌的人,是否因為大數法則,得到的錢越接近期望值?

作者提到誤用統計的時候:
當事件並不是獨立事件時,卻假設它們是
當事件屬獨立事件時沒發現
群集的確會發生

數據不當包括:
選樣偏差 (民調)
刊登偏差
回憶偏差 (Daniel Kahneman: The riddle of experience vs. memory)
存活者偏差 (各種基金)

標準差:衡量母體的分布性
標準誤:衡量樣本平均數的分布性

normal distribution
T distribution: small sample, 有fat tail,可使用T Distribution Calculator計算
或使用R
qt(0.95,df=22)

公式:
變異數=標準差^2= ((x1-μ)^2+(x2-μ)^2....+(xn-μ)^2) / n
相關係數 = 1/n ∑ (xi-X平均)(yi-Y平均)/ (σx)(σy)
SE=s/ √n
chi-square=(n-1)*S^2/(σ^2)

2015-3-16 update:


2015-7-23 update:

書裡有寫到,他觀察柯林頓從政以來的公開講話,觀察次數是幾千次,觀察時間十多年,發現柯林頓都不會死。所以顯示柯林頓被認定是不會死的。

總網頁瀏覽量

Blog Archive

技術提供:Blogger.

- Copyright © A hospice intensivist -Metrominimalist- Powered by Blogger - Designed by Johanes Djogan -