Posted by : Chih-Hao Chang 2014年12月22日 星期一



樣本=母體的時代來臨,若是樣本夠大,可以彌補抽樣的誤差

資料數量比資料品質更重要,與其要求完全精確,還 不如快速掌握大致輪廓、或是抓住發展趨勢。 谷歌翻譯良好的原因,不在於演算法更為聰明,而是輸入更多資料,接受雜亂。

相關性。只要知道正是如 此,不用智道為何如此也沒關係。
 用假說來挑選該檢驗那些變數,實在不是很有效率的做法。只要將巨量資料交付相關分析(correlation analysis)。
書中舉的例子是為什麼我們這樣生活,那樣工作中提到的塔吉特能預測誰家女兒未婚懷孕。 
相關性 之所以強大而重要,不只是因為能提供觀點,還因為這些觀點相對明確。但如果任意把因果關係帶速來,恐怕會模糊甚至誤導了這些觀點。

P.152 Big data的價值
Use of mobile phones and risk of brain tumours: update of Danish cohort study
http://www.bmj.com/content/343/bmj.d6387

大數據的風險,就是用過去來分析未來,就像美國隊長的劇情一樣,博士發明了一個演算法可以找出可能會威脅hydra的人,所以要將航母升空,把那些可能威脅的人事先解決。
不依賴資料分析的例子,就是賈伯斯說的「除非你拿出東西給顧客看,不然他們不知道自己要什麼。」


書中最常提到的公司就是google, amazon。其他也有提到的就是微軟,Visa和萬事達卡、推特、臉書…。

甚至連對沖基金公司,也和湯森路透合作,提供像是樂觀、陰鬱、快樂、恐懼、憤怒等情緒的資料。再將資料放入演算法模型藉以獲利。
也因為大數據,統計學家、資料庫管理人員,機器學習都被視為未來的夢幻工作。

總網頁瀏覽量

Blog Archive

技術提供:Blogger.

- Copyright © A hospice intensivist -Metrominimalist- Powered by Blogger - Designed by Johanes Djogan -