樣本=母體的時代來臨,若是樣本夠大,可以彌補抽樣的誤差 資料數量比資料品質更重要,與其要求完全精確,還 不如快速掌握大致輪廓、或是抓住發展趨勢。 谷歌翻譯良好的原因,不在於演算法更為聰明,而是輸入更多資料,接受雜亂。 相關性。只要知道正是如 此,不用智道為何如此也沒關係。 用假說來挑選該檢驗那些變數,實在不是很有效率的做法。只要將巨量資料交付相關分析(correlation analysis)。 書中舉的例子是為什麼我們這樣生活,那樣工作中提到的塔吉特能預測誰家女兒未婚懷孕。 相關性 之所以強大而重要,不只是因為能提供觀點,還因為這些觀點相對明確。但如果任意把因果關係帶速來,恐怕會模糊甚至誤導了這些觀點。 P.152 Big data的價值 Use of mobile phones and risk of brain tumours: update of Danish cohort study http://www.bmj.com/content/343/bmj.d6387 大數據的風險,就是用過去來分析未來,就像美國隊長的劇情一樣,博士發明了一個演算法可以找出可能會威脅hydra的人,所以要將航母升空,把那些可能威脅的人事先解決。 不依賴資料分析的例子,就是賈伯斯說的「除非你拿出東西給顧客看,不然他們不知道自己要什麼。」
沒有留言:
張貼留言