三月中旬去了誠品一趟,才赫然發現這本書是暢銷書的第六名 — — 但老實說自己並不意外。
《數據、謊言與真相》全書講述大數據的力量如何推翻我們的直覺,以及我們如何透過 Google 搜尋引擎,透露出我們的「喜好」、「不安」以及「政治立場」。書中諸多的實例都令人印象深刻,他告訴我們數據不只是揭發已然發生的狀況,更能夠作為一種預測工具。
這次的心得分享,我們「不會」將本書的精彩案例都搬出來分享給大家(僅列舉幾項);反之,我們只會談談那些我們認為最「值得劃線」的幾個地方,結合我們自身經驗以及科技趨勢,告訴各位:本書為何暢銷的幾個重點。
首先,讓我們來淺談「資料蒐集」
數據作為決策的依據,是決策過程不可忽視的一大環節。做決策時,我們也往往在第一階段的「資料蒐集」花了最多的心力與時間。
談到「資料蒐集」,我們總直觀地認為若能取得越多數據,必能大大左右我們所做出來的決策、增加我們決策的可信度與說服力。
然而,取得額外資訊是否總是一件好事?
以 Google 搜尋引擎為例,比起其他搜尋引擎,Google 並非是單純讓使用者獲得更多的搜尋結果,而是提供「更好」的搜尋結果。
何謂「更好」?
Google 利用數據科學的力量,他們著重於提供「客製化」的搜尋結果。Google 的概念很單純。
試想:若不同的人搜尋一樣的字彙「Rocket(火箭)」時,他們所指的是否為同物?
在美國德克薩斯州的青年指的 Rocket 可能是「NBA 休士頓火箭隊」,但同時,在美國其他地區的 Rocket 可能是當地有名的足球隊名;又或者,搜尋者只是一名在學習英文字彙的亞洲學生。同樣的字彙「Rocket」,可能因搜尋人背景與身份的不同,而每個人期待的「搜尋結果」也因此因人而異。
Google 便是在這樣的案例中,優化了他們所提出的搜尋結果。從 Google 搜尋引擎的優化上,也告訴了我們:
要做出正確的決策,倚賴的並非是「大量」的數據 — — 而是更具關聯性的數據。
數據預測與測試
隨著資料科學在近年來成為科技趨勢,數據科學家的工作不外乎總有一項是「具備建立預測模型」的數據能力。然而,「預測模型」背後的邏輯是如何建立起來的呢?
概念很簡單:便是讓預測模型用「過去的事件」做為訓練,讓模型藉此找到什麼要素會影響事件結果,再加以記錄和運算。而在預測模型能夠達到一定的預測精準度後,便能從過去事件的經驗積累,進而套用在現今的趨勢預測上。
預測模型的做法說白了,就像是用更有效率且風險及成本更低的方式進行 A/B 測試。A/B 測試的價值之大,不只是因其能作為趨勢分析的衡量工具,而是因其能讓我們更進一步知道「人性」:
若從我們的生活經驗就能判斷答案,那麼測試就不會有價值。
A/B 測試與預測模型的出現,都是在體現這句話。正是因為我們對自身的不了解,所以測試才這麼有價值。A/B 測試為何重要的論述,也在書中以此例說明:Google 廣告點擊率(如下圖所示)。
上圖中,Google 廣告所設計的向右鍵頭(→)即是在進行不同符號的 A/B 測試之後,所得到點擊率最高、最有成效的「關鍵要素」。我們無從得知這樣的箭頭為何影響了許多人的點擊行為、為什麼大多數人對箭頭(→)情有獨鍾,而並不是 ✓ 或是其他表情符號呢?
不過,反過來想,知道「為什麼」重要嗎? 雖數據讓我們更了解人性,但是——
做預測這一行,只需要知道怎樣做有效,不需要知道「為什麼」有效。
舉《數據、謊言與真相》書中提到的賽馬為例:在賽馬界,要挑出一匹好馬,行家所仰賴的是其血統證明,尤以父母都曾參賽得名的馬匹無疑是各個買主的寵兒。
不過,數據卻否定了這樣的論點。
比起血統優異,數據科學家發現:決定馬匹表現優異之關鍵在於其心臟左心室大小和脾臟大小。跳脫了單純的血統作為選判斷依據,數據科學家用數據證實了這個論點。數據科學家並未接受任何獸醫相關的訓練,只是將數據所表述的關鍵呈現了出來。
此例也證明了,數據的結果並非一定代表著因果關係,而結果「為什麼」會是如此,也同樣地並非數據科學家需琢磨的。
找尋突破點
在文章的最後,想給一樣對數據領域懷抱熱忱的你一個建議:
若想以數據來革新一個領域,最好進入一個傳統方法效率極差的領域。
這是自己在閱讀本書深有感觸的一句話。就如同賽馬界的那位數據科學家一樣,我們習慣了數據建構齊全、易於分析的環境,但是這往往不是「最需要」進行革新的領域;想透過數據改變點什麼,進入一個數據建構不完全的行業,是能最快達到改變的選擇。
當然,這恐怕不會是一條捷徑;但卻是最能讓數據科學家做出貢獻的領域。
最後,這篇心得文章花了很多時間構思,這本書可能也已經不在熱銷排行榜上了,但仍希望大家喜歡這次的分享!
Commentaires