2021年1月27日 星期三

[心得] 你騙得了別人,卻騙不了大數據-《數據、謊言與真相》

 


大數據,無所不在。

Google、PronHub(色情影音網站)、Bing……,在你不知情況下默默收集你的搜尋關鍵字、搜尋喜好,而這一些關鍵字將成為「數據科學家」進行挖礦的一座礦山。數據科學家們利用這一些數據,加上好奇心、創造力來了解這一個世界的這一個世界的運作。


這一本書主要是透過Google 搜尋趨勢(Google公司提供的一種服務)輔以其他數據或社會現象為架構,中間可能穿插著人們使用PronHub、FaceBook等網站的數據來對比網路與現實的反差。我們可以透過大數據來了解人們真正要什麼和做什麼,而不是人們說自己要什麼和做了什麼。舉例:前述的觀點,可能會讓人誤會網站上的觀點都是誠實的,但是臉書或是類似的社群網站都不是數位誠實豆沙包,而是跟朋友吹噓自己的生活多美好的社群媒體。在社群網站的世界裡,一般成年人似乎都過著幸福美好的婚姻生活。但真的是這樣嗎?會不會現實生活中又是另外一個故事呢?



作者在書中提到大數據有四種力量: 
  1. 提供新穎類型的數據,就是大數據擁有的第一種力量。 
  2. 提供誠實的數據,就是大數據的第二種力量。 
  3. 允許我們把焦點放在人口中的小子集,就是大數據的第三種力量。
  4. 允許我們進行許多因果關係的實驗,就是大數據擁有的第四種力量。

針對大數據的第二種力量,不適用於「社群網站」,我認為比較適合用於「匿名」的環境下,因為「非匿名」的情況下,人們會包裝自己,讓自己看起來更完美!而「匿名」,則是可以更讓人表現出真實的自己。每天都有人透過Google在搜尋一大堆奇奇怪怪的問題,亦有許多人透過知名色情網站PronHub在搜尋不同類型的色情片。試想你的一舉一動被認識的人關注著,你還會問Google一些愚蠢的問題嗎?因為匿名,所以更「誠實」,反正大家都不知道,更能做自己,所以Google往往比FaceBook蒐集到的是更「誠實」的數據。

人生不是一場電玩遊戲,無法在不同情況下再玩一次,體驗不同的過程與結局。因此透過大數據的第四種力量,可以蒐集背景大致一樣的人,在歷經不同的選擇後,會出現什麼樣的結局。例如:一群人同時考上的一般大學和警察大學,A群選擇放棄警大就讀一般大學;而另外一群,B群則是選擇就讀警大。當然,B群可以預測到大部分的人都是後來走在警察的路上;而A群呢?有可能出現不同人生抉擇。

大數據算是近幾年很熱門的話題!統計學與邏輯學告訴我們,觀察到的「現象」,未必等於掌握「真相」,更不等於理解「原因」。人類是一個複雜的生物,因此研究人類行為和社會現象,質性的觀察、歸納與演繹仍不可或缺。大數據的革命與蒐集更多的數據無關,而是跟蒐集正確的數據有關係,以避免出現「垃圾進,垃圾出(Garbage in, garbage out)」的笑話。知道更多「現象」並不會自動帶來問題的「解方」,如果只一味地沉迷於「數據堆」,而忽略了因果關係的嚴謹判斷與質性研究,會出現奇怪的研究成果。事實上,最聰明或是最有效率的大數據公司往往會縮減本身所用的數據(可以稱為「小數據」),甚至會找傳統的分析家-心理學者、行為學者……等一同進行檢測,並解釋這世界上和表面上看起來的不同之處(假設大數據出現反於常理的推論)。



隨著儲存資料的成本降低,以及大數據相關的技術發展日漸成熟,大數據會是一個好工具,也許可以利用「全民健康保險」的就醫紀錄,來找到一些有價值的資訊,來提升醫療水平、改善生活品質。最後,在本書的最後一個章節,作者透過一些數據幽默的表示:「大數據告訴我,很少人看到最後一頁」。確實,大多數的人可能看書看到一半就不會看了!但,我算是個例外吧?不但認真地看到最後一頁,在閱讀的過程中,還把一些有趣的段落抄在筆記上面。

沒有留言:

張貼留言