在今天看見明天

大數據瞎掰症候群

大數據瞎掰症候群

朱敬一

名人專欄

956期

2015-04-16 16:18

台灣有一些人,什麼都不懂卻又不讀書,大搖大擺地講錯話、做錯的判斷,甚至推動錯的政策。

不久之前看到一則新聞報導,說雪隧在清明連續假期間塞車嚴重,民眾怨聲載道。然後就有不知是官員還是記者的人說,要解決這個問題不妨用「大數據分析」。我看了真是啼笑皆非。

 

「大數據」(big data)大概是最近十年出現的新名詞,大意是說,在現今電腦科技日益進步之際,資訊的儲存、蒐集、多元、處理都以極快速度進展。例如現在幾乎人人一手機,隨時可以拍下「阿帕契軍中樂團」上傳、隨時上網分享;每輛車都備有行車記錄器,除非是洗掉,否則是一大筆全台灣上山下海的資料。這麼大量的資料,其蒐集、篩選、分析等,遠超過熟悉「個人電腦操作」的傳統模式所能想像。

 

美國有些人在處理巨量資料後,發現一些一般人難以置信卻又鐵證如山的推論,有時候也能驗證一些資料規模縮小就驗證不出來的現象。這些點滴觀察,讓歐美許多國家都相信,巨量資料時代會出現種種新的機會,遂紛紛發起大規模的研究計畫探索之。

 

但是巨量資料計畫究竟在探索什麼呢?老實說沒有人知道。在本質上,所有的科學研究都是創新突破,都是要進入未知世界,因此科學研究要走向何方當然不容易事先知道。但是巨量資料的未知,恐怕比「5G通訊」、「個人化醫療」、「腦的認知能力」等熱門題材更模糊一些。坊間有不少書籍論及大數據分析,都強調它只論「相關」、難究「因果」。換言之,大數可能莫名其妙地幫我們知其然,但是難窺其所以然。

 

這正是許多大數據分析的關鍵:正因為我們不了解,甚至不能想像因果,所以是用一種「無厘頭」的先驗態度,去摸索浩瀚如海的資料;就像是買了一萬張樂透彩,可能不小心中大獎。如果某人心裡已經有了某種推論、某種預期,那就已經有了因果假說。在這種情況下進行的資料分析,即使用了大量資料,都不會歸屬為大數據資料分析。

 

雪山隧道塞車,是要解決,但是這裡面的因果好像很清楚、情境好像很直接、解方好像不超過十項。這裡有什麼「大數據」問題?大概柯文哲智商平方的腦袋,也弄不清楚。巨量資料分析將來有哪些發展也許說不準,但一定不會有哪些發展,卻不難判斷。

 

台灣就是有一些人,什麼都不懂卻又不讀書,大搖大擺地講錯話、做錯的判斷,甚至推動錯的政策。曾經有一位負責資訊的官員告訴我,他想要把政府大數據的資料做成開放資料(open data),儼然連big data 和open data的差別、關鍵意義都分不清楚。碰到這種無厘頭的官員,我就對台灣巨量資料產業發展的前景,感到悲觀。

(本專欄隔周刊出)

延伸閱讀

人才培育供不應求 得靠產學合作補缺口

2015-09-17

大數據挖礦人 未來職場最搶手

2015-07-16

大數據 你學了沒?

2014-11-20

天睿年賺百億 靠「大數據」淘金

2014-05-15

打破你只看數字的迷思—大數據賣的是解決方案

2015-09-09