在今天看見明天
熱門: 鋼鐵股 富邦金 開發金 鴻海 升息

大數據從來不是免費的午餐:公司高層該更主動管理與支持創新

大數據從來不是免費的午餐:公司高層該更主動管理與支持創新

天下雜誌出版

管理

2015-03-11 10:01

有人說,大數據就像國王的新衣,每個人都在國王面前說著動聽的話,國王信以為真,竟然不知道自己在裸奔。用數據的人不知道大數據從哪裡來,做數據的人不知道大數據如何使用。用的人不敢用,因為大數據的真實性;做的人不知道怎麼用,因為大數據的複雜性。這一問題造成的結果就是,數據量變得愈來愈大,而且愈來愈無法有效使用。

數據十誡
好的問題,答案就在裡面。
在實踐中提煉數據。
讓數據(data)變成科技(technology),惠及更多人。
讓數據跟著人走。
缺乏數據品質,任何數據都是浮雲。
以「假設數據是可獲取的」去思考問題。
大數據安全,不是監管。
利用數據拿到更有用的數據。
建立數據的數據,才有進步。
讓人做人擅長做的事,讓機器做機器擅長做的事。

只會談大數據不會做
有人說,大數據就像國王的新衣,每個人都在國王面前說著動聽的話,國王信以為真,竟然不知道自己在裸奔。

的確,網路上有很多人在談大數據,但是他們只會談,不會做,因為他們根本就沒有做過,包括那些所謂的大數據專家,他們真的做過嗎?沒有。

事實上,這些人對大數據內在的問題一點兒都不了解,更別說知道大數據的水有多深了。

目前,在大數據方面,無法深入應用的原因在於,從收集到使用的大數據價值鏈出現了問題。從理論上來說,收集到使用的螺旋式循環是個巨大的渦輪,只有先數據化營運,才能營運數據。而現在的情況是,用數據的人不知道大數據從哪裡來,做數據的人不知道大數據如何使用。用的人不敢用,因為大數據的真實性;做的人不知道怎麼用,因為大數據的複雜性。這一問題造成的結果就是,數據量變得愈來愈大,而且愈來愈無法有效使用。

大數據不是免費的午餐
我先問一個數據管理上最現實的問題:「大數據如何備份?」毫不誇張地說,大數據已經這麼龐大了,如果再備份一次,你的成本起碼會增加一倍。

做大數據基本上要從大量收集數據開始,因為這些數據在未來會大有用處。但是,你不可能無止境的收集。在這裡,你已經看到了一個再清晰不過的偽命題——大數據的確能夠備份,但是成本會增加兩、三倍。然而,「以前重要的數據一定都需要備份啊,」你自然會問,「如果不能備份,我該怎麼辦?」這就是大數據管理中必然要遇到的問題。

我再問一個問題,如果你在數據使用方面一直得心應手,整個商業鏈條和數據緊密相關、相輔相成。但是,現在數據鏈忽然斷了,或不再有效,你該怎麼辦?

你需要注意的是,這個問題說的不是你有沒有使用好數據,而是說曾經你可以得到的數據現在無從獲得;或者這些數據無法在線上收集,只能從線下獲取,成本也相應提高了;抑或是,這些數據儲存在其他地方,你不能使用了。在諸如此類的情況下,你該怎麼辦?

當然,如果你對於數據的使用本來就很生疏,而且也覺得無關緊要,那麼數據鏈消失、失效、斷了,你也不會有太大煩惱。但假如你使用數據正得心應手,如果出現這樣的問題,你也只能束手無策,眼睜睜地看著機會溜走。

大數據從來不是免費的午餐。關於大數據的新問題層出不窮——大數據會夾雜虛假資訊;大數據的數據量很大,但有用的資訊不一定多,甚至還會破壞核心資訊;大數據的來源是多管道的,偏倚、隨機的誤差總是存在。

但是,我們也需要客觀認識到,大數據現在面臨的這些問題,其實就是把小數據中的一些問題放大了。小數據中難道就沒有噪音會破壞我們的核心資訊嗎?當然也有,只不過當大數據把數據量放大和變多的時候,噪音的破壞性也相應增大。小數據中難道就沒有管道偏倚和隨機的問題嗎?當然也有,但是在大數據的背景下,問題就被更明顯的放大。

大數據的斷層
說了這麼多,還沒有觸碰到如今大數據面臨的最大問題:人。

很多人都會問,大數據能帶來什麼價值?如何衡量大數據創造的價值?事實上,最直接的衡量標準就是,在經營上大數據為你賺了多少錢,帶來多少實際的利潤提升。

對於這個問題的解決,現在很多人最傾向使用的方法是計算「用了大數據之後,點擊率提高多少、轉換率提高多少」。但是,轉換率和點擊率能提高的數據,可能根本不是投資人或公司最高管理者對大數據的期望。對業務人員來說,轉換率能提升5%就已經非常好,如果將轉換率從2%提高到3%,簡直就是奇蹟,但對於公司最高管理者來說,也許這並不是他想要的大數據。

你需要認識到,斷層才是大數據所面臨最嚴重的問題。現在,收集數據的人並不清楚未來使用數據的人要做什麼,這是目前大數據的一大關鍵。

在使用大數據時,通常是先收集數據,因為我們知道在未來的某刻,這些數據對我們可能有用。不過,「未來可能有用」注定會引發一個問題——收集數據的人不知道未來使用數據的人要做什麼。這時候,如果你再問收集數據的人「如何才能更好收集數據」,數據的使用就會陷入一個僵局。

事實上,不僅是收集數據的人,就連設計數據模型的人,同樣也不清楚當前的數據如何獲得。設計數據模型是數據使用的關鍵過程,也就是根據以往的經驗,從中找尋潛在規則,再結合這些規則以解決問題。

大數據的關鍵思考
舉例來說,我現在身上只有10元,我可以買一本雜誌,也可以坐幾次公車,或者買泡麵充饑,這三種選擇在一般情況下都可行。但是,如果再加上一個「我沒有吃早餐」的場景時,在以上三種可能性中,我選擇吃泡麵的機率自然會比較大。這其實就是一個簡單的模型——輸入「擁有10元」和「沒有吃早餐,肚子餓」這兩個場景,輸出「買泡麵」這個結論,幫助我們快速選擇一條解決之路。

選擇「吃泡麵」的場景雖然看上去很簡單,但同樣是一個經驗的總結,這個經驗就是「肚子餓了要吃飯」。把設計數據模型這個過程說得更複雜或專業,就是基於很多過往的經驗總結,或者是發現舊有數據使用的規則,將經驗和數據相結合,最後輸出可以被套用的業務規則。

不過,此時負責設計數據模型的人,不一定完全清楚數據如何產生,這是客觀存在的難題。就大數據研究而言,很多時候使用他人的數據,而他人的數據又如何保證完全清楚了解?

現在,關於運用大數據,流行一個例子:我在搜尋引擎中發現某個地方搜尋「感冒藥」的頻率非常高,於是,就斷定這個地方可能出現流行性感冒。而這個數據來源從何而來?雖然知道很多人搜尋「感冒藥」,卻完全不知道在搜尋引擎中搜尋詞語的人是誰。而提供數據的人既沒有責任告訴我數據怎麼來、品質如何,更不必告知數據會不會有偏差。結果,研究數據的人完全不清楚數據的來源。

數據來源的不確定性
當使用模型的人不知道模型數據從何而來時,使用模型的角度會依情境而變。例如:今天你要到杭州的淘寶城,有人告訴你,「今天應該從文一西路過來。」你問原因,他回答說:「因為模型這樣提供路線。」他不會跟你解釋,因為下午2點到4點,從文一西路走比較快。此例就是模型使用的一個情境,選擇文一路則是模型的一項輸出。那你要不要走其他的路?走文二路或文三路?但,此選擇的結果就未知了。

模型對很多人來說是一個黑盒子,充滿神祕性和未知性。所以,即便是模型設計者將模型公開,也會因為設計者和使用者專業能力和知識背景的不同,使二者之間出現資訊不對稱的情況,使用者自然也就不知道為什麼會選用此種解決方法。也就是說,設計模型的人可能不知道此種模型效果好不好,而使用模型的人也不知道該如何回饋使用結果。如此一來,這種資訊不對稱會愈來愈嚴重。

這一問題恰恰體現了如今大數據實踐中非常嚴重的斷層問題——不只是收集數據的人不知道將來的人怎麼使用數據,就連設計模型的人也不知道自己所採用的數據在未來是否穩定,而使用模型的人也不知道數據的來源或加工過程,這些都是普遍存在且很現實的問題。

從公司管理層的角度來看,投資人了解數據的意義是什麼嗎?高階管理者對數據的期望和中階管理者之間又有什麼不同?他們知道數據能幫助企業做什麼嗎?這些問題的答案完全會因立場而異。

中階管理者大都不知道數據能幫助他們什麼,他們沒有管理者的視野,相較之下,只需要告訴他們,數據能解決什麼問題即可。相反,數據分析師可能會更加困惑不解:「我做了這麼多東西,為什麼你們不用?」

每個層級和功能部門都是個斷層,而且對數據價值的內在衡量都不一樣。所以,當我們講到數據價值時,沒有人能對此給出合理的定位,原因在於有幾個關鍵問題沒有區分清楚。一、這是誰心中的數據價值,投資人、管理者、中階管理者、數據分析師對數據的價值自然不同;二、數據的分類,不同類型數據所產生的價值各不相同。為什麼我們在大數據應用上存在障礙,一個重要的原因在於,應用人員對於數據價值和數據分類沒有明顯的界定。

更主動的管理和創新
在當下的大數據環境中,數據與商業模式密不可分,每個人都認識數據巨大的經濟價值,但今日的大數據發展趨勢之快,對很多公司而言,變得更加虛無縹緲,難以掌控,讓每個人抓狂、手足無措。

在這方面,阿里巴巴已經對數據化營運做了不少有益的嘗試。從2005年開始,淘寶有了第一個數據分析師,並一直致力於用數據說明企業營運和解決問題。但在不斷使用數據的同時,也發現了數據本身的問題——大數據需要更主動的管理,也需要更多的創新

數據化營運就是用數據解決問題,如果想把數據做得更好,解決更多新的問題,就需要去做一件從未做過的新事情——營運數據。對於阿里巴巴來說,這件事情是從2011年才有計劃的進行,企業主動收集數據,並且以此創造更優質的新數據,讓新數據更好服務於企業的營運。這是個「從用數據到養數據」的過程;也是個「從數據化營運到營運數據」的過程;更是一個「從看到真用」的過程。

從數據化營運到營運數據是一個循環,今天的電子商務企業正走到了其中的一個節點。在經歷了起初大數據的喧囂之後,大家終於感受到,要使大數據產生真正的商業價值,我們要關注的內容並非是海量數據規模(Volume)、快速的數據流轉和動態的數據體系(Velocity)、多樣的數據類型(Variety)和高數據價值(Value)這4個V那麼簡單,應該將焦點放在如何真正落實數據,提升數據化營運至商業管理的能力。〈本文選自全書,曾琳之 整理〉

作者:車品覺
中國大陸大數據實踐的先行者、數據觀察家。現任阿里巴巴集團數據技術及產品部副總裁、數據委員會會長。
擁有十多年豐富的數據實戰經驗,在實踐中形成了獨特的數據化思考方式,對電子商務未來趨勢有獨到見解。曾先後在滙豐銀行、香港電訊盈科、微軟、eBay等多家著名跨國公司擔任總監;曾任敦煌網首席產品官,創立第一個以外貿交易平台為核心的搜索引擎。
擁有多元化與國際化的教育背景。生於香港,在美國、英國、澳洲等地接受西方教育,曾於新南威爾斯大學、史丹佛大學、歐洲工商管理學院(INSEAD)商學院及清華大學經管學院等世界一流學院進修。

「桑珠助學」公益發起人,助學團隊迄今在甘孜資助的學生已達六百餘人。

出版:天下雜誌出版

書名:大數據的關鍵思考

目錄:

推薦序 用數據解決企業問題的高手 陳嘉鐘
管理者應用大數據的態度 洪小玲
各界推薦
自 序 遍地大數據的未來黃金十年
前 言 忘掉大數據

第1部 從數據化營運到營運數據

01 只會談大數據不會做
大數據關鍵思考:問題就是答案

02 還原使用者真實需求
大數據關鍵思考:CEO關心哪三項數據

03 「活」數據才是大數據
大數據關鍵思考:別再做「碰巧遊戲」

04 大數據的顛覆者──行動數據
大數據關鍵思考:樣本的偏見

05 什麼才是核心數據
大數據關鍵思考:用傻瓜的視角觀察

06 從用數據到養數據
大數據關鍵思考:遠離「或」選擇

07負面數據的力量
大數據關鍵思考:為什麼數據會騙人

第2部 阿里巴巴的大數據秘密

08 大數據實踐
大數據關鍵思考:先開槍後瞄準

09數據化營運三訣竅──混、通、曬
大數據關鍵思考:思考,要學會關窗口

10營運數據三絕招──存、管、用
大數據關鍵思考:用化骨綿掌解決本質問題

11 未來商業的利器
大數據關鍵思考:忽略趨勢,過去的價值一文不值

結語 開啟屬於個人的大數據管理
後記 像李小龍格鬥般思考
致謝 在修行的路上,不要單打獨鬥
附錄 回應台灣讀者的七大問題大數據,跟誰都有關係

延伸閱讀

投資教戰 造紙、水泥、資訊軟體業…受惠概念股盤點 碳權計費時代 三大族群長線甜

2024-04-02

5周瘦了10公斤!最適合長大後才變胖的人...耶魯醫學博士實證:近90%有效的瘦身術

2022-08-30

ESG永續台灣高峰會》碳有價時代來臨!蔡英文:以台灣科技優勢,在碳權新局中奪得永續先機

2024-03-18

2個月靠「生酮」減15公斤、維持6年不復胖!他直言瘦身常見2種NG行為:錯誤的自律還不如不要

2023-12-21

市場焦點 國內碳權交易 今年內做起來 產業覺醒 碳交所開課就秒殺

2024-04-02