編按:武安侯魅力無法擋,《逐玉》話題持續延燒!但追劇的同時也讓人好奇,為何Netflix總能推薦符合個人喜好的內容呢?事實上,平台並非真正「認識」你,而是透過巧妙的統計資訊,找到你和熱播劇的「相關性」。
Netflix 推播我會喜歡《布托》(Bhutto)這部片子:這是一部紀錄片,會切入「深入而且有時很煽動的觀點,檢視前巴基斯坦總理班娜姬.布托(Benazir Bhutto)的人生及她悲劇性的死亡。」我確實把這部片加入我的播放清單,事實上, Netflix 推薦給我的電影向來很棒,就我已經看過的推薦影片來說,通常都是我真的很喜歡的片子。
Netflix 怎麼辦到的?他們的企業總部是不是有大量的實習生,使用Google搜尋並訪談我的家人朋友,綜合起來判定我可能會喜歡一部講巴基斯坦前總理的紀錄片?當然不是。Netflix 只是非常精通某些巧妙的統計。Netflix不認識我,但是知道我過去喜歡哪些影片,因為我有留下評分,只要利用這項資訊,再加上其他顧客的評分與一部強力的電腦,Netflix就可以非常精準地預測我的影片品味。以上的重點就是,這一切都是以相關性為憑據。
衡量兩種現象彼此的相關程度
Netflix 會推薦的影片,是和我喜歡的其他影片很類似的影片,以及評分模式跟我相似的其他顧客評為高分的影片。平台推薦《布托》,是因為我給了另外兩部紀錄片五顆星:《安隆風暴》(Enron: The Smartest Guys in the Room)和《戰爭迷霧》(Fog of War)。
相關性(correlation)衡量兩種現象彼此的相關程度。舉例來說,夏天的氣溫和冰淇淋銷量之間有相關性,一個上升,另外一個也跟著起來。如果一個變數的變動和另一個變數的變動同方向,這兩個變數叫正相關(positively correlated),比方說身高和體重之間的關係。高的人比較重(平均而言),矮的人比較輕。如果一個變數的正向變動和另一個變數的負向變動相關,這兩個變數就是負相關(negatively correlated),比方說運動和體重之間的關係。
這種關係的微妙之處是,不是每一個觀察點都可以套進關係裡。有些矮的人比高的人更重。有時候,不運動的人比一直運動的人更苗條。然而,體重和身高、運動和體重之間仍有著有意義的關係。
如果我們把一群隨機抽樣的美國成人身高體重畫出點狀散布圖,可以預期會看到如圖4-1所示。
然而,用包含了分散在整個頁面上的散布點的模式來看,實在是不太好用的工具,如果Netflix試著畫出千百萬顧客給幾千部影片的評分分布狀況來為我推薦電影,這些點狀圖會多到把他們的企業總部都埋藏起來,很難從中挖出結論。反之,我們可以把相關性當成一種統計工具,其威力就在於我們可以把兩個變數之間的關係濃縮為單一的描述性統計量:相關係數(correlation coefficient)。

相關係數的兩大吸引力
相關係數有兩個極具吸引力的特色。第一,這是一個範圍從-1到1的數字。如果相關係數為1,通常說成是完全正相關(perfect correlation),代表一個變數的任何變動會導致另一個變數發生「同向且相等」的變動。相關係數為-1,或者說是完全負相關,代表一個變數的任何變動都會導致另一個變數發生「反向但相等」的變動。
愈接近1或-1,兩者的關係愈強烈。相關性為0(或接近0),代表變數之間並無太多有意義的關係,比方說鞋子的尺碼和升學考試分數的相關性。
相關係數第二個迷人的特質,是沒有單位的問題。就算身高是用英寸為單位、體重是以磅為單位,我們還是可以計算身高和體重的相關性。
怎麼辦到的?
轉換所有數據,每一個觀察點都用和均數之間的距離(標準差)來表示。假設樣本的平均身高是66英寸(標準差為5英寸),平均體重是177磅(標準差是10 磅),現在,假設你身高是72英寸,體重是168磅。我們也可以說你的身高比平均數高了1.2個標準差 ([72-66]/5),體重比平均數低了0.9個標準差,這就是讓單位消失的辦法。
有了以上觀念,我們回頭來看Netflix推薦電影的事件上。
我在幾天前開始寫這一章,之後剛好有機會看《布托》這部紀錄片。哇!這真是一部講述一個了不起家庭的了不起電影。反正,我給了這部影片五顆星,Netflix大概也預期到了。
你的五顆星出賣你的心
從最根本的層次來說,Netflix是極盡能事利用相關性的概念。一開始,我給了一些電影評分。Netflix拿我的評分和其他顧客比較,看看哪些人的評分和我的很有相關性,這些顧客很可能也喜歡我喜歡的電影。比對出來之後,Netflix可以把我還沒看過、但其他和我興趣相同的顧客評分高的電影推薦給我。
這是背後的「大局」,實際上的方法複雜多了。事實上,2006 年時Netflix 舉辦一場比賽,邀請大眾設計出至少能將Netflix 現有推薦結果強化10%的機制,也就是說,系統在預測一位顧客觀影之後會給電影多高的評等時,準確程度可以提高10%。優勝者會贏得100萬美元獎金。
2009 年Netflix 宣布優勝名單:是一個由來自美國、奧地利、加拿大和以色列的統計學家和電腦科學家組成的7人團隊。Netflix 這套推薦的品質讓我大為嘆服。同樣的,這套系統雖然超級炫,但也還是根據自電影問世以來人們都在做的事稍做變化:找到品味類似的人,請對方推薦。你多半喜歡我喜歡的,不喜歡我不喜歡的。
這就是相關性的本質。
