編按:中國AI新星DeepSeek橫空出世,重擊矽谷!其強大的AI模型不僅引發科技圈震動,更在全球股市掀起波瀾。日美科技股受到衝擊,全面下挫,在台灣時間27日下午2點37分,美股夜盤輝達一度下挫6.56%、台積電ADR跌逾6.21%,博通也跌5.71%。
AI界的「偷襲珍珠港」:DeepSeek橫空出世
1月20日,總部位於杭州的AI公司「深度求索(DeepSeek)」發布了一個推理模型DeepSeek-R1,它在數學、程式碼及推理基準測試中,匹敵甚至超越矽谷最先進的模型——以數學和推理來說,DeepSeek-R1力壓OpenAI o1,程式編寫則不相伯仲。
然而最令矽谷科技龍頭大哥不安的是,R1的開發成本不到600萬美元,僅是Meta訓練Llama 3.1的十分之一。有人說,這是AI界的「偷襲珍珠港」,相信沒有誇張。
更令人嘖嘖稱奇的是,DeepSeek-R1完全開放源碼,提供免費網頁給你使用,還發表論文把所有技術細節、步驟都公之於世,沒留下「商業秘密」,作風比矽谷公司更透明。
也就是說,在創新技術、成本效益和開源透明三方面,DeepSeek這家中國公司都把美國科技巨頭比下去了。
更創新、更便宜、更透明!DeepSeek這家中國公司如何做到?
一開始,我不免懷疑當中是否有詐,因為這家公司的風格實在太不像「中國的樣子」了。
但這幾天,全球業界專家對DeepSeek都好評如潮,例如微軟CEO Satya Nadella上周三說:「看到DeepSeek的新模型,印象很深刻。他們切實有效開發出一款開源模型,推理計算表現出色,且超級計算效率極高。我們必須非常非常認真對待中國這些發展。」
無可否認,DeepSeek這次的確贏了漂亮一仗,為AI發展作出實實在在的貢獻。但他們是怎麼做到呢?先來看看DeepSeek的背景。
金融業起家、梁文鋒不到40歲財富自由「創辦DeepSeek出於科學好奇」
▲DeepSeek創始人梁文鋒(前排右)(取材自澎湃新聞)
它的創辦人叫梁文鋒,是浙江大學電機工程系畢業生、通信工程碩士。
2015年,他跟拍檔創辦了對沖基金「幻方量化(High-Flyer)」,迅速在中國崛起,成為第一家籌集超過1000億元人民幣的量化對沖基金。
像梁文鋒這樣的中國企業家,未到四十歲已事業有成,實現財務自由,就算不退休,多數也只會繼續吃老本,留在comfort zone。
然而梁文鋒在2023年卻做了一個「另類」決定,就是轉行,由金融變科研:他將基金資源投入研究通用人工智慧,以建立自家品牌的尖端模型。
當年5月,梁文鋒接受媒體採訪時說:「幻方做大模型,跟量化和金融都沒有直接關係,我們獨建了一個名為深度求索的新公司來做這件事。我們要做的是通用人工智慧,也就是AGI,大型語言模型可能是通往AGI的必經之路,並且初步具備了AGI的特徵,所以我們會從大語言模型這裏開始。」
梁又說自己創立DeepSeek,主要出於科學好奇,而非追逐盈利,因為從商業角度看,它不值得,基礎科學研究的投資回報率都非常低。
DeepSeek聘僱原則「只招1%天才,做99%中國公司做不到的事」
有什麼樣的創辦人,就有什麼樣的公司——DeepSeek註定跟梁文鋒一樣,是中國的「異類」。
但光靠理想或好奇是不能成功的,梁的招人標準和管理方法才是關鍵。
梁文鋒的聘請原則,是只看能力,不問經驗,核心職位都由應屆和畢業一兩年的年輕人擔任。
至於衡量新人的能力,除了看院校背景(主要是清華、北大生),還看競賽成績,金獎以下都不用,「只招1%的天才,去做99%中國公司做不到的事情。」
所以這家只有139人的公司,可謂臥虎藏龍,人人身負絕技。
DeepSeek的成功之道「無為而治」
聘用的人也不一定來自電腦系。例如一名畢業於物理系的DeepSeek成員曾公開說,自己只是偶然一次自學電腦,「由於工作太前沿,幾乎沒有什麼參考資料,一切問題都是自己設計方案並實踐解決。」
DeepSeek還招聘過文科人才,職位叫「資料百曉生」,提供歷史、文化、科學等相關知識來源,以協助技術人員用高質素的文字資料擴充AGI模型的能力。
DeepSeek自成立以來,一直維持「淡化職級、極為扁平」的文化。成員根據具體目標分成不同研究小組,組內成員沒上下級關係,而是「自然分工」,各自負責最擅長的部分,遇到困難就一起討論。
梁文鋒說,自然分工的一個成果,就是孕育出令模型訓練成本大降的關鍵架構「MLA(多頭潛在注意力)」。
原來MLA最初只是一個年輕研究員的個人興趣,大家覺得它有潛力,就調動資源發展,結果建立奇功。
DeepSeek的成功之道,說穿了,就是「無為而治」,讓一群極聰明而有共同理念的人自由發展——這正是中國普遍缺乏的環境。
用低配版晶片執行複雜程式!美國禁令讓中國小天才被迫創新
除此之外,可能還要感謝美國在2022年10月開始制定的出口管制。
由於中國AI公司不能購入最先進的晶片,所以DeepSeek只能用那些低配版H800晶片,價錢比矽谷科技公司的晶片低一大截,無可避免壓低了成本。
硬件不如人,DeepSeek就必須想出更有效的方法來訓練模型。於是他們結合一系列工程技巧來改良模型架構,終於成功突破出口禁令下的技術瓶頸,以更少的運算資源,執行複雜的邏輯推理任務。這不但大幅節省成本,還無需使用最新晶片,完全顛覆了矽谷的既定思維。
從客觀效果來看,是美國禁令引爆了這群中國天才的小宇宙,令他們無可奈何地被迫創新,實在諷刺。
中國「異類」DeepSeek的成功 會是曇花一現?
中共說了多年的「多難興邦」終於有一次成真了,不過這是沒有「中國社會主義特色」的勝利。
DeepSeek的成功,到底是曇花一現抑或陸續有來,在這個瞬息萬變的時代,我不敢猜測。但有一點可肯定:這是國運之戰,而AI將是戰場。
本文獲作者授權轉載,原文出處