在今天看見明天
熱門: 006208 00900 00896 天氣 AI

AI界的「偷襲珍珠港」!DeepSeek是什麼?40歲創辦人梁文鋒為何讓輝達、台積電ADR股價重挫,矽谷大佬害怕?

AI界的「偷襲珍珠港」!DeepSeek是什麼?40歲創辦人梁文鋒為何讓輝達、台積電ADR股價重挫,矽谷大佬害怕?

2025-01-27 17:32

編按:中國AI新星DeepSeek橫空出世,重擊矽谷!其強大的AI模型不僅引發科技圈震動,更在全球股市掀起波瀾。日美科技股受到衝擊,全面下挫,在台灣時間27日下午2點37分,美股夜盤輝達一度下挫6.56%、台積電ADR跌逾6.21%,博通也跌5.71%。

 

AI界的「偷襲珍珠港」:DeepSeek橫空出世

 

1月20日,總部位於杭州的AI公司「深度求索(DeepSeek)」發布了一個推理模型DeepSeek-R1,它在數學、程式碼及推理基準測試中,匹敵甚至超越矽谷最先進的模型——以數學和推理來說,DeepSeek-R1力壓OpenAI o1,程式編寫則不相伯仲。

 

然而最令矽谷科技龍頭大哥不安的是,R1的開發成本不到600萬美元,僅是Meta訓練Llama 3.1的十分之一。有人說,這是AI界的「偷襲珍珠港」,相信沒有誇張。

 

更令人嘖嘖稱奇的是,DeepSeek-R1完全開放源碼,提供免費網頁給你使用,還發表論文把所有技術細節、步驟都公之於世,沒留下「商業秘密」,作風比矽谷公司更透明。

 

也就是說,在創新技術、成本效益和開源透明三方面,DeepSeek這家中國公司都把美國科技巨頭比下去了。

 

更創新、更便宜、更透明!DeepSeek這家中國公司如何做到?

 

一開始,我不免懷疑當中是否有詐,因為這家公司的風格實在太不像「中國的樣子」了。

 

但這幾天,全球業界專家對DeepSeek都好評如潮,例如微軟CEO Satya Nadella上周三說:「看到DeepSeek的新模型,印象很深刻。他們切實有效開發出一款開源模型,推理計算表現出色,且超級計算效率極高。我們必須非常非常認真對待中國這些發展。」

 

無可否認,DeepSeek這次的確贏了漂亮一仗,為AI發展作出實實在在的貢獻。但他們是怎麼做到呢?先來看看DeepSeek的背景。

 

金融業起家、梁文鋒不到40歲財富自由「創辦DeepSeek出於科學好奇」

 

DeepSeek創始人梁文鋒(前排右)(取材自澎湃新聞)

▲DeepSeek創始人梁文鋒(前排右)(取材自澎湃新聞)

 

它的創辦人叫梁文鋒,是浙江大學電機工程系畢業生、通信工程碩士。

 

2015年,他跟拍檔創辦了對沖基金「幻方量化(High-Flyer)」,迅速在中國崛起,成為第一家籌集超過1000億元人民幣的量化對沖基金。

 

像梁文鋒這樣的中國企業家,未到四十歲已事業有成,實現財務自由,就算不退休,多數也只會繼續吃老本,留在comfort zone。

 

然而梁文鋒在2023年卻做了一個「另類」決定,就是轉行,由金融變科研:他將基金資源投入研究通用人工智慧,以建立自家品牌的尖端模型。

 

當年5月,梁文鋒接受媒體採訪時說:「幻方做大模型,跟量化和金融都沒有直接關係,我們獨建了一個名為深度求索的新公司來做這件事。我們要做的是通用人工智慧,也就是AGI,大型語言模型可能是通往AGI的必經之路,並且初步具備了AGI的特徵,所以我們會從大語言模型這裏開始。」

 

梁又說自己創立DeepSeek,主要出於科學好奇,而非追逐盈利,因為從商業角度看,它不值得,基礎科學研究的投資回報率都非常低。

 

DeepSeek聘僱原則「只招1%天才,做99%中國公司做不到的事」

 

有什麼樣的創辦人,就有什麼樣的公司——DeepSeek註定跟梁文鋒一樣,是中國的「異類」。

 

但光靠理想或好奇是不能成功的,梁的招人標準和管理方法才是關鍵。

 

梁文鋒的聘請原則,是只看能力,不問經驗,核心職位都由應屆和畢業一兩年的年輕人擔任。

 

至於衡量新人的能力,除了看院校背景(主要是清華、北大生),還看競賽成績,金獎以下都不用,「只招1%的天才,去做99%中國公司做不到的事情。」

 

所以這家只有139人的公司,可謂臥虎藏龍,人人身負絕技。

 

DeepSeek的成功之道「無為而治」

 

聘用的人也不一定來自電腦系。例如一名畢業於物理系的DeepSeek成員曾公開說,自己只是偶然一次自學電腦,「由於工作太前沿,幾乎沒有什麼參考資料,一切問題都是自己設計方案並實踐解決。」

 

DeepSeek還招聘過文科人才,職位叫「資料百曉生」,提供歷史、文化、科學等相關知識來源,以協助技術人員用高質素的文字資料擴充AGI模型的能力。

 

DeepSeek自成立以來,一直維持「淡化職級、極為扁平」的文化。成員根據具體目標分成不同研究小組,組內成員沒上下級關係,而是「自然分工」,各自負責最擅長的部分,遇到困難就一起討論。

 

梁文鋒說,自然分工的一個成果,就是孕育出令模型訓練成本大降的關鍵架構「MLA(多頭潛在注意力)」。

 

原來MLA最初只是一個年輕研究員的個人興趣,大家覺得它有潛力,就調動資源發展,結果建立奇功。

 

DeepSeek的成功之道,說穿了,就是「無為而治」,讓一群極聰明而有共同理念的人自由發展——這正是中國普遍缺乏的環境。

 

用低配版晶片執行複雜程式!美國禁令讓中國小天才被迫創新

 

除此之外,可能還要感謝美國在2022年10月開始制定的出口管制。

 

由於中國AI公司不能購入最先進的晶片,所以DeepSeek只能用那些低配版H800晶片,價錢比矽谷科技公司的晶片低一大截,無可避免壓低了成本。

 

硬件不如人,DeepSeek就必須想出更有效的方法來訓練模型。於是他們結合一系列工程技巧來改良模型架構,終於成功突破出口禁令下的技術瓶頸,以更少的運算資源,執行複雜的邏輯推理任務。這不但大幅節省成本,還無需使用最新晶片,完全顛覆了矽谷的既定思維。

 

從客觀效果來看,是美國禁令引爆了這群中國天才的小宇宙,令他們無可奈何地被迫創新,實在諷刺。

 

中國「異類」DeepSeek的成功  會是曇花一現?

 

中共說了多年的「多難興邦」終於有一次成真了,不過這是沒有「中國社會主義特色」的勝利。

 

DeepSeek的成功,到底是曇花一現抑或陸續有來,在這個瞬息萬變的時代,我不敢猜測。但有一點可肯定:這是國運之戰,而AI將是戰場

 

本文獲作者授權轉載,原文出處

延伸閱讀
馬斯克2025科技預言:AI 超越 80% 醫生、盲人重見光明、火星殖民計畫啟航
馬斯克2025科技預言:AI 超越 80% 醫生、盲人重見光明、火星殖民計畫啟航

2025-01-26

CPO市場上看3千億,聯鈞EPS雙倍漲!上銀、和樁…機器人題材也有料:新AI+高息ETF,14檔好股幫賺發財金
CPO市場上看3千億,聯鈞EPS雙倍漲!上銀、和樁…機器人題材也有料:新AI+高息ETF,14檔好股幫賺發財金

2025-01-22

台積電穩站C位,2025還有飛龍可以追?產業隊長張捷:智邦、台光電帶頭衝,3面向布局「新AI」
台積電穩站C位,2025還有飛龍可以追?產業隊長張捷:智邦、台光電帶頭衝,3面向布局「新AI」

2025-01-22

川普夠力!OpenAI、軟銀、甲骨文合資公司,砸5千億美元拓美AI基設…輝達參一腳超車蘋果登全球市值王
川普夠力!OpenAI、軟銀、甲骨文合資公司,砸5千億美元拓美AI基設…輝達參一腳超車蘋果登全球市值王

2025-01-22

力積電股價腰斬再腰斬,5天漲22%破底翻能追?傳獲台積電認證變輝達概念股:黃崇仁真是「九命怪貓」
力積電股價腰斬再腰斬,5天漲22%破底翻能追?傳獲台積電認證變輝達概念股:黃崇仁真是「九命怪貓」

2025-01-20