&

　　一家人工智能初創企業淺淺扇動兩下翅膀，即掀起全球科技界的一陣“海嘯”。

　　短短30天，中國初創企業深度求索（DeepSeek）先后發布兩款性能比肩GPT-4o的大模型，“1/18的訓練成本、1/10的團隊規模、不分伯仲的模型性能”令硅谷大受震撼。

　　最新一期《經濟學人》封面文章第一時間讓位給這一土生土長的國產大模型：《低成本中國模型的成功動搖美國科技優勢》。很快，華爾街也同樣感受到了這種被動搖的震感。

　　事實上，這匹黑馬的貢獻絕非“低成本”這一個標簽所能概括。它不僅重新定義了大模型的生產函數，還將重新定義計算。

　　不論開源與閉源未來的優勢如何，這股沖擊波都將迫使全球科技界重新思考：當“規模定律”與“生態壁壘”不再絕對，什么才是下一賽季AI競爭的核心？或許我們能從中獲得新的啟示。

　　擊穿三大定式

　　1月下旬，DeepSeek在中區、美區蘋果App　Store下載榜單中登頂，超越ChatGPT、谷歌Gemini等全球頂尖科技巨頭研發的模型產品。具體而言，它顛覆了什么？

　　——打破“越強越貴”的成本詛咒

　　價格感人是讓DeepSeek快速出圈的第一個標簽。DeepSeek-R1的API服務定價為每百萬輸入tokens　1元（緩存命中）/4元（緩存未命中），每百萬輸出tokens　16元，而o1模型上述三項服務的定價分別是55元、110元、438元。

　　凡是使用過幾款大模型的用戶很快就能形成這樣一個共識：就推理能力而言，DeepSeek直逼OpenAI的o1、Meta的Llama-3等一流模型，甚至在回答問題之前還能給出它的推理過程和思考鏈路。AI投資機構Menlo　Ventures負責人Deedy對比谷歌Gemini和DeepSeek-R1后表示，DeepSeek-R1更便宜、上下文更長、推理性能更佳。低成本比肩o1模型，令硅谷的“燒錢模式”一時間遭到猛烈質疑。

　　然而在過去，大模型服務是標準的“一分錢一分貨”，想要用上更優性能的產品必須支付更高昂的費用，以覆蓋整個模型訓練過程中更高算力成本的支出。

　　——超越“性能-成本-速度”的不可能三角

　　當硅谷仍在為GPU萬卡集群豪擲千億資金時，一群土生土長的中國年輕人用557.6萬美元證明：AI大模型的比拼或許并不只靠規模，更重要的是看實際效果。有句話形象地概括出DeepSeek的優勢：“不是GPT用不起，而是DeepSeek更具性價比?！?/p>

　　傳統模型訓練，需要在性能、成本、速度之間權衡，其高性能的獲得，需要極高的成本投入、更漫長的計算時間。而DeepSeek重構了大模型的“成本-性能”曲線，同時壓縮了計算周期。

　　根據DeepSeek技術報告，DeepSeek-V3模型的訓練成本為557.6萬美元，訓練使用的是算力受限的英偉達H800　GPU集群。相比之下，同樣是開源模型的Meta旗下Llama-3.1模型的訓練成本超過6000萬美元，而OpenAI的GPT-4o模型的訓練成本為1億美元，且使用的是性能更加優異的英偉達H100　GPU集群。而使用過程中，DeepSeek給出反饋的時長也大部分控制在5秒至35秒之間，通過算法輕量化、計算效率最大化、資源利用率優化，成功壓縮了計算時間，降低了延遲。

　　——走出“參數膨脹”陷阱

　　ChatGPT橫空出世后700多天里，全球人工智能巨頭不約而同走上了一條“大力出奇跡”的“暴力美學”路線，參數越“煉”越大，給算力、數據、能耗帶來了極大壓力。很長一段時間，參數幾乎成為大模型廠商比拼的最大焦點。

　　而另辟蹊徑的DeepSeek恰巧處于對角線的另一端：并不盲目追求參數之大，而是選擇了一條通過探索更高效訓練方法以實現性能提升的“小而精”路線，打破了“參數膨脹”的慣性。

　　例如DeepSeek-R1（4B參數）在數學推理、代碼生成等任務上具有比肩70B參數模型（如Llama-2）的能力，通過算法優化、數據質量提升，小參數模型一樣能實現高性能，甚至能夠“四兩撥千斤”。

潘悅　制圖

　　實現三大躍升

　　“DeepSeek出圈，很好地證明了我們的競爭優勢：通過有限資源的極致高效利用，實現以少勝多。中國與美國在AI領域的差距正在縮小?！泵姹谥悄苁紫茖W家劉知遠說。

　　算力封鎖下的有力破局，得益于DeepSeek技術架構、數據策略、工程實踐三方面的關鍵突破。

　　——技術架構：重新定義參數效率

　　大模型的千億參數不應是冰冷的數字堆砌，而應是巧奪天工般地重組整合。

　　傳統大模型Transformer架構好比一條承載車輛的高速公路，當車輛（數據）數量足夠多的時候，每輛車必須和前后所有車溝通完成才能繼續行駛（計算），導致堵車（計算慢、能耗高）。而DeepSeek創新的架構則把一條串行的高速路，變成了一個輻射狀的快遞分揀中心，先把貨物（數據）按類型分類打包，再分不同路線同時出發開往不同目的地，每輛貨車（計算）只需選擇最短路徑。因此既能提高速度又能節約能耗。

　　——數據策略：質量驅動的成本控制

　　DeepSeek研發團隊相信，用“煉數據”取代“堆數據”，能使訓練更具效率。

　　傳統的數據策略好比去農場隨便采撿，常有價值不高的爛菜葉（低質量數據）。而DeepSeek創新的數據蒸餾技術，有針對性地篩選掉質量不高的爛菜葉：一方面自動識別高價值數據片段（如代碼邏輯推理鏈），相比隨機采樣訓練效率提升3.2倍，另一方面通過對抗訓練生成合成數據，將高質量代碼數據獲取成本從每100個tokens的0.8元降低至0.12元。

　　——工程實踐：架起“超級工廠”流水線

　　大模型傳統的訓練方式好比手工造車，一次只能裝配一臺，效率低下。而DeepSeek的3D并行相當于一方面通過流水線并行把造車流程拆分為10個步驟，同時組裝10輛車（數據分塊處理），另一方面通過張量并行，把發動機拆成零件，分給10個工廠同時生產（模型分片計算）。

　　至于推理過程，傳統模型好比現點現做的餐廳，客戶等菜時間長，推理過程慢。而DeepSeek采用的INT4量化，能把復雜菜品提前做成預制菜，加熱（計算）時間減半，口味損失不到5%，實現了大模型的低成本工業化。

　　超越技術的啟示

　　拆解DeepSeek的成功公式不難發現，通過底層架構創新降低AGI成本，同時以開源策略構建生態護城河，提供了中小型機構突破算力限制的可行路徑。此外，我們還能從中得到一些超越技術的啟示。

　　一直以來，驅動DeepSeek的目標并非利潤而是使命?！疤剿魑粗林场钡脑妇耙仓赶蛞环N與之匹配的極簡且清爽的組織架構。

　　一名人工智能科學家表示，在人工智能大模型領域，大廠、高校、傳統科研機構、初創公司在資源稟賦上其實各有優勢，但結構性的局限很難扭轉。DeepSeek這種類型的初創公司能很好地彌補其中的一個缺位——具有大工程能力、不受制于短視商業邏輯的創新定力、創業團隊扁平化組織機制帶來的絲滑流暢的協作度。

　　據不具名人士透露，其V3模型的關鍵訓練架構MLA就源于一位年輕研究員的個人興趣，經過研判后DeepSeek組建了專項團隊開展大規模驗證與攻關。而R1模型果斷調整強化學習路線，領先于其他機構實現了近似o1的推理能力，核心原因之一也歸功于其青年團隊對前沿技術的敏銳嗅覺與大膽嘗試。

　　“我們創新缺少的不是資本，而是信心，以及組織高密度人才的能力，調動他們高效地進行創造力與好奇心驅動的創新。”DeepSeek創始人梁文鋒說。

　　在DeepSeek身上，我們看到了皮克斯動畫工作室的影子。這個年輕的中國初創企業與那個創作27部長片有19部獲得奧斯卡最佳動畫、同樣以創新為鮮明標簽的組織，有著不謀而合的組織機制與范式選擇，以及由此帶來的高企的創新成功率與人才留存率。

　　不同于先發者略顯封鎖的護城堡壘，DeepSeek贏得贊譽的還有它的開源路線。將代碼、模型權重和訓練日志全部公開，不僅需要格局，更需要勇氣與實力。

　　“在顛覆性技術面前，閉源形成的護城河是短暫的。即使OpenAI閉源，也無法阻止被別人趕超?！绷何匿h這樣解釋選擇開源的原因，“開源、發論文，其實并不會失去什么。對于技術人員來說，被follow（追隨模仿）是很有成就感的事?！?/p>

　　從技術到愿景，DeepSeek堅定選擇的始終是一條難且正確的路。這也是為什么，即便別國在人工智能領域已坐享先發優勢，后發者依然有機會憑借技術創新、成本革命打破大模型競爭的傳統邏輯，打破人工智能行業競爭格局，打破“他國更擅長從0到1的原始創新，而中國更擅長從1到10的應用創新”的成見，重塑競爭優勢的奧秘。

　　北京時間2月1日凌晨，在OpenAI發布其推理系列最新模型o3-mini時，我們從中看到了一個熟悉的字眼：“Deep　research”。這是否是國產之光“被follow”的開端盡管不好斷言，但我們至少身體力行走出了一條“大力出奇跡”之外，另一條具有自主創新基因的制勝之道。

　　正如梁文鋒此前接受采訪時所說，“中國要逐步成為貢獻者，而不是一直‘搭便車’?！?/p>

首頁 >> 正文