Chien-Wei Chu

Chien-Wei Chu's Post

Chien-Wei Chu

對 NVIDIA 的影響推論非本人看法，但這篇針對 DeepSeek 的技術創新細節解釋的比絕大多數看到的文章詳細很多。

原文放留言

----

本文翻譯自 Jeffrey Emanuel 的文章 "The Short Case for Nvidia Stock"

作者是少數在投資以及 AI 兩個不同領域都有深入研究的人。曾經在避險基金有約 10 年的分析師經驗，研究報告在 Value Investors Club 也曾兩度獲獎。AI 方面非一線模型開發人員，但熟悉 AI 技術細節的演進，近年也有數個 AI 相關的開源專案。

----

作為一名在各種長短期對沖基金（包括在千禧年和巴利亞斯尼的工作經歷）擔任了約 10 年的通才投資分析師的人，同時也是一名自 2010 年以來一直在研究深度學習的數學和計算機迷（那時喬夫·辛頓還在談論限制玻爾茲曼機，所有東西仍然是用 MATLAB 編程，研究人員仍在努力證明他們能夠在手寫數字分類上獲得比支援向量機更好的結果），我想我對人工智慧技術的發展以及這與股市中的股權估值之間的關係有著相當不尋常的看法。

在過去幾年中，我更多地擔任開發人員，並擁有幾個流行的開源項目，用於處理各種形式的人工智慧模型/服務（例如，請參見LLM輔助 OCR、瑞士軍刀 Llama、快速向量相似性、源到提示和 Pastel 推理層等幾個最近的例子）。基本上，我每天都在以盡可能強烈的方式使用這些前沿模型。我有 3 個 Claude 帳戶，以免請求用完，並在可用的幾分鐘內註冊了 ChatGPT Pro。

我也努力跟上最新的研究進展，並仔細閱讀所有主要人工智慧實驗室發表的技術報告。因此，我認為我對這個領域及其發展有相當好的瞭解。與此同時，我在生活中做空了很多股票，並在價值投資者俱樂部獲得過兩次最佳創意獎（如果你在家裡跟蹤的話，分別是 TMS 多頭和 PDH 空頭）。

我這樣說不是為了自誇，而是為了幫助建立我的資格，讓我能夠對這個主題發表意見，而不會讓技術專家或專業投資者覺得我過於天真。雖然肯定有很多人對數學/科學瞭解得更好，也有比我更擅長股票市場的多空投資的人，但我懷疑有多少人能夠在這個維恩圖的中間，像我這樣自稱。

說到這裡，無論何時我與來自對沖基金界的朋友和前同事見面聊天，談話很快就會轉向 Nvidia。並不是每天都有一家公司從相對默默無聞變成市值超過英國、法國或德國股市總和的公司！而且，自然地，這些朋友想知道我對這個話題的看法。因為我對這項技術的長期變革性影響深信不疑——我真的相信它將在未來 5 到 10 年內徹底改變我們經濟和社會的幾乎每一個方面，幾乎沒有歷史先例——因此，我很難提出 Nvidia 的勢頭會在不久的將來放緩或停止的論點。

但即使我在過去一年左右認為這個估值對我來說實在太高，一些最近的發展使我稍微改變了我的通常直覺，即在展望上更加反向，並在共識似乎被過度定價時質疑它。那句話「智者一開始相信的，愚者最後相信」之所以出名是有原因的。

■ 牛市情景

在我們討論讓我感到猶豫的發展之前，讓我們暫時回顧一下 NVDA 股票的看漲論點，這基本上現在已經為每個人所知。深度學習和人工智慧是自互聯網以來最具變革性的技術，並且準備改變我們社會中的基本一切。Nvidia 不知怎的在訓練和推理基礎設施的總行業資本支出中，幾乎擁有了接近壟斷的地位。

一些世界上最大和最有利可圖的公司，如微軟、蘋果、亞馬遜、Meta、Google、甲骨文等，都已決定必須不惜一切代價在這個領域保持競爭力，因為他們根本無法承受被拋在後面的代價。資本支出金額、使用的電力千瓦時、新建數據中心的面積，以及當然還有 GPU 的數量，這些都絕對激增，似乎沒有放緩的跡象。而 Nvidia 能夠在最高端、以數據中心為導向的產品上獲得超高的 90%以上的毛利率。

我們在這裡僅僅觸及了牛市的表面。現在還有許多其他方面，使得即使是那些已經非常看好的人也變得更加看好。除了類似人形機器人崛起的事情，我懷疑當它們能迅速執行大量目前需要無技能（甚至有技能）人類工人完成的任務時，大多數人會感到驚訝（例如，洗衣、清潔、整理和烹飪；進行建設工作，如翻新浴室或在一組工人中建造房屋；運營倉庫和駕駛叉車等），還有其他大多數人甚至未曾考慮的因素。

你聽到聰明的人群談論的一個主要話題是「新擴展法則」的興起，這創造了一種新的範式，思考計算需求如何隨時間增加。原始的擴展法則，自 2012 年 AlexNet 出現和 2017 年 Transformer 架構被發明以來，一直推動著人工智慧的進步，是預訓練擴展法則：即我們能夠用作訓練數據的代幣越多（現在是數萬億），我們訓練的模型的參數數量越大，並且我們在這些代幣上訓練這些模型所消耗的計算量（FLOPS）越多，則最終模型在各種非常有用的下游任務上的表現就會越好。

不僅如此，這一改進在某種程度上是可知的，以至於像 OpenAI 和 Anthropic 這樣的領先 AI 實驗室對於他們最新模型的表現有相當好的預測，即使在實際訓練開始之前——在某些情況下，能夠將最終模型的基準預測到幾個百分點之內。這一「原始擴展法則」至關重要，但在用它來預測未來的人們心中總是引起一些懷疑。

首先，我們似乎已經耗盡了世界上積累的高質量訓練數據集。當然，這並不完全正確——仍然有許多舊書籍和期刊尚未被妥善數字化，即使它們已經數字化，也沒有適當的授權用作訓練數據。問題在於，即使你對所有這些東西給予了認可——比如從 1500 年到 2000 年所產生的“專業”英語書面內容的總和，當你談論近 15 萬億個標記的訓練語料庫時，這在百分比上並不是一個驚人的數量，這就是當前前沿模型的規模。

對於這些數字的快速現實檢查：Google圖書目前已數位化約 4000 萬本書；如果一本典型的書有 5 萬到 10 萬個單詞，或 6.5 萬到 13 萬個標記，那麼僅從書籍中就有大約 2.6 兆到 5.2 兆個標記，儘管其中很大一部分已經包含在大型實驗室使用的訓練語料庫中，無論這是否完全合法。而且還有很多學術論文，僅 arXiv 網站就有超過 200 萬篇論文。國會圖書館擁有超過 30 億頁數位化的報紙。綜合來看，這可能總共達到 7 兆個標記，但由於這些大部分實際上已包含在訓練語料庫中，剩餘的“增量”訓練數據在整體計劃中可能並不那麼重要。

當然，還有其他方法可以收集更多的訓練數據。例如，你可以自動轉錄每一個 YouTube 視頻，並使用這些文字。雖然這在某種程度上可能有幫助，但它的質量肯定比起一部受人尊敬的有機化學教科書作為有用知識的來源要低得多。因此，當談到原始的擴展法則時，我們一直面臨著一個迫在眉睫的「數據牆」；雖然我們知道可以不斷投入更多的資本支出到 GPU 中，並建造越來越多的數據中心，但大規模生產正確且對現有知識有增量貢獻的有用新的人類知識要困難得多。現在，對此的一個引人注目的回應是「合成數據」的興起，這是文字本身是LLM的輸出。雖然這似乎幾乎是荒謬的，認為「高供應自給自足」能改善模型質量，但實際上在實踐中似乎非常有效，至少在數學、邏輯和計算機編程的領域中。

原因當然是這些是我們可以機械地檢查和證明事物正確性的領域。因此，我們可以從可能的數學定理或可能的 Python 腳本的廣大宇宙中進行抽樣，然後實際檢查它們是否正確，只有在它們正確的情況下才將它們納入我們的語料庫。通過這種方式，我們可以在這些類型的領域中非常顯著地擴展我們的高質量訓練數據集。

然後還有我們可以用來訓練人工智慧的所有其他類型的數據，除了文字。例如，如果我們對一億人的整個基因組進行測序（對於單個人類來說，未壓縮約為 200 GB 到 300 GB）會怎樣？顯然這是一個龐大的數據量，儘管其中絕大多數在任何兩個人之間幾乎是相同的。當然，出於各種原因，將其與來自書籍和互聯網的文字數據進行比較可能會產生誤導：

原始基因組大小與標記數量無法直接比較

基因組數據的資訊內容與文字非常不同

高度冗餘數據的訓練價值並不明確

處理基因組數據的計算需求是不同的

但這仍然是另一個龐大的多樣化資訊來源，我們可以在未來對其進行大型模型的訓練，這就是我為什麼將其納入的原因。

因此，儘管在能夠捕捉越來越多的額外訓練數據方面有一些希望，但如果你看看近年來訓練語料庫的增長速度，很快就會明顯地發現，我們在“普遍有用”的知識數據可用性方面接近達到瓶頸，而這些知識可以使我們更接近最終目標，即獲得比約翰·馮·諾依曼聰明 10 倍的人工超智能，並且在所有人類已知的專業領域中都是絕對的世界級專家。

除了可用數據的有限量外，對於預訓練擴展法則的支持者來說，心中一直隱藏著幾個其他問題。其中一個主要問題是，在你完成模型訓練後，應該如何處理所有這些計算基礎設施？訓練下一個模型？當然可以這樣做，但考慮到 GPU 速度和容量的快速提升，以及電力和其他運營支出在經濟計算中的重要性，使用你那台已經兩年的叢集來訓練新模型是否真的有意義？你肯定更願意使用你剛建好的全新數據中心，因為它的成本是舊數據中心的 10 倍，並且因為更好的技術而強大 20 倍。問題是，在某個時候，你確實需要攤銷這些投資的前期成本，並通過一系列（希望是正的）運營利潤來收回，對吧？

市場對人工智慧的興奮程度如此之高，以至於它感謝地忽視了這一點，讓像 OpenAI 這樣的公司在獲得後續投資輪中獲得越來越驚人的估值的同時，發布了從創立以來的累計經營虧損（儘管值得一提的是，他們也能夠展示出非常快速增長的收入）。但最終，為了使這種情況在整個市場週期內可持續，這些數據中心的成本最終需要得到彌補，希望能夠獲利，並且隨著時間的推移，在風險調整的基礎上與其他投資機會具有競爭力。

■ 新範式

好的，那是預訓練的縮放法則。那麼這個「新」的縮放法則是什麼呢？其實這是人們在過去一年才開始關注的：推理時間計算縮放。在此之前，您在過程中所消耗的大部分計算都是用於創建模型的前期訓練計算。一旦您擁有了訓練好的模型，對該模型進行推理——即詢問問題或讓LLM為您執行某種任務——只需使用一定的、有限的計算量。

關鍵是，推理計算的總量（以各種方式測量，例如 FLOPS、GPU 內存佔用等）遠遠低於預訓練階段所需的量。當然，當你增加模型的上下文窗口大小和一次生成的輸出量時，推理計算的量確實會增加（儘管研究人員在這方面相對於最初預期的二次擴展做出了驚人的演算法改進）。但基本上，直到最近，推理計算通常比訓練計算要少得多，並且基本上與你處理的請求數量線性擴展——例如，對 ChatGPT 的文字補全需求越大，你所消耗的推理計算就越多。

隨著過去一年革命性思維鏈（"COT"）模型的出現，尤其是在 OpenAI 的旗艦 O1 模型中（但最近在 DeepSeek 的新 R1 模型中也有出現，我們稍後會更詳細地討論），一切都改變了。這些新的 COT 模型不再是推理計算量與模型生成的輸出文字長度成正比（隨著更大的上下文窗口、模型大小等而增加），而是還生成中間的“邏輯標記”；可以把這看作是模型在嘗試解決您的問題或完成其分配任務時的一種草稿或“內部獨白”。

這代表了推理計算工作方式的真正變革：現在，您在這個內部思考過程中使用的標記越多，您能提供給用戶的最終輸出質量就越好。實際上，這就像給人類工作者更多的時間和資源來完成任務，讓他們能夠對自己的工作進行多次檢查，以多種不同的方式執行相同的基本任務並驗證結果是否一致；將他們得出的結果“插入”公式中以檢查它是否真的解決了方程式，等等。

結果證明這種方法幾乎驚人地有效；它本質上是利用了所謂的「強化學習」的長期預期能力與 Transformer 架構的力量。它直接解決了否則極其成功的 Transformer 模型的最大弱點，即其「幻覺」的傾向。

基本上，Transformer 在每一步預測下一個標記的工作方式是，如果它們在初始回應中走上了一條糟糕的“路徑”，它們幾乎就像一個說謊的孩子，試圖編造一個故事來解釋為什麼它們實際上是正確的，即使它們應該在過程中使用常識意識到它們所說的根本不可能是正確的。

因為模型總是尋求內部一致性，並使每個生成的後續標記自然地從前面的標記和上下文中流出，因此它們很難進行修正和回溯。通過將推理過程分解為實際上許多中間階段，它們可以嘗試許多不同的事物，看看哪些有效，並不斷嘗試修正和嘗試其他方法，直到它們能夠達到相當高的信心閾值，確保它們不是在胡說八道。

這種方法最非凡的地方，除了它能運作之外，就是你使用的邏輯/COT 令牌越多，它的效果就越好。突然之間，你有了一個額外的調整選項，當你增加 COT 推理令牌的數量（這需要更多的推理計算，無論是在 FLOPS 還是記憶體方面）時，你給出正確回應的機率就越高——代碼第一次運行時沒有錯誤，或者邏輯問題的解決方案沒有明顯錯誤的推理步驟。

我可以從很多第一手經驗告訴你，儘管 Anthropic 的 Claude3.5 Sonnet 模型在 Python 編程方面非常出色——確實非常好——但每當你需要生成任何長且複雜的內容時，它總是會出現一個或多個愚蠢的錯誤。現在，這些錯誤通常相當容易修復，事實上，你通常可以通過簡單地將 Python 解釋器生成的錯誤作為後續推理提示來修復它們，而不需要進一步的解釋（或者，更有用的是，將你的代碼編輯器發現的完整“問題”集粘貼進去，使用某種稱為 Linter 的工具），但這仍然是一個令人煩惱的額外步驟。而當代碼變得非常長或非常複雜時，有時修復所需的時間會更長，甚至可能需要一些手動調試。

我第一次嘗試 OpenAI 的 O1 模型就像是一種啟示：我驚訝於代碼第一次就能完美的頻率。而這是因為 COT 過程會自動找到並修正問題，讓它們在模型給出的最終回應標記之前就得到解決。

事實上，OpenAI 的 ChatGPT Plus 訂閱中每月 20 美元使用的 O1 模型基本上與他們的新 ChatGPT Pro 訂閱中以 10 倍價格（每月 200 美元，這在開發者社群中引起了很多關注）所使用的 O1-Pro 模型相同；主要的區別在於 O1-Pro 在回應之前思考的時間更長，生成的 COT 邏輯標記數量大幅增加，並且每次回應所消耗的推理計算量也大得多。

這一點相當引人注目，即使是對 Claude3.5 Sonnet 或 GPT4o 的非常長且複雜的提示，提供約 400kb 以上的上下文，通常也只需不到 10 秒鐘就能開始回應，且經常少於 5 秒鐘。而對 O1-Pro 的相同提示則可能需要超過 5 分鐘才能得到回應（儘管 OpenAI 在您等待的過程中會顯示一些生成的“推理步驟”；關鍵是，OpenAI 出於商業機密相關的原因，決定隱藏其生成的確切推理標記，而是向您顯示這些的高度簡化摘要）。

如你所想，準確性至關重要的情境有很多——在這些情境中，你寧願放棄並告訴用戶你根本無法做到，而不是給出一個可能被輕易證明錯誤的答案，或者涉及虛構的事實或其他不可靠的推理。任何涉及金錢/交易、醫療事務、法律事務的情況，僅舉幾例。

基本上，無論在哪裡，推理的成本相對於與 AI 系統互動的人類知識工作者的每小時全包薪酬是微不足道的，這就是一個完全不需要思考的情況，可以提高 COT 計算（主要的缺點是這會大幅增加回應的延遲，因此在某些情境中，您可能仍然更喜歡通過獲得較低延遲的回應來更快地迭代，即使這些回應的準確性或正確性較低）。

在人工智慧領域中，幾週前傳出了令人興奮的消息，涉及 OpenAI 的新未發布 O3 模型，該模型能夠解決各種以前被認為是當前 AI 方法在短期內無法達成的任務。而它能夠解決這些最困難的問題（包括對於即使是高技能專業數學家來說也非常困難的“基礎”數學問題）的方式是，OpenAI 投入了大量的計算資源——在某些情況下，為瞭解決單一任務花費超過 3000 美元的計算能力（與傳統推理成本相比，使用常規的 Transformer 模型而不使用思維鏈的情況下，單一任務的成本不太可能超過幾美元）。

不需要人工智慧天才就能意識到這一發展創造了一種全新的擴展法則，這種法則與原始的預訓練擴展法則完全獨立。現在，你仍然希望通過巧妙地利用盡可能多的計算資源和盡可能多的高質量訓練數據的數萬億個標記來訓練出最佳模型，但這只是這個新世界故事的開始；現在，你可以輕鬆地使用驚人的計算量僅僅是為了從這些模型中進行推斷，以非常高的信心水平，或者在嘗試解決需要“天才級”推理的極其艱難的問題時，以避免所有可能的陷阱，這些陷阱會使普通的 LLM 偏離正軌。

■ 但為什麼 Nvidia 應該獲得所有的好處？

即使你和我一樣相信，人工智慧的未來前景幾乎是不可想像的光明，但問題仍然存在：「為什麼只有一家公司能從這項技術中提取大部分的利潤？」歷史上確實有許多重要的新技術改變了世界，但主要的贏家並不是在過程初期看起來最有前途的公司。萊特兄弟的飛機公司在今天許多不同公司的所有現有形式中，價值不超過 100 億美元，儘管他們在其他人之前就發明並完善了這項技術。而福特今天的市值雖然達到 400 億美元，但這僅僅是 Nvidia 當前市值的 1.1%。

要理解這一點，重要的是要真正瞭解為什麼 Nvidia 目前佔據了如此多的市場份額。畢竟，他們並不是唯一一家生產 GPU 的公司。AMD 生產的 GPU 在數據上是相當可觀的，擁有可比的晶體管數量，並使用類似的製程節點等等。當然，它們的速度和先進程度不如 Nvidia 的 GPU，但 Nvidia 的 GPU 並不是快 10 倍或類似的情況。事實上，就每 FLOP 的原始美元計算，AMD 的 GPU 價格大約是 Nvidia GPU 的一半。

查看其他半導體市場，例如 DRAM 市場，儘管該市場也高度集中，只有三個有意義的全球參與者（三星、美光、SK 海力士），但 DRAM 市場的毛利率範圍從週期底部的負值到週期頂部的約 60%，平均在 20%左右。與此相比，Nvidia 最近幾個季度的整體毛利率約為 75%，這是受到毛利較低且更商品化的消費者 3D 圖形類別的拖累。

那麼這是怎麼可能的呢？好吧，主要原因與軟體有關——更好的驅動程式在 Linux 上「正常運作」，並且經過高度測試且可靠（與 AMD 不同，後者以其 Linux 驅動程式的低品質和不穩定性而聞名），以及在流行庫如 PyTorch 中高度優化的開源代碼，這些代碼已經調整得非常適合在 Nvidia GPU 上運行。

不過這還不止於此——程序員用來編寫針對 GPU 優化的低級代碼的編程框架 CUDA，完全是 Nvidia 的專有技術，並且已經成為事實上的標準。如果你想僱用一群極具才華的程序員，他們知道如何讓東西在 GPU 上運行得非常快，並支付他們每年 65 萬美元或其他相應的薪資，那麼他們很可能會在 CUDA 中“思考”和工作。

除了軟體優勢，Nvidia 另一個主要的優勢是所謂的互連——本質上是將數千個 GPU 高效連接在一起的帶寬，以便它們可以共同用來訓練當今最前沿的基礎模型。簡而言之，高效訓練的關鍵是讓所有 GPU 隨時保持盡可能充分的利用——而不是等待閒置，直到它們接收到下一個需要計算訓練過程下一步的數據塊。

帶寬需求極高——遠遠高於傳統數據中心用例所需的典型帶寬。你無法真正使用傳統的網絡設備或光纖來進行這種互連，因為這會引入過多的延遲，並且無法提供保持所有 GPU 持續運行所需的純每秒數 TB 的帶寬。

Nvidia 在 2019 年做出了一個非常明智的決定，以僅 69 億美元收購以色列公司 Mellanox，而這次收購為他們提供了行業領先的互連技術。請注意，互連速度對於訓練過程的相關性遠高於推理過程（包括 COT 推理），因為在訓練過程中需要同時利用成千上萬的 GPU 的輸出，而推理過程則只需使用少數幾個 GPU——所需的只是足夠的 VRAM 來存儲已訓練模型的量化（壓縮）模型權重。

所以這些可以說是英偉達「護城河」的主要組成部分，以及它如何能夠長期維持如此高的利潤率（還有一個「飛輪」的方面，他們積極將超常利潤投入大量的研發，這反過來幫助他們以比競爭對手更快的速度提升技術，因此在原始性能方面始終保持領先）。

但正如之前所指出的，顧客真正關心的，其他條件相同的情況下，是每美元的性能（包括設備的前期資本支出成本和能源使用，因此是每瓦特的性能），儘管 Nvidia 的 GPU 無疑是最快的，但在以 FLOPS 的方式簡單衡量時，它們的性價比並不是最好的。

但問題是，所有其他事情並不相等，AMD 的驅動程式表現不佳，流行的人工智慧軟體庫在 AMD GPU 上運行得不如預期，除了遊戲領域外，你無法找到真正專精於 AMD GPU 的優秀專家（為什麼他們要費心，市場上對 CUDA 專家的需求更大？），你無法有效地將數千個 AMD GPU 連接在一起，因為 AMD 的互連技術不佳——所有這些意味著 AMD 在高端數據中心領域基本上沒有競爭力，並且在短期內似乎也沒有很好的前景。

好吧，這一切聽起來對 Nvidia 非常樂觀，對吧？現在你可以看到為什麼這支股票的估值如此之高！但還有哪些潛在的風險呢？我認為有幾個值得關注的因素。有些在過去幾年中一直潛伏在背景中，但由於市場增長迅速，它們的影響力太小，現在它們準備可能向上發展。其他則是非常近期的發展（例如，過去兩週），可能會顯著改變短期內增量 GPU 需求的走向。

■ 主要威脅

在非常高的層面上，你可以這樣想：Nvidia 在很長一段時間內運營在一個相當小眾的領域；他們的競爭非常有限，而競爭對手並沒有特別盈利或增長得足夠快，從而對像 Nvidia 這樣的市場領導者構成真正的威脅，因為他們沒有足夠的資本來真正對市場施加壓力。遊戲市場龐大且在增長，但並沒有出現驚人的利潤率或特別驚人的年增長率。

幾家大型科技公司在 2016-2017 年左右開始加大對機器學習和人工智慧的招聘和支出，但對於它們來說，這從來不是一個真正重要的項目——更像是一項“登月計劃”的研發支出。然而，隨著 2022 年 ChatGPT 的發布，真正的人工智慧競賽開始了——雖然距今只有兩年多，但在發展的角度看，似乎已經過了很久——這種情況發生了非常劇烈的變化。

突然，大公司準備以驚人的速度花費數十億美元。出現在大型研究會議如 Neurips 和 ICML 的研究人員數量急劇增加。所有可能之前研究金融衍生品的聰明學生，現在則在研究 Transformer，而在頂尖的 AI 實驗室中，非執行工程職位（即不管理團隊的獨立貢獻者）的薪酬套餐達到 100 萬美元以上已成為常態。

改變一艘大型郵輪的方向需要一段時間；即使你動作非常快並花費數十億，建造全新的數據中心和訂購所有設備（隨著交貨時間的延長）也需要一年或更長的時間，並將其全部設置並運行。即使是聰明的程式設計師，在他們真正進入狀態並熟悉現有的代碼庫和基礎設施之前，招聘和入職也需要很長時間。

但現在，你可以想像在這個領域投入了絕對聖經般的資本、智慧和努力。而 Nvidia 背上有著任何參與者中最大的目標，因為他們是今天獲得大部分利潤的公司，而不是在某個假設的未來，人工智慧主導我們整個生活的情況下。

所以非常高層次的結論基本上是「市場總能找到方法」；它們找到替代的、徹底創新的新方法來構建硬體，利用全新的想法來繞過有助於維持 Nvidia 護城河的障礙。

■ 硬體層級威脅

例如，所謂的 Cerebras 的“晶圓規模”AI 訓練晶片，將整個 300mm 的矽晶圓專用於一個絕對龐大的晶片，該晶片在單一晶片上包含了數量級更多的晶體管和核心（請參見他們最近的部落格文章，解釋他們如何能夠解決過去阻礙這種方法經濟實用性的“良率問題”）。

為了讓這個觀點更清晰，如果將 Cerebras 最新的 WSE-3 晶片與 Nvidia 的旗艦數據中心 GPU H100 進行比較，Cerebras 晶片的總晶圓面積為 46,225 平方毫米，而 H100 僅為 814 平方毫米（而 H100 本身在行業標準中也被認為是一個巨大的晶片）；這是約 57 倍的差距！而且，Cerebras 晶片擁有約 900,000 個核心，而 H100 則有 132 個“流處理器”核心（當然，這些核心的尺寸較小，功能也少得多，但與之相比，這仍然是一個幾乎無法想像的龐大數字）。用更具體的對比來說，Cerebras 晶片在 AI 上下文中能夠達到單個 H100 晶片約 32 倍的 FLOPS。由於 H100 的售價接近 40,000 美元，你可以想像 WSE-3 晶片的價格並不便宜。

那麼這一切為什麼重要呢？好吧，Cerebras 並沒有試圖通過使用類似的方法來正面對抗 Nvidia，並試圖匹配 Mellanox 的互連技術，而是採用了徹底創新的方法來繞過互連問題：當所有東西都在同一個超大晶片上運行時，處理器之間的帶寬問題變得不那麼重要。你甚至不需要擁有相同級別的互連，因為一個超級晶片取代了大量的 H100。

而 Cerebras 晶片在 AI 推理任務中也表現得非常出色。事實上，您可以今天在這裡免費試用，並使用 Meta 非常受尊敬的 Llama-3.3-70B 模型。它的響應基本上是瞬時的，速度約為每秒 1,500 個標記。為了讓您更好地理解，根據與 ChatGPT 和 Claude 的比較，任何超過每秒 30 個標記的速度對用戶來說都感覺相對靈敏，即使每秒 10 個標記的速度也足夠快，您基本上可以在生成的同時閱讀響應。

Cerebras 也不是孤單的；還有其他公司，如 Groq（不要與 Elon Musk 的 X AI 訓練的 Grok 模型系列混淆）。Groq 採取了另一種創新的方法來解決相同的基本問題。他們並沒有直接與 Nvidia 的 CUDA 軟體堆疊競爭，而是開發了他們所稱的「張量處理單元」（TPU），專門設計用於深度學習模型需要執行的精確數學運算。他們的晶片圍繞一個稱為「確定性計算」的概念設計，這意味著，與傳統 GPU 不同，傳統 GPU 的運算時間可能會有所變化，他們的晶片每次都以完全可預測的方式執行運算。

這聽起來可能是一個小的技術細節，但它實際上對於晶片設計和軟體開發都有巨大的影響。因為時序是完全確定的，Groq 可以以傳統 GPU 架構無法實現的方式來優化他們的晶片。因此，他們在過去 6 個多月中展示了 Llama 系列模型和其他開源模型的推理速度超過每秒 500 個標記，遠遠超過傳統 GPU 設置的可能性。像 Cerebras 一樣，這今天就可以使用，您可以在這裡免費試用。

使用可比的 Llama3 模型和「推測解碼」，Groq 能夠每秒生成 1,320 個標記，與 Cerebras 相當，並且遠超過使用常規 GPU 的可能性。現在，你可能會問，當用戶似乎對 ChatGPT 感到相當滿意，該系統的運行速度不到 10% 時，達到每秒 1,000 多個標記的意義何在。事實是，這是重要的。當你獲得即時反饋時，這使得迭代速度大大加快，並且作為人類知識工作者不會失去專注。如果你通過 API 以編程方式使用該模型，而這正是需求日益增長的地方，那麼它可以啟用全新的應用類別，這些應用需要多階段推理（前一階段的輸出用作後續階段的提示/推理的輸入）或需要低延遲響應，例如內容審核、欺詐檢測、動態定價等。

但更根本的是，您能夠更快地處理請求，您就能更快地循環事物，並且能夠讓硬體保持更忙。雖然 Groq 的硬體非常昂貴，單台伺服器的價格在 200 萬到 300 萬美元之間，但如果您有足夠的需求讓硬體始終保持忙碌，則每個請求的成本最終會低得多。

就像 Nvidia 的 CUDA 一樣，Groq 的一大優勢來自於他們自己的專有軟體堆疊。他們能夠使用其他公司如 Meta、DeepSeek 和 Mistral 開發並免費釋出的相同開源模型，並以特殊的方式對其進行分解，使其能夠在他們特定的硬體上運行得更快。

像 Cerebras 一樣，他們採取了不同的技術決策來優化過程中的某些特定方面，這使他們能以根本不同的方式進行操作。在 Groq 的情況下，這是因為他們完全專注於推理層級的計算，而不是訓練：他們所有的特殊硬體和軟體只有在對已訓練模型進行推理時，才能提供這些巨大的速度和效率優勢。

但如果人們對下一個大型擴展法則感到興奮的是推理級計算——而如果 COT 模型最大的缺點是必須生成所有那些中間邏輯標記所引入的高延遲——那麼即使是一家僅進行推理計算的公司，但其速度和效率遠超過 Nvidia——在未來幾年內也能帶來嚴重的競爭威脅。至少，Cerebras 和 Groq 可以削弱市場對 Nvidia 在未來 2-3 年內收入增長的高期望，這些期望已經體現在當前的股權估值中。

除了這些特別創新但相對不知名的初創競爭對手外，還有一些來自 Nvidia 最大客戶的激烈競爭，他們一直在製造專門針對 AI 訓練和推理工作負載的定製矽片。這些客戶中最著名的可能是Google，自 2016 年以來一直在開發自己的專有 TPU。有趣的是，儘管它曾經短暫地將 TPU 銷售給外部客戶，但Google在過去幾年中一直將所有 TPU 用於內部，並且已經進入第六代 TPU 硬體。

亞馬遜還在開發名為 Trainium2 和 Inferentia2 的自定義晶片。儘管亞馬遜正在建設擁有數十億美元的 Nvidia GPU 的數據中心，但他們同時也在其他使用這些內部晶片的數據中心投資數十億。他們有一個叢集正在為 Anthropic 上線，擁有超過 40 萬個晶片。

亞馬遜因為完全搞砸了內部 AI 模型的開發而受到很多批評，浪費了大量的內部計算資源在最終不具競爭力的模型上，但定製硅片則是另一回事。再說一次，他們不一定需要自己的晶片比 Nvidia 的更好更快。他們需要的是自己的晶片足夠好，但以盈虧平衡的毛利率來生產，而不是 Nvidia 在其 H100 業務上獲得的約 90%以上的毛利率。

OpenAI 也宣佈了他們計劃建造自定義晶片，顯然他們（與微軟一起）是 Nvidia 數據中心硬體的最大用戶。如果這還不夠，微軟自己也宣佈了他們的自定義晶片！

蘋果，全球最有價值的科技公司，這幾年來一直超出預期，憑藉其高度創新和顛覆性的定製矽晶片運營，現在在每瓦性能方面完全超越了英特爾和 AMD 的 CPU，這是移動（手機/平板電腦/筆記本電腦）應用中最重要的因素。他們多年來一直在製造自己內部設計的 GPU 和“神經處理器”，儘管他們尚未真正展示這些晶片在其自定義應用之外的實用性，例如 iPhone 相機中使用的基於軟件的先進圖像處理。

雖然蘋果的重點似乎在其以移動為先、以消費者為導向的「邊緣計算」焦點上與這些其他參與者有些不同，但如果它最終在與 OpenAI 的新合約上花費足夠的資金以向 iPhone 用戶提供 AI 服務，你必須想像他們有團隊在研究製作自己的定製矽片以進行推理/訓練（儘管考慮到他們的保密性，你可能甚至永遠無法直接得知這一點！）。

現在，Nvidia 的超級擴展客戶基礎存在強烈的冪次法則分佈，少數幾個客戶佔據了高利潤收入的絕大部分。當這些 VIP 客戶中的每一位都在為 AI 訓練和推理專門打造自己的定製晶片時，應該如何看待這個業務的未來？

在思考這一切時，你應該記住一件非常重要的事情：Nvidia 主要是一家以知識產權為基礎的公司。他們不製造自己的晶片。製造這些令人難以置信的設備的真正特殊秘訣可以說更多來自台積電，實際的晶圓廠，以及 ASML，這家公司製造了台積電用來生產這些尖端製程晶片的特殊 EUV 光刻機。這一點至關重要，因為台積電會將他們最先進的晶片賣給任何來找他們的客戶，只要他們有足夠的前期投資並願意保證一定的產量。他們不在乎這是用於位元幣挖礦 ASIC、GPU、TPU、手機 SoC 等等。

儘管 Nvidia 的高級晶片設計師每年的收入頗高，但肯定有一些最優秀的設計師可以被其他科技巨頭以足夠的現金和股票吸引走。一旦他們擁有團隊和資源，他們可以在 2 到 3 年內設計出創新的晶片（或許甚至不會達到 H100 的 50%先進程度，但考慮到 Nvidia 的毛利率，仍然有足夠的空間可供發揮），而且多虧了台積電，他們可以使用與 Nvidia 完全相同的製程技術將這些晶片轉化為實際的矽片。

■ 軟體威脅

就像這些迫在眉睫的硬體威脅還不夠糟糕一樣，過去幾年在軟體領域出現了一些發展，雖然一開始進展緩慢，但現在正迅速增長，可能對 Nvidia 的 CUDA 軟體主導地位構成嚴重威脅。其中一個就是 AMD GPU 的可怕 Linux 驅動程式。還記得我們談到過 AMD 不知為何讓這些驅動程式多年來表現糟糕，卻仍然放棄了大量的利潤嗎？

好吧，有趣的是，臭名昭著的駭客喬治·霍茲（以青少年時期破解原始 iPhone 而聞名，目前是自駕創業公司 Comma.ai 和 AI 電腦公司 Tiny Corp 的首席執行官，該公司還製作開源的 tinygrad AI 軟體框架）最近宣佈他厭倦了處理 AMD 的糟糕驅動程式，並迫切希望能夠利用成本較低的 AMD GPU 在他們的 TinyBox AI 電腦中（這些電腦有多種型號，其中一些使用 Nvidia GPU，而另一些則使用 AMD GPU）。

好吧，他正在為 AMD GPU 製作自己的自定義驅動程序和軟件堆棧，並且沒有得到 AMD 本身的任何幫助；在 2025 年 1 月 15 日，他通過他公司的 X 帳戶發推文說：“我們距離完全主權的 AMD 堆棧只差一個組件，RDNA3 組合器。我們有自己的驅動程序、運行時、庫和模擬器。（總共約 12,000 行！）”考慮到他的過往記錄和技能，他們在接下來的幾個月內可能會讓這一切運行起來，這將為使用 AMD GPU 的各種應用程序帶來許多令人興奮的可能性，而目前公司感到必須支付 Nvidia GPU 的費用。

好的，這只是 AMD 的一個驅動程式，而且還沒有完成。還有什麼呢？嗯，還有一些其他的軟體領域影響更大。首先，現在許多大型科技公司和整個開源軟體社群正在進行一項大規模的協作努力，旨在製作更多通用的 AI 軟體框架，CUDA 只是眾多“編譯目標”之一。

也就是說，您使用更高級的抽象來編寫軟體，而系統本身可以自動將這些高級構造轉換為在 CUDA 上運行極其良好的超優化低級代碼。但因為這是在更高的抽象層次上完成的，所以它同樣可以輕鬆編譯成在來自各種供應商的許多其他 GPU 和 TPU 上運行極其良好的低級代碼，例如每個大型科技公司正在開發的大量定製晶片。

這些框架中最著名的例子是 MLX（主要由 Apple 贊助）、Triton（主要由 OpenAI 贊助）和 JAX（由 Google 開發）。MLX 特別有趣，因為它提供了一個類似 PyTorch 的 API，可以在 Apple Silicon 上高效運行，顯示這些抽象層如何使 AI 工作負載能夠在完全不同的架構上運行。與此同時，Triton 變得越來越受歡迎，因為它允許開發者編寫高性能代碼，這些代碼可以編譯以在各種硬體目標上運行，而無需瞭解每個平台的低級細節。

這些框架允許開發人員使用高效能的抽象一次編寫代碼，然後自動針對大量平台——這難道聽起來不是一種更好的做事方式，能讓你在實際運行代碼時擁有更多的靈活性嗎？

在 1980 年代，所有最受歡迎、最暢銷的軟體都是用手工調整的組合語言編寫的。例如，PKZIP 壓縮工具是手工製作的，以最大化速度，以至於用標準 C 程式語言編寫並使用當時最佳可用優化編譯器編譯的版本，速度可能只有手工調整的組合碼的一半。其他流行的軟體包，如 WordStar、VisiCalc 等也是如此。

隨著時間的推移，編譯器不斷變得更好，每當 CPU 架構發生變化（例如，從 Intel 發布 486，然後是 Pentium，等等），那種手工編寫的匯編代碼往往需要被丟棄並重寫，這是只有最聰明的程式設計師才能做到的（有點像 CUDA 專家在就業市場上與「普通」軟體開發人員的不同層次）。最終，情況趨於一致，以至於手工編寫的匯編代碼所帶來的速度優勢被能夠用高級語言如 C 或 C++ 編寫代碼的靈活性所大幅超越，在這種情況下，你依賴編譯器使代碼在給定的 CPU 上運行得非常優化。

如今，幾乎沒有新的代碼是用組合語言編寫的。我相信，出於類似的原因，AI 訓練和推理代碼也會最終發生類似的轉變：計算機擅長優化，而開發的靈活性和速度越來越成為更重要的因素——尤其是如果這也能讓你在硬體費用上大幅節省，因為你不需要不斷支付給 Nvidia 90%+利潤的“CUDA 稅”。

另一個你可能會看到劇變的領域是，CUDA 可能最終會成為一種更高層次的抽象——一種類似於 Verilog 的「規範語言」（用作描述晶片佈局的行業標準），熟練的開發者可以用來描述涉及大規模並行處理的高級演算法（因為他們已經熟悉它，這是非常精心構建的，它是通用語言等等），但然後不是像通常那樣將該代碼編譯以用於 Nvidia GPU，而是可以作為源代碼輸入到一個 LLM 中，該系統可以將其轉換為新 Cerebras 晶片、或新的 Amazon Trainium2、或新的 Google TPUv6 等所理解的任何低級代碼。這並不像你想的那麼遙遠；這可能已經在使用 OpenAI 最新的 O3 模型的範疇之內，並且在一兩年內肯定會普遍實現。

■ 理論威脅

或許在過去幾週中，最令人震驚的發展是之前提到的。那就是一個完全震撼 AI 界的消息，並且在 Twitter 上知情人士的討論中佔據了主導地位，儘管在任何主流媒體中完全沒有報導：一個名為 DeepSeek 的小型中國初創公司發布了兩個新模型，這些模型的性能水平基本上與 OpenAI 和 Anthropic 的最佳模型相當（超越了 Meta Llama3 模型和其他較小的開源模型參與者，如 Mistral）。這些模型被稱為 DeepSeek-V3（基本上是他們對 GPT-4o 和 Claude3.5 Sonnet 的回應）和 DeepSeek-R1（基本上是他們對 OpenAI 的 O1 模型的回應）。

為什麼這一切都如此震驚？首先，DeepSeek 是一家據報導員工不到 200 人的小型中國公司。故事是他們最初是一家類似於 TwoSigma 或 RenTec 的量化交易對沖基金，但在習近平對該領域進行打壓後，他們利用自己的數學和工程技術轉向人工智慧研究。誰知道這些是否真的屬實，或者他們是否僅僅是中共或中國軍方的某種幌子。但事實是，他們已經發布了兩份極其詳細的技術報告，分別是 DeepSeek-V3 和 DeepSeekR1。

這些是繁重的技術報告，如果你對線性代數不太瞭解，你可能不會理解太多。但你真正應該嘗試的是在這裡的 AppStore 上下載免費的 DeepSeek 應用程式，並使用 Google 帳戶登錄安裝它，然後試用一下（你也可以在這裡的 Android 上安裝它），或者直接在這裡的桌面電腦瀏覽器中試用。確保選擇“DeepThink”選項以啟用思維鏈（R1 模型），並請它用簡單的術語解釋技術報告的部分內容。

這將同時顯示幾個重要的事情：

這個模型絕對是合法的。關於人工智慧基準測試，有很多虛假的情況，這些測試經常被操控，使得模型在基準測試中看起來表現優異，但在現實世界的測試中卻表現糟糕。Google在這方面無疑是最糟糕的違規者，經常誇耀他們的LLMs有多麼驚人，但在任何現實世界的測試中，它們的表現糟糕到連最簡單的任務都無法可靠地完成，更不用說具有挑戰性的編碼任務了。這些 DeepSeek 模型並不是這樣——它們的回應是連貫的、引人入勝的，並且絕對與 OpenAI 和 Anthropic 的回應處於同一水平。

DeepSeek 不僅在模型質量上取得了深遠的進展，更重要的是在模型訓練和推理效率上。通過與硬體極為接近，並將幾種獨特且非常巧妙的優化層疊在一起，DeepSeek 能夠以極其高效的方式使用 GPU 訓練這些令人難以置信的模型。根據某些測量，效率比其他尖端模型高出約 45 倍。DeepSeek 聲稱訓練 DeepSeek-V3 的總成本僅略高於 500 萬美元。按照 OpenAI、Anthropic 等的標準，這絕對算不了什麼，這些公司在 2024 年早期為單一模型的訓練成本已經超過 1 億美元。

這怎麼可能？這家小小的中國公司怎麼能完全超越我們領先的人工智慧實驗室裡所有最聰明的頭腦，這些實驗室擁有 100 倍的資源、員工、薪資、資本、GPU 等？難道中國不是應該因為拜登對 GPU 出口的限制而受到重創嗎？好吧，細節相當技術性，但我們至少可以從高層次描述它們。DeepSeek 相對於 GPU 處理的貧乏，可能正是使他們更具創造力和聰明才智的關鍵因素，需求是創新的母親。

一項重大創新是他們複雜的混合精度訓練框架，讓他們在整個訓練過程中使用 8 位浮點數（FP8）。大多數西方人工智慧實驗室使用“全精度”32 位數字進行訓練（這基本上指定了在描述人工神經元輸出時可能的漸變數；FP8 中的 8 位讓你能夠存儲比你預期的更廣泛的數字範圍——它不僅限於 256 個不同大小的整數，而是使用巧妙的數學技巧來存儲非常小和非常大的數字——儘管自然上精度不如 32 位那麼高。）主要的權衡是，雖然 FP32 可以在巨大的範圍內存儲具有驚人精度的數字，但 FP8 犧牲了一些精度以節省內存並提高性能，同時仍然保持足夠的準確性以應對許多人工智慧工作負載。

DeepSeek 通過開發一個巧妙的系統來解決這個問題，該系統將數字分解為小的啟動塊和權重塊，並在網絡的關鍵點上戰略性地使用高精度計算。與其他實驗室先以高精度訓練然後再壓縮（在過程中損失一些質量）不同，DeepSeek 的原生 FP8 方法意味著他們在不妥協性能的情況下獲得了巨大的內存節省。當你在數千個 GPU 上進行訓練時，每個 GPU 的內存需求的這種劇烈減少意味著總體上需要的 GPU 數量大大減少。

另一個重大突破是他們的多標記預測系統。大多數基於 Transformer 的 LLM 模型通過逐個預測下一個標記來進行推理。DeepSeek 找到了在保持單標記預測質量的同時預測多個標記的方法。他們的方法在這些額外標記的預測上達到了約 85-90% 的準確率，這有效地將推理速度翻倍，而不會犧牲太多質量。巧妙之處在於他們保持了預測的完整因果鏈，因此模型不僅僅是在猜測——它是在進行結構化的上下文預測。

他們最具創新性的發展之一是他們所稱的多頭潛在注意力（MLA）。這在他們處理所謂的鍵值索引方面是一項突破，這基本上是個別標記在 Transformer 架構中的注意力機制中的表示方式。雖然這在技術術語上有點過於先進，但可以簡單地說，這些 KV 索引是在訓練和推理過程中 VRAM 的一些主要用途，也是為什麼你需要同時使用數千個 GPU 來訓練這些模型的部分原因——每個 GPU 的最大 VRAM 為 96GB，而這些索引會大量佔用這些內存。

他們的 MLA 系統找到了一種方法來存儲這些索引的壓縮版本，捕捉到基本資訊，同時使用更少的內存。精彩之處在於這種壓縮直接內置於模型學習的方式中——這不是他們需要進行的某個單獨步驟，而是直接內置於端到端的訓練流程中。這意味著整個機制是“可微分的”，並且能夠直接使用標準優化器進行訓練。所有這些工作都是因為這些模型最終找到的底層數據的表示維度遠低於所謂的“環境維度”。因此，儲存完整的 KV 索引是浪費的，即使這基本上是其他人所做的。

不僅僅是因為儲存了超過所需的數字而浪費了大量空間，這會大幅增加訓練的記憶體佔用和效率（再次減少訓練世界級模型所需的 GPU 數量），而且它實際上還可以改善模型質量，因為它可以像一個“正則化器”，迫使模型關注真正重要的內容，而不是利用浪費的容量來適應訓練數據中的噪音。因此，不僅可以節省大量記憶體，模型的表現甚至可能更好。至少，你不會因為巨大的記憶體節省而對性能造成重大影響，這通常是你在 AI 訓練中面臨的權衡。

他們還通過其 DualPipe 演算法和自定義通訊內核在 GPU 通訊效率方面取得了重大進展。該系統智能地重疊計算和通訊，仔細平衡這些任務之間的 GPU 資源。他們只需要大約 20 個 GPU 的流處理器（SMs）用於通訊，將其餘的留給計算。結果是 GPU 的利用率遠高於典型的訓練設置。

他們所做的另一件非常聰明的事情是使用被稱為混合專家（MOE） Transformer 架構，但在負載平衡方面有關鍵創新。正如您所知，AI 模型的大小或容量通常是通過模型所包含的參數數量來衡量的。參數只是一個數字，用來存儲模型的某些屬性；要麼是特定人工神經元相對於另一個的“權重”或重要性，要麼是根據上下文（在“注意力機制”中）特定標記的重要性等等。

Meta 最新的 Llama3 模型有幾種尺寸，例如：一個 10 億參數的版本（最小的），一個 70B 參數的模型（最常部署的），甚至還有一個巨大的 405B 參數模型。這個最大的模型對於大多數用戶的實用性有限，因為你需要在電腦中擁有價值數萬美元的 GPU，才能以可接受的速度進行推理，至少如果你以天真的全精度版本部署它。因此，圍繞這些開源模型的大多數實際使用和興奮感都集中在 8B 參數或高度量化的 70B 參數級別，因為這是可以適配消費級 Nvidia 4090 GPU 的，而你現在可以以不到 1,000 美元的價格購買。

那麼這一切有什麼重要性呢？從某種意義上說，參數數量和精度告訴你模型內部存儲了多少原始資訊或數據。請注意，我不是在談論推理能力，或者說模型的“智商”：事實證明，即使是參數數量相對謙遜的模型，在解決複雜邏輯問題、證明平面幾何定理、SAT 數學問題等方面也能展現出卓越的認知表現。

但是這些小模型不一定能告訴你斯丹達爾每一部小說中每一個情節轉折的每一個方面，而真正的大模型有可能做到這一點。這種極端知識的“成本”在於，這些模型在訓練和推理時變得非常笨重，因為你總是需要在 GPU 的 VRAM 中同時存儲這 405B 個參數（或無論參數數量是多少）中的每一個，以便進行任何推理。

MOE 模型方法的美在於，您可以將大模型分解為一組較小的模型，每個模型都知道不同的、非重疊（至少完全不重疊）的知識。DeepSeek 在這裡的創新是開發了一種所謂的“無輔助損失”負載平衡策略，該策略在不會像通常的負載平衡那樣導致性能下降的情況下，保持高效的專家利用率。然後，根據推理請求的性質，您可以智能地將推理路由到該組較小模型中的“專家”模型，這些模型最能回答該問題或解決該任務。

你可以大致將其視為一個由專家組成的委員會，他們各自擁有專門的知識領域：一位可能是法律專家，另一位是計算機科學專家，還有一位是商業策略專家。因此，如果有關於線性代數的問題出現，你不會把它交給法律專家。這當然是一個非常粗略的類比，實際上並不是這樣運作的。

這種方法的真正優勢在於，它允許模型包含大量知識而不會變得非常笨重，因為儘管所有專家的參數總數很高，但在任何給定時間內，只有一小部分這些參數是“活躍”的，這意味著您只需要在 VRAM 中存儲這小部分權重即可進行推理。在 DeepSeek-V3 的情況下，他們擁有一個絕對龐大的 MOE 模型，擁有 671B 參數，因此它比最大的 Llama3 模型還要大，但在任何給定時間內只有 37B 這些參數是活躍的——足以適應兩個消費級 Nvidia 4090 GPU 的 VRAM（總成本不到$2,000），而不需要一個或多個 H100 GPU，後者的價格大約是每個$40,000。

據傳言，ChatGPT 和 Claude 都使用 MoE 架構，一些洩漏的消息顯示 GPT-4 總共有 1.8 兆個參數，分佈在 8 個模型中，每個模型包含 2200 億個參數。儘管這比試圖將所有 1.8 兆個參數放入 VRAM 中要可行得多，但仍然需要多個 H100 級別的 GPU 來運行該模型，因為使用的內存量巨大。

除了已經描述的內容，技術論文還提到幾個其他關鍵的優化措施。這些包括他們極其節省內存的訓練框架，避免張量並行，在反向傳播過程中重新計算某些操作而不是存儲它們，並在主模型和輔助預測模塊之間共享參數。所有這些創新總和，當層疊在一起時，導致了在線上流傳的約 45 倍的效率提升數字，我完全願意相信這些數字是正確的。

一個非常強烈的指標顯示這是真的，那就是 DeepSeek 的 API 成本：儘管這幾乎是最佳的模型性能，DeepSeek 對其 API 的推理請求收取的費用比 OpenAI 和 Anthropic 的可比模型低了大約 95%。在某種意義上，這有點像將 Nvidia 的 GPU 與競爭對手的新定製晶片進行比較：即使它們的性能不完全相同，性價比卻好得多，根據應用情況，這仍然可以是個明智的選擇，只要你能夠確定性能水平並證明它足夠滿足你的需求，並且 API 的可用性和延遲也足夠好（到目前為止，人們對 DeepSeek 的基礎設施在這些新模型的驚人需求激增下的表現感到驚訝）。

但與 Nvidia 的情況不同，Nvidia 的成本差異是因為他們在數據中心產品上獲得了 90%以上的壟斷毛利率，而 DeepSeek API 相對於 OpenAI 和 Anthropic API 的成本差異可能僅僅是它們的計算效率幾乎高出 50 倍（在推理方面可能甚至更高——約 45 倍的效率是在訓練方面）。事實上，OpenAI 和 Anthropic 是否在其 API 服務上獲得了良好的利潤尚不清楚——他們可能更關心收入增長以及通過分析他們收到的所有 API 請求來收集更多數據。

在繼續之前，我必須提到許多人正在猜測 DeepSeek 只是謊稱他們用於訓練這些模型的 GPU 數量和 GPU 小時，因為他們實際上擁有的 H100 數量遠超過他們應該擁有的，考慮到這些卡的出口限制，他們不想給自己帶來麻煩或損害獲得更多這些卡的機會。雖然這確實有可能，但我認為他們說的更可能是真話，他們只是通過在訓練和推理方面採取極其聰明和創造性的方法來實現這些驚人的結果。他們解釋了他們的做法，我懷疑這只是時間問題，直到他們的結果被其他實驗室的研究人員廣泛複製和確認。

■ 一個真正能思考的模型

較新的 R1 型號和技術報告可能會更加令人震驚，因為他們能夠在思維鏈方面超越 Anthropic，現在基本上是除了 OpenAI 之外唯一能夠在大規模上實現這項技術的公司。但請注意，O1 預覽模型僅在 2024 年 9 月中旬由 OpenAI 發布。那才大約是四個月前！你必須牢記的一點是，與 OpenAI 不同，後者對這些模型在低層次上如何運作非常保密，並且不會向除微軟等簽署嚴格保密協議的合作夥伴以外的任何人發布實際的模型權重，這些 DeepSeek 模型則完全是開源的並且具有寬鬆的許可證。他們發布了極其詳細的技術報告，解釋了它們的工作原理，以及任何人都可以查看和嘗試複製的代碼。

使用 R1，DeepSeek 基本上破解了人工智慧的一個聖杯：讓模型在不依賴大量監督數據集的情況下逐步推理。他們的 DeepSeek-R1-Zero 實驗顯示了令人矚目的成果：通過純粹的強化學習和精心設計的獎勵函數，他們成功地讓模型完全自主地發展出複雜的推理能力。這不僅僅是解決問題——模型有機地學會了生成長鏈思考，自我驗證其工作，並將更多計算時間分配給更難的問題。

這裡的技術突破是他們對獎勵建模的新穎方法。他們沒有使用複雜的神經獎勵模型，這可能導致“獎勵駭客行為”（模型找到虛假的方法來提高獎勵，這實際上並不會改善現實世界的模型表現），而是開發了一個巧妙的基於規則的系統，將準確性獎勵（驗證最終答案）與格式獎勵（鼓勵結構化思維）結合在一起。這種更簡單的方法被證明比其他人嘗試的基於過程的獎勵模型更具穩健性和可擴展性。

特別吸引人的是，在訓練過程中，他們觀察到了一個所謂的「恍然大悟時刻」，這是一個階段，模型在遇到不確定性時自發地學會了在過程中修正其思考過程。這種新興行為並不是明確編程的；它自然地源於模型與強化學習環境之間的互動。模型會字面上停止自己，標記其推理中的潛在問題，並以不同的方法重新開始，這一切都是在沒有明確訓練的情況下發生的。

基於這些洞察，完整的 R1 模型引入了他們所稱的「冷啟動」數據——一小組高質量的範例——然後再應用他們的強化學習技術。他們還解決了推理模型中的一個主要挑戰：語言一致性。之前的鏈式思考推理嘗試經常導致模型混合語言或產生不連貫的輸出。DeepSeek 通過在強化學習訓練期間引入巧妙的語言一致性獎勵來解決這個問題，為了更可讀和一致的輸出，犧牲了一小部分性能。

結果令人震驚：在 AIME 2024 這個最具挑戰性的高中數學競賽中，R1 的準確率達到 79.8%，與 OpenAI 的 O1 模型相匹配。在 MATH-500 中，它的準確率達到 97.3%，並在 Codeforces 編程競賽中達到了 96.3 的百分位數。但也許最令人印象深刻的是，他們成功將這些能力濃縮到更小的模型中：他們的 14B 參數版本超越了許多幾倍於其大小的模型，這表明推理能力不僅僅與原始參數數量有關，而是與你如何訓練模型以處理資訊有關。

■ The Fallout

最近在 Twitter 和 Blind（一個企業謠言網站）上的傳聞是，這些模型讓 Meta 完全措手不及，並且它們的表現優於仍在訓練中的新 Llama4 模型。顯然，Meta 內部的 Llama 項目吸引了許多高層技術執行官的關注，因此他們有大約 13 名個人在 Llama 項目上工作，每個人的年總薪酬都超過了 DeepSeek-V3 模型的綜合訓練成本，而後者的表現優於前者。你怎麼能面不改色地向 Zuck 解釋這一切？當一個更好的模型僅用 2000 個 H100 訓練，花費超過 500 萬美元時，Zuck 又是如何在向 Nvidia 支付數十億美元購買 10 萬個 H100 時保持微笑的？

但你最好相信，Meta 和其他所有大型 AI 實驗室都在拆解這些 DeepSeek 模型，研究那些技術報告中的每一個字和他們發布的每一行開源代碼，拚命試圖將這些相同的技巧和優化整合到他們自己的訓練和推理流程中。那麼，這一切的影響是什麼呢？嗯，天真地看起來，訓練和推理計算的總需求似乎應該被某個大數字除以。也許不是 45，但可能是 25 或甚至 30？因為無論你在這些模型發布之前認為你需要什麼，現在都少了很多。

現在，樂觀主義者可能會說：「你所談論的只是一個比例常數，一個單一的倍數。當你處理指數增長曲線時，那些東西會迅速被沖淡，以至於最終並不會有太大影響。」這其中確實有一些真理：如果人工智慧真的如我所預期的那樣具有變革性，如果這項技術的實際應用價值以萬億計算，如果推理時的計算成為新的擴展法則，如果我們將擁有成群的人形機器人不斷進行大量推理，那麼也許增長曲線仍然如此陡峭和極端，而 Nvidia 擁有足夠大的領先優勢，這一切仍然會奏效。

但英偉達的定價考慮了未來幾年大量的好消息，這樣的估值才有意義，當你開始將這些因素疊加在一起形成一個完整的馬賽克時，至少讓我感到對以約 20 倍 2025 年預估銷售額購買他們的股票感到極度不安。如果銷售增長稍微放緩會怎樣？如果結果是 85%而不是超過 100%呢？如果毛利率從 75%降到 70%——對於一家半導體公司來說仍然是荒謬的高？

■ 總結一切

在高層次上，NVIDIA 面臨著前所未有的競爭威脅，使其以 20 倍未來銷售和 75%毛利率的高估值越來越難以辯護。該公司在硬體、軟體和效率方面所謂的護城河都顯示出令人擔憂的裂痕。全世界——成千上萬的聰明人，背後有無數的資本資源——正試圖從各個角度攻擊他們。

在硬體方面，Cerebras 和 Groq 的創新架構顯示，NVIDIA 的互連優勢——其數據中心主導地位的基石——可以通過徹底的重新設計來繞過。Cerebras 的晶圓級芯片和 Groq 的確定性計算方法在不需要 NVIDIA 複雜的互連解決方案的情況下提供了引人注目的性能。更傳統地說，每個主要的 NVIDIA 客戶（Google、Amazon、Microsoft、Meta、Apple）都在開發定制硅，這可能會侵蝕高利潤的數據中心收入。這些不再是實驗項目——僅 Amazon 就在為 Anthropic 建設超過 400,000 顆定制芯片的大型基礎設施。

軟體護城河似乎同樣脆弱。像 MLX、Triton 和 JAX 這樣的新高級框架正在抽象化 CUDA 的重要性，而改善 AMD 驅動程序的努力可能會解鎖更便宜的硬體替代品。向更高級抽象的趨勢反映了組合語言如何讓位於 C/C++，這表明 CUDA 的主導地位可能比預期的更為暫時。最重要的是，我們看到 LLM 驅動的代碼翻譯的出現，這可能自動將 CUDA 代碼移植到任何硬體目標上，潛在地消除 NVIDIA 最強的鎖定效應之一。

或許最具破壞性的是 DeepSeek 最近的效率突破，實現了大約 1/45 的計算成本卻達到可比擬的模型性能。這表明整個行業在計算資源的配置上存在大規模的過度供應。再加上通過思維鏈模型出現的更高效的推理架構，對計算的總需求可能顯著低於當前預測的假設。這裡的經濟學非常引人注目：當 DeepSeek 能夠在 API 調用上收取 95%更低的費用時，卻能匹配 GPT-4 的性能，這表明要麼 NVIDIA 的客戶在不必要地燒錢，要麼利潤必須大幅下降。

台積電將為任何資金充足的客戶生產具有競爭力的晶片，這自然對 NVIDIA 的架構優勢設置了上限。但更根本的是，歷史表明，市場最終會找到繞過產生超常利潤的人工瓶頸的方法。當這些威脅層疊在一起時，這表明 NVIDIA 在維持其當前增長軌跡和利潤率方面面臨的道路比其估值所暗示的要艱難得多。隨著五個明確的攻擊向量——架構創新、客戶垂直整合、軟體抽象、效率突破和製造民主化——至少有一個在實質上影響 NVIDIA 的利潤率或增長率的概率似乎很高。在當前的估值下，市場並未將這些風險計入。

All reactions:

15 comments

876 shares

Comment

All comments

Chien-Wei Chu

原文: https://youtubetranscriptoptimizer.com/.../05_the_short...

YOUTUBETRANSCRIPTOPTIMIZER.COM

The Short Case for Nvidia Stock