2025-02-27 17:38:43

國際專題｜全球競逐開發低成本AI 黃仁勳點睇DeepSeek？

英偉達(NVIDIA)公司CEO黃仁勳大讚DeepSeek，並稱DeepSeek的出現，並未影響晶片銷情。(資料圖片)

美國史丹福大學等機構研究團隊近日宣布，在其AI基座大模型基礎上，僅花「數十美元」就開發出相對成熟的推理模型。儘管整體性能尚無法跟美國OpenAI開發的o1、中國深度求索公司的DeepSeek-R1(據稱成本約560萬美元)等相比，但有關嘗試意味企業可用較低成本，研發出適合自身的AI應用，有利AI普及並令更多人受惠。此外，「低成本AI」所用的「測試時擴展」技術，也可能帶出一條更可持續的AI研發路徑。

低成本玩高級推理

史丹福大學和華盛頓大學研究團隊近日宣布研發s1模型，在數學和編碼能力測試中表現優異，訓練所需的計算資源等成本只需約數十美元。s1的核心創新在於採用了「知識蒸餾」(knowledge distillation)技術和「預算強制」(budget enforcement)方法。

「知識蒸餾」就像把別人釀好的酒進一步提純。s1的訓練數據是從Google AI模型Gemini Thinking Experimental「蒸餾」出來、僅有1,000個樣本的小型數據集。「預算強制」則指確保資源精准投放，並控制消耗。

在「預算強制」背景下，s1使用了AI模型訓練新方法——「測試時擴展」(Test-Time Scaling)，又稱為「長思考」(long thinking)。「測試時擴展」是指在AI模型已訓練好情況下，在測試階段增加額外運算資源，例如讓AI模型多思考一會兒，來提升輸出品質。此方法毋須重新AI訓練模型，只需在測試時多花一點時間或資源，就能令其得出更佳表現。

除s1外，美國加州大學柏克萊分校研究團隊，最近亦開發出一款名為TinyZero的低成本AI模型，據報達到了DeepSeek-R1 Zero在倒數(countdown task)和乘法(multiplication task)任務中的表現。該模型透過強化學習，實現了部分相當於30億模型參數的大語言模型的自我思維驗證，以及搜索能力。團隊稱，TinyZero的訓練成本不到30美元。

「二次創作」增強AI普及和受惠性

清華大學計算機系長聘副教授劉知遠指，部分海外研究團隊以DeepSeek-R1及o1等高性能推理AI大模型，來構建及篩選高質量長思維鏈數據集，再用這些數據集微調其AI模型，可低成本地快速令其獲得高階推理能力。

有專家認為，以這種「二次創作」方式構建AI模型，有利AI普及和受惠性，但有3點須注意。

一是所謂「數十美元的低成本」，其實並未計及開發基座大模型的高昂成本。就如建屋卻只計算最後裝修的錢，而沒計買地及打地基的錢。

二是由「二次創作」構建的模型，整體性能尚無法跟成熟大模型相比。TinyZero僅在簡單數學任務、編程及數學益智遊戲等任務有良好表現，但無法用於更複雜任務。s1也只能透過精心挑選的訓練數據，在特定測試集上勝過早期版本o1 preview，而遠遠不及o1正式版或DeepSeek-R1。

三是如要開發性能更優越的大模型，還需強化學習技術，以持續激發大模型在思考、反思、探索等方面的能力，只靠「知識蒸餾」並不足夠。

AI模型進化路線圖

在2025年美國消費電子展上，美國英偉達(NVIDIA)公司CEO黃仁勳提到AI進化路線圖的幾個概念︰分別是「預訓練擴展」(pretraining scaling)、「訓練後擴展」(post-training scaling)，以及上文所述的「測試時擴展」。

「預訓練擴展」被視為AI發展基礎法則，訓練數據愈多、模型規模愈大；投放的運算力愈多，AI模型的能力就愈強。但「預訓練擴展」過程需要大量資源投放，因此不少公司會以「微調」方式，利用開源的大型基礎模型，來把模型變得切合自身需求，亦即「訓練後擴展」，涉及強化學習和人類反饋等技術，令模型更加貼合特定應用需求。例如把它訓練至更適合在醫療及法律領域使用。

黃仁勳大讚DeepSeek卓越「點燃了全球熱情」

當「預訓練擴展」和「訓練後擴展」的邊際收益逐漸遞減，便到「測試時擴展」。「測試時擴展」把焦點從訓練階段轉移至推理階段，如上文所述，透過控制推理過程中的運算量(如思考時間及次數)來優化結果，這降低了AI對「預訓練」數據的依賴，並提升潛力。但黃仁勳認為，要令AI模型愈變愈強，歸根究底還是要有足夠晶片支撐。

英偉達周三公布季度業績，優於市場預期。毋須使用大量高性能晶片的DeepSeek崛起，令各界關注會否沖擊英偉達，但黃仁勳稱DeepSeek並未影響晶片銷情。他並大讚DeepSeek，說「DeepSeek R1已經點燃了全球的熱情。這是一項出色的創新項目(excellent innovation)，但更重要的是，它已經開源了一個世界級的推理AI模型。幾乎每位AI開發人員都在使用。」