
英偉達(NVIDIA)公司CEO黃仁勳大讚DeepSeek,並稱DeepSeek的出現,並未影響晶片銷情。(資料圖片)
美國史丹福大學等機構研究團隊近日宣布,在其AI基座大模型基礎上,僅花「數十美元」就開發出相對成熟的推理模型。儘管整體性能尚無法跟美國OpenAI開發的o1、中國深度求索公司的DeepSeek-R1(據稱成本約560萬美元)等相比,但有關嘗試意味企業可用較低成本,研發出適合自身的AI應用,有利AI普及並令更多人受惠。此外,「低成本AI」所用的「測試時擴展」技術,也可能帶出一條更可持續的AI研發路徑。
低成本玩高級推理
史丹福大學和華盛頓大學研究團隊近日宣布研發s1模型,在數學和編碼能力測試中表現優異,訓練所需的計算資源等成本只需約數十美元。s1的核心創新在於採用了「知識蒸餾」(knowledge distillation)技術和「預算強制」(budget enforcement)方法。
「知識蒸餾」就像把別人釀好的酒進一步提純。s1的訓練數據是從Google AI模型Gemini Thinking Experimental「蒸餾」出來、僅有1,000個樣本的小型數據集。「預算強制」則指確保資源精准投放,並控制消耗。
在「預算強制」背景下,s1使用了AI模型訓練新方法——「測試時擴展」(Test-Time Scaling),又稱為「長思考」(long thinking)。「測試時擴展」是指在AI模型已訓練好情況下,在測試階段增加額外運算資源,例如讓AI模型多思考一會兒,來提升輸出品質。此方法毋須重新AI訓練模型,只需在測試時多花一點時間或資源,就能令其得出更佳表現。
除s1外,美國加州大學柏克萊分校研究團隊,最近亦開發出一款名為TinyZero的低成本AI模型,據報達到了DeepSeek-R1 Zero在倒數(countdown task)和乘法(multiplication task)任務中的表現。該模型透過強化學習,實現了部分相當於30億模型參數的大語言模型的自我思維驗證,以及搜索能力。團隊稱,TinyZero的訓練成本不到30美元。
「二次創作」增強AI普及和受惠性
清華大學計算機系長聘副教授劉知遠指,部分海外研究團隊以DeepSeek-R1及o1等高性能推理AI大模型,來構建及篩選高質量長思維鏈數據集,再用這些數據集微調其AI模型,可低成本地快速令其獲得高階推理能力。
有專家認為,以這種「二次創作」方式構建AI模型,有利AI普及和受惠性,但有3點須注意。
一是所謂「數十美元的低成本」,其實並未計及開發基座大模型的高昂成本。就如建屋卻只計算最後裝修的錢,而沒計買地及打地基的錢。
二是由「二次創作」構建的模型,整體性能尚無法跟成熟大模型相比。TinyZero僅在簡單數學任務、編程及數學益智遊戲等任務有良好表現,但無法用於更複雜任務。s1也只能透過精心挑選的訓練數據,在特定測試集上勝過早期版本o1 preview,而遠遠不及o1正式版或DeepSeek-R1。
三是如要開發性能更優越的大模型,還需強化學習技術,以持續激發大模型在思考、反思、探索等方面的能力,只靠「知識蒸餾」並不足夠。
AI模型進化路線圖
在2025年美國消費電子展上,美國英偉達(NVIDIA)公司CEO黃仁勳提到AI進化路線圖的幾個概念︰分別是「預訓練擴展」(pretraining scaling)、「訓練後擴展」(post-training scaling),以及上文所述的「測試時擴展」。
「預訓練擴展」被視為AI發展基礎法則,訓練數據愈多、模型規模愈大;投放的運算力愈多,AI模型的能力就愈強。但「預訓練擴展」過程需要大量資源投放,因此不少公司會以「微調」方式,利用開源的大型基礎模型,來把模型變得切合自身需求,亦即「訓練後擴展」,涉及強化學習和人類反饋等技術,令模型更加貼合特定應用需求。例如把它訓練至更適合在醫療及法律領域使用。
黃仁勳大讚DeepSeek卓越 「點燃了全球熱情」
當「預訓練擴展」和「訓練後擴展」的邊際收益逐漸遞減,便到「測試時擴展」。「測試時擴展」把焦點從訓練階段轉移至推理階段,如上文所述,透過控制推理過程中的運算量(如思考時間及次數)來優化結果,這降低了AI對「預訓練」數據的依賴,並提升潛力。但黃仁勳認為,要令AI模型愈變愈強,歸根究底還是要有足夠晶片支撐。
英偉達周三公布季度業績,優於市場預期。毋須使用大量高性能晶片的DeepSeek崛起,令各界關注會否沖擊英偉達,但黃仁勳稱DeepSeek並未影響晶片銷情。他並大讚DeepSeek,說「DeepSeek R1已經點燃了全球的熱情。這是一項出色的創新項目(excellent innovation),但更重要的是,它已經開源了一個世界級的推理AI模型。幾乎每位AI開發人員都在使用。」