國際
2025-02-11 18:43:17

AI教母李飛飛26分鐘訓練推理模型「s1」 僅花50美元效果不遜DeepSeek和OpenAI

分享:
DeepSeek

DeepSeek以低成本開發推理模型,挑起新一輪AI科技競爭。(路透社)

內地DeepSeek(深度求索)以低成本開發推理模型DeepSeek-R1,震撼人工智能(AI)業界,也挑起新一輪AI科技競爭。被稱為「AI教母」的美籍華裔科學家李飛飛加入戰團,其率領的研究團隊以低於50美元(約390港元)的雲端運算成本,以及26分鐘訓練出名為「s1」的AI推理模型,表現堪比OpenAI o1和DeepSeek R1等尖端推理模型。

李飛飛是史丹福大學的終身教授,她與史丹福大學和華盛頓大學的研究人員在一個月內便研發出s1模型,因像DeepSeek一樣並非從零開始。s1是以阿里巴巴的通義千問Qwen2.5 -32B-Instruct開源模型為底座,在16塊輝達(NVIDIA)H100 GPU上監督微調26分鐘,訓練出新模型。報道指,李飛飛團隊在研究中提出了「預算控制」策略,透過加入「wait指令」等方式,強制延長模型推理過程、思考時間,以此促使模型自我檢查並修正錯誤的推理步驟,提升推理品質。

adblk6
李飛飛 DeepSeek DeepSeek DeepSeek

DeepSeek|專家:前期研究需大量「燒錢」

內媒每日經濟新聞稱,根據李飛飛等人的研究論文《s1:Simple test- time scaling》,該模型在數學和編碼能力測試中的表現,與OpenAI的o1和DeepSeek的R1等尖端推理模型不相上下,在競賽數學問題上的表現更是比o1-preview高出27%。

復旦大學計算機學院副教授鄭驍慶向每日經濟新聞稱,「像DeepSeek或類似的公司,在尋找有效的整合解決方案時,需要進行大量的前期研究與消融實驗。」這意味著前期是需要大量「燒錢」的。報道指,因s1是以基於現成的模型進行監督微調,而微調一個模型和從零開始訓練一個模型的成本是無法相提並論的。其次50美元是否包含了其他數據、設備和消融實驗等費用,如DeepSeek-V3不到600萬美元(約4,680萬港元)的訓練成本,其實也只包含了訓練時的GPU算力費用。

立即更新/下載AM730手機APP 體驗升級功能

全新會員積分獎賞計劃 打開App進入會員專區體驗升級功能