返回

2025-03-28 04:31:26

Alice and Bob

日報

大型語言模型進入「平權時代」？從Gemini 2.5到DeepSeek V3的觀察

分享：

大型語言模型進入「平權時代」？從Gemini 2.5到DeepSeek V3的觀察

2024年初，Google正式發表最新的大型語言模型Gemini 2.5 Pro，聲稱為旗下最強AI，具備前所未有的理解與推理能力。與此同時，OpenAI、Anthropic、微軟及來自中國的DeepSeek亦先後發布新一代模型，令AI領域再度進入一波「百模爭鋒」的局面。

然而，今次與過往不同的是：這些旗艦級模型的實力，開始趨向一致。

性能收斂差異縮小

從目前多項基準測試(benchmark)結果來看，Gemini 2.5在表格解讀、視覺推理(Vista Benchmark)上表現突出，接近人類水平，更首次實現長達1百萬tokens的上下文理解能力，遠超GPT-4 Turbo的128K tokens。然而，在常識推理(SimpleBench)上，Gemini 2.5的表現與Claude 3.7不相伯仲，各得5/10，顯示不同模型在不同領域有優勢，但整體差距正在收窄。

OpenAI的GPT-4 Turbo雖然未見重大升級，但已在價格、速度及可用性方面佔據領先優勢。Anthropic的Claude 3.7對語境的掌握較佳，尤其在對話連貫性方面表現穩定。這場競爭，已不再是「誰遙遙領先」，而是多方拉鋸。

算力驅動成主流模型商品化加速

微軟CEO Satya Nadella最近提出一個值得深思的觀點：AI模型已進入商品化階段(commoditization)。他指出，當前各家模型背後使用的架構與訓練方法已趨相近，真正的差異愈來愈來自於資源——特別是算力與資料量。

過往模型之間的突破多建基於架構創新，例如Transformer、RLHF、Mixture-of-Experts等技術。但進入2024年後，效能的提升更多來自規模的擴展與調整。例如Gemini 2.5雖未公開具體參數，但從各項能力判斷，其應為極大型、具多模態整合的模型。

這也說明了：未來AI模型的競爭核心，很可能不再是「技術秘密」，而是誰擁有更多資源、更強運營能力。

中國模型的突圍與全球競局

值得關注的是，來自中國的DeepSeek V3表現令人驚艷，尤其在數學與編程能力上，逼近甚至超越GPT-4 Turbo。這意味著，在compute與資料基礎條件接近的情況下，西方實驗室並不再具壓倒性優勢。隨着開源社群活躍、中國本地模型訓練架構成熟，全球AI發展格局正快速多極化。

小結：進入AI的「平權時代」？

若說過去是GPT-4的一枝獨秀，現在則是「多模鼎立」。每個模型皆有長處，但表現愈見一致。對用戶而言，重點已不在於誰是最強模型，而在於如何部署、整合及落地應用。AI模型的門檻降低，意味企業可更靈活選擇工具，建立專屬的知識引擎與流程自動化。

當AI模型愈來愈像，人類的選擇，不再是信仰，而是實用。