
大型語言模型進入「平權時代」? 從Gemini 2.5到DeepSeek V3的觀察
2024年初,Google正式發表最新的大型語言模型Gemini 2.5 Pro,聲稱為旗下最強AI,具備前所未有的理解與推理能力。與此同時,OpenAI、Anthropic、微軟及來自中國的DeepSeek亦先後發布新一代模型,令AI領域再度進入一波「百模爭鋒」的局面。
然而,今次與過往不同的是:這些旗艦級模型的實力,開始趨向一致。
性能收斂 差異縮小
從目前多項基準測試(benchmark)結果來看,Gemini 2.5在表格解讀、視覺推理(Vista Benchmark)上表現突出,接近人類水平,更首次實現長達1百萬tokens的上下文理解能力,遠超GPT-4 Turbo的128K tokens。然而,在常識推理(SimpleBench)上,Gemini 2.5的表現與Claude 3.7不相伯仲,各得5/10,顯示不同模型在不同領域有優勢,但整體差距正在收窄。
OpenAI的GPT-4 Turbo雖然未見重大升級,但已在價格、速度及可用性方面佔據領先優勢。Anthropic的Claude 3.7對語境的掌握較佳,尤其在對話連貫性方面表現穩定。這場競爭,已不再是「誰遙遙領先」,而是多方拉鋸。
算力驅動成主流 模型商品化加速
微軟CEO Satya Nadella最近提出一個值得深思的觀點:AI模型已進入商品化階段(commoditization)。他指出,當前各家模型背後使用的架構與訓練方法已趨相近,真正的差異愈來愈來自於資源——特別是算力與資料量。
過往模型之間的突破多建基於架構創新,例如Transformer、RLHF、Mixture-of-Experts等技術。但進入2024年後,效能的提升更多來自規模的擴展與調整。例如Gemini 2.5雖未公開具體參數,但從各項能力判斷,其應為極大型、具多模態整合的模型。
這也說明了:未來AI模型的競爭核心,很可能不再是「技術秘密」,而是誰擁有更多資源、更強運營能力。
中國模型的突圍與全球競局
值得關注的是,來自中國的DeepSeek V3表現令人驚艷,尤其在數學與編程能力上,逼近甚至超越GPT-4 Turbo。這意味著,在compute與資料基礎條件接近的情況下,西方實驗室並不再具壓倒性優勢。隨着開源社群活躍、中國本地模型訓練架構成熟,全球AI發展格局正快速多極化。
小結:進入AI的「平權時代」?
若說過去是GPT-4的一枝獨秀,現在則是「多模鼎立」。每個模型皆有長處,但表現愈見一致。對用戶而言,重點已不在於誰是最強模型,而在於如何部署、整合及落地應用。AI模型的門檻降低,意味企業可更靈活選擇工具,建立專屬的知識引擎與流程自動化。
當AI模型愈來愈像,人類的選擇,不再是信仰,而是實用。