第三方大模型性能測試平台Chatbot Arena於今日凌晨發布最新大模型排行榜,阿里巴巴(9988)旗下通義千問上周發布的Qwen2.5-Max,超越DeepSeek V3,排第七,得分1,332分;DeepSeek V3則排名第八,得分1,316分。Qwen2.5-Max為非推理類中國大模型冠軍,同時,其在數學及編程等單項排第一,硬提示(Hard prompts)排第二。
ChatGPT排名第三
至於冠軍及亞軍均為Google的Gemini模型,OpenAI的ChatGPT-4o-latest排名第三。
內地媒體指,Chatbot Arena目前集成190多種模型,其榜單採用匿名方式將大模型兩兩組隊,交給用戶進行盲測,使用者根據真實對話體驗對模型能力進行投票。因此被指為業囹界公認的權威榜單之一。ChatBot Arena官方評價稱,阿里巴巴的Qwen2.5-Max在多個領域表現強勁,特別是專業技術向的程式設計、數學、硬提示等。
阿里巴巴今日收報97.65元,升3.65元或3.9%。