Google的母公司Alphabet周三推出了旗下歷來最先進的人工智能(AI)模型Gemini,號稱「乜都得」,可以處理文字、圖片、音訊、錄像及程式編碼,而不像目前的AI模型般局限。據報Gemini將設3個版本,最輕盈版本料未來將在Android手機大行其道。
Google稱Gemini較該公司之前AI技術更高,並能夠進行更複雜推理,理解資訊的能力亦大增。CEO皮齊(Sundar Pichai)形容表示Gemini的「新時代的模型」,是該公司努力打造的其中最大工程一。
Google在網上發布了多段影片,展示Gemini各種能力及潛在內途,可見其有能力理解圖像內容、理解大量科學研究文獻,亦可處理及理解音訊;較有趣的示範包括向Gemini展示不同提示圖,然後叫它「估戲名」,又或給它一張房間照片,叫它「估座向」;此外Gemini又識拆解emoji,以及懂得把圖像化成html編碼等。
按圖看Gemini不同技能︰
獲微軟加持的OpenAI,旗下AI模型ChatGPT約一年前推出以來,Google一直在研發能夠匹敵的技術。Gemini是該公司Google DeepMind AI部門幫助製作的最大的AI模型,據報其運作的成本效益,遠高於之前Google研發的其他AI模型。
Gemini|3個版本Ultra、Pro、Nano分別
Alphabet表示,公司正在製作3個版本的Gemini 1.0,每個版本將有不同的處理能力,最強大版本Ultra為數據中心打造,最簡而精的版本Nano能在手機等電子裝置上高效運行,中檔版本Pro則以用途廣泛為定位。
Google周三表示,已為旗下AI聊天機械人Bard升級,加入了Gemini的技術,計畫之後會在Google搜尋器及Chrome瀏覽器等上推出,預料也會成為未來Android手機的配備。根據Google的說法,在測試中,Gemini在AI研究人員常用、超過20項基準測試中,表現優於競爭對手的AI模型,涉及閱讀理解、數學及推理能力。