OpenAI在星期一率先推出了其新旗艦模型GPT-4o,實時對話像人類般自然,現場演示展示了它朗讀睡前故事和幫助解決數學問題。上星期二,Google亦宣布推出了自己的AI新工具,其中包括一款名為Gemini Live的對話助手,更準備推出一個萬能AI助手的代理人,名為Project Astra,目前仍在開發中,但會在今年晚些時候才發布。
OpenAI實時回應
OpenAI的GPT-4o中的o代表「omni」,模型能夠進行實時對話,響應延遲平均約為320毫秒,最快可於232毫秒內對音頻輸入作出回應,OpenAI表示這與自然人類對話相當。用家可以要求模型解釋您的智能手機相機拍攝的任何內容,包括文字、音訊和圖像,亦能生成出各種內容如圖像、字體和3D渲染,亦能對信息進行摘要。
示範中聲音甚至像電影《Her》中的AI女友,除了與人類即時對話,可做到兩個AI對話和唱歌,甚至能觀察人類語氣及情緒,相當強大而震撼。
Gemini Live人性化功能
Google在I/O大會上發布了Gemini Live,是與GPT-4o最相似的Google產品,這個AI模型版本可以與之進行實時對話。Google表示將來還可以使用該工具進行實時視頻通話,可用於準備工作面試或排練演講等。
Google亦在大會示範了Project Astra,打造一個萬能AI助理的項目,在示範短片中AI除了可以理解場景中的不同事物、進行推理分析,亦可以提供建議和解說、尋找物件等等,通過智能手機直接使用,回應速度及質素極高,但直到今年晚些時候才會正式發布。
現時在Poe可以免費試用GPT-4o,免費對答10次,Google Gemini-1.5-Pro及輕量化Gemini 1.5 Flash亦已上載平台,有興趣不妨試玩。