本地
2023-10-13 04:30:34
日報

數據科普|OpenAI的新鉅作:GPT-4V在圖像理解的突破

分享:
數據科普|OpenAI的新鉅作:GPT-4V在圖像理解的突破

數據科普|OpenAI的新鉅作:GPT-4V在圖像理解的突破

17歲學生曾憲哲在失蹤8天後被成功找到。香港消防處於搜尋過程中,採用了無人機和人工智能技術進行搜救。該技術將無人機拍下的影片轉為照片,並藉由人工智能進行圖像分析,有效地縮小搜索範疇並精確定位重要搜索地區,最終成功尋回曾憲哲,讓人鬆一口氣。

提及人工智能的圖像分析,不得不提及於9月24日推出的GPT-4V(ision),它在OpenAI ChatGPT的iOS應用和網頁界面中都有提供。此模型是OpenAI研發的多模態模型,能讓使用者上傳圖片並提問,此功能被稱作視覺問答(Visual Question Answering VQA)。GPT-4V展現了相當於人類水平的多項能力,例如視覺理解、視覺描述、多模式知識、常識推理等。將圖像輸入納入大型語言模型(LLMs)被視為人工智能領域的一大突破,多模式LLMs不僅擴充了語言模型的能力,也帶來了新的使用者體驗。

adblk6

圖一及圖二,是兩個GPT-4V的圖像理解實例:

GPT-4V

圖一:我上傳下面的照片,GPT-4V成功判斷它是一盤海膽|來源: TOCANAN

GPT-4V

圖二:我製作了三個瑜伽服裝品牌的雷達圖,並要求GPT-4V進行分析 |來源: TOCANAN

GPT-4V分析表示:「Lululemon在線上市場活動和顧客互動方面展現出明顯的領先優勢,這顯示了該品牌在線上和參與度上的成功。而Athleta在推廣策略上有著高表現,這暗示著該品牌可能在市場活動和廣告上投入了更多的資源和創意。另外,Alo Yoga在所有屬性上的均衡表現,揭示了其採取的多元化策略。」 這樣的結果實在讓我對GPT-4V刮目相看。

然而,GPT-4V儘管擁有先進功能,但也有其不足。根據OpenAI的技術報告,GPT-4V偶爾會有錯誤的判斷,例如誤將圖像的文本結合成一個不存在的術語。和基本的GPT-4相似,GPT-4V可能產生誤判或誤導性的資訊,或遺失重要文本、數學符號等。它在醫學影像分析或識別危險物質方面也存在局限。這些限制點明了,雖然GPT-4V具有巨大潛力,但仍需改進以確保其準確性和安全性。

藉由此先進的視覺語言模型,開發者和研究者得以開發新的應用場景。例如,在網頁設計、醫學影像解讀、視覺輔助技術以及教育指導中,GPT-4V的應用顯示出其如何推動各行業的創新進程。這種技術在其他多個領域中都有潛在的開創性應用,可能為社會帶來廣泛的利益。隨著技術的持續進步及應用的日益拓展,我們期望未來能看到更多令人驚豔的技術突破和創新解決方案。

文:劉偉良(Eden)/
社交媒體商業應用公司天勤(Tocanan)首席執行官

Klook.com
adblk7

amJetso送太興鮮臘腸 👇立即按此參加

amJetso送太興鮮臘腸,立即按此參加