數據科普｜OpenAI的新鉅作：GPT-4V在圖像理解的突破

17歲學生曾憲哲在失蹤8天後被成功找到。香港消防處於搜尋過程中，採用了無人機和人工智能技術進行搜救。該技術將無人機拍下的影片轉為照片，並藉由人工智能進行圖像分析，有效地縮小搜索範疇並精確定位重要搜索地區，最終成功尋回曾憲哲，讓人鬆一口氣。

提及人工智能的圖像分析，不得不提及於9月24日推出的GPT-4V（ision），它在OpenAI ChatGPT的iOS應用和網頁界面中都有提供。此模型是OpenAI研發的多模態模型，能讓使用者上傳圖片並提問，此功能被稱作視覺問答（Visual Question Answering VQA）。GPT-4V展現了相當於人類水平的多項能力，例如視覺理解、視覺描述、多模式知識、常識推理等。將圖像輸入納入大型語言模型（LLMs）被視為人工智能領域的一大突破，多模式LLMs不僅擴充了語言模型的能力，也帶來了新的使用者體驗。

圖一及圖二，是兩個GPT-4V的圖像理解實例：

GPT-4V分析表示：「Lululemon在線上市場活動和顧客互動方面展現出明顯的領先優勢，這顯示了該品牌在線上和參與度上的成功。而Athleta在推廣策略上有著高表現，這暗示著該品牌可能在市場活動和廣告上投入了更多的資源和創意。另外，Alo Yoga在所有屬性上的均衡表現，揭示了其採取的多元化策略。」這樣的結果實在讓我對GPT-4V刮目相看。

然而，GPT-4V儘管擁有先進功能，但也有其不足。根據OpenAI的技術報告，GPT-4V偶爾會有錯誤的判斷，例如誤將圖像的文本結合成一個不存在的術語。和基本的GPT-4相似，GPT-4V可能產生誤判或誤導性的資訊，或遺失重要文本、數學符號等。它在醫學影像分析或識別危險物質方面也存在局限。這些限制點明了，雖然GPT-4V具有巨大潛力，但仍需改進以確保其準確性和安全性。

藉由此先進的視覺語言模型，開發者和研究者得以開發新的應用場景。例如，在網頁設計、醫學影像解讀、視覺輔助技術以及教育指導中，GPT-4V的應用顯示出其如何推動各行業的創新進程。這種技術在其他多個領域中都有潛在的開創性應用，可能為社會帶來廣泛的利益。隨著技術的持續進步及應用的日益拓展，我們期望未來能看到更多令人驚豔的技術突破和創新解決方案。

文：劉偉良(Eden)/
社交媒體商業應用公司天勤(Tocanan)首席執行官