20/03/2023

AI再進化！GPT-4智商更勝ChatGPT！輸入圖片即可生成內容，律師資格考試擊敗9成考生！

#Smart Living #AI #GPT-4 #ChatGPT #OpenAI #聊天機械人 #推理能力 #律師資格考試 #MMLU #Sam Altman

加入最愛專欄
收藏文章

方展策
方展策
少年時，曾研習 Geographic Information System，可惜學無所成，僥倖畢業。成年後，誤打誤撞進入傳媒圈子，先後在印刷、電子、網絡媒體打滾，略有小成。中年後，修畢資訊科技碩士，眼界漸擴，決意投身初創企業，窺探不同科技領域。近年，積極鑽研數據分析與數碼策略，又涉足 Location Intelligence 開發項目；有時還會抽空執教鞭，既可向他人分享所學，亦可鞭策自己保持終身學習。
智城物語

　　背靠GPT-3.5大型語言模型的ChatGPT，2022年11月底面世後有如一石激起千層浪，令生成式AI熱潮席捲全球。想不到短短4個月後，AI研究實驗室OpenAI便釋出第四代模型「GPT-4」，技術上進一步拋離其他大型語言模型。微軟亦隨即宣布，Bing搜尋引擎已同步採用GPT-4，讓Google在AI搜尋賽道上瞠乎其後。到底GPT-4比起GPT-3.5有何改進之處？功能更強大的GPT-4又是否一個已臻完美的AI模型呢？

第一代GPT模型2018年誕生

　　ChatGPT名字中的「GPT」，是「Generative Pre-trained Transformer」的縮寫，中譯為「生成式預訓練變換模型」。這是由Google Brain研發出來的深度學習模型架構，專用來處理自然語言；OpenAI正以此為基礎，創造了GPT模型，迄今已經歷四代演進。

　　第一代GPT模型於2018年6月橫空降世，能夠判斷兩個句子之間的語意和關係、對文本資料進行分類、並能夠解答一般常識和推理問題，但當時模型接受訓練的數據參數僅有1.17億項，相對較少，所以不算是好的對話式AI模型。

　　第二代GPT-2模型是基於初代模型直接擴展而成，可說是GPT-1的加強版。它在2019年2月發表，被定位為「通用型AI」，不針對單一知識領域進行專門訓練，而是學習各式各樣的常識，訓練參數達到15億項，是上一代的10倍以上。GPT-2已能夠回答問題、翻譯文字，並生成文本輸出。它輸出的文字開始近似人類語氣，惟生成較長段落時卻可能出現重複或無意義的內容。

GPT-3.5搭ChatGPT掀熱潮

　　來到第三代的GPT-3，訓練參數較GPT-2暴增117倍，超過1750億項，技術上也有飛躍進步，2020年６月釋出給開發者試用。它能夠辨識資料中隱藏的含義，並運用從數據訓練中獲得的知識來執行任務；換言之，就算要處理從未接觸過的事物，它也能夠理解並作出適當的回應。

　　GPT模型發展至第三代，終於展現出商業應用上的實用性。可是，2020年正值新冠疫情高峰期，此AI技術突破並沒有引起社會的太大關注。再者，GPT-3不像ChatGPT般能夠輸出自然對話，所以只有部分開發者和廠商對它感興趣。同年9月，微軟（Microsoft）宣布取得GPT-3的獨家授權。

　　2022年11月底，OpenAI發表GPT-3的優化版本「GPT-3.5」，並搭配聊天機械人「ChatGPT」一併推出，憑著其接近人類對話與思考方式的特點，瞬即吸引全球目光，掀起生成式AI熱潮。GPT-3與GPT-3.5的主要分別在於，前者只是蒐集和使用互聯網上的資料進行訓練，後者則會利用人類的回應和反饋，執行強化學習來自我訓練。

GPT-4可處理2.5萬字長內容

　　距離ChatGPT爆紅還不到4個月的時間，Open AI於2023年3月14日突然發布更具突破性的GPT-4，開放給ChatGPT Plus付費訂戶和軟件開發者使用。OpenAI沒有披露GPT-4模型受訓參數的數量，只表示2022年8月已經完成訓練，之後便不斷進行微調改進，務求令其數據處理與理解能力大幅提升。

　　GPT-4能夠處理多達25,000字的內容，足足是GPT-3.5+ChatGPT的8倍以上。它容許用戶輸入更長內容，進行長篇文章翻譯或編寫摘要。更重要的是，這樣意味著GPT-4擁有更強的記憶力。

GPT-4最實用的改進之處是，把文字輸入限制提高至2.5萬字，所以能夠理解更長的上下文，作出更準確的回應。（圖片來源：翻攝OpenAI官方YouTube影片）

　　其實，ChatGPT有時表現不佳的主要原因是，用戶最初提出的訴求，在一定長度的談話後，便會被後來的對話內容所覆蓋，讓AI無法把握完整的上下文來作出分析，致使回覆偏離討論主題。因此，當GPT-4能夠記住25,000字的內容，AI就能夠長時間監看與用戶的對話內容，給出更精確的答案。

GPT-4能解讀圖像再作出回覆

　　更教人驚喜的是，GPT-4已升級為多模態（Multimodal）的AI模型，同時支援圖像與文字輸入來生成內容，打破ChatGPT只能鍵入文本提示的限制。它能夠在理解圖像內容後，給予用戶建議，達到「看圖說故事」的效果。

用戶可以向GPT-4輸入圖片，要求回應。例如以下圖片顯示了雞蛋、麵粉、牛奶等食材，它在分析圖片後，便會告訴用戶利用這些食材可以製作甚麼甜品。（圖片來源：OpenAI官網）

GPT-4被問到假如剪掉以下圖片中的繩子，將會發生甚麼事？它懂得回答圖中的氣球將會飛走。由此可見，GPT-4在理解圖片內容後，已能作出邏輯推理。（圖片來源：翻攝OpenAI官方YouTube影片）

　　在GPT-4上輸入的圖像可以是相片、圖表、屏幕截圖、甚至是手繪草圖。OpenAI共同創辦人格雷格．布羅克曼（Greg Brockman）在GPT-4的直播演示中，拍攝其筆記簿上一幅手繪的網頁設計草圖，然後上傳至GPT-4，AI隨即生成對應的網頁程式碼。他認為，這將會大幅改變網站設計模式。

OpenAI共同創辦人Greg Brockman輸入一張手繪的網站設計草圖，GPT-4即能自動生成網頁程式碼，網站介面布局幾乎跟手繪草圖一模一樣。（圖片來源：翻攝OpenAI官方YouTube影片）

　　此外，GPT-4甚至連迷因惡搞圖也能夠解讀。例如，一幅來自Reddit討論區的惡搞圖，顯示iPhone插著VGA連接器，GPT-4能夠辨識並描述圖片的幽默之處：將舊款VGA連接器插進新型智能手機是很滑稽的。目前GPT-4圖像輸入功能仍處於開發者預覽版本，暫不對外開放，OpenAI未有透露開放時間表。

GPT-4能夠解讀以下惡搞圖的內容，準確地指出過時的VGA連接器插入新型智能手機的充電端口，是滑稽之舉。（圖片來源：OpenAI官網）

GPT-4律師資格考試名列前茅

　　除超凡的理解能力外，GPT-4更擁有優秀的推理能力。OpenAI聲稱，GPT-4在很多專業考試的表現已直逼「人類水平」（Human-level Performance）。為求證明此事，OpenAI安排GPT-4參加多項人類考試，包括律師資格考試（Bar examination）、美國大學入學的SAT測驗、以及國際生物奧林匹克（International Biology Olympiad）等，結果統統交出驕人的成績單。

　　OpenAI表示，GPT-4在律師資格考試中的答題表現位列前10%，即是可以勝過90%的考生；GPT-3.5的成績則落在後10%。GPT-4在SAT閱讀考試中成績位居前7%，在SAT數學考試中則排名前11%。至於在生物奧林匹亞競賽中，GPT-4的成績排名更高踞前1%，擊敗99%的參與者。

　　為測試GPT-4的語言水平，OpenAI利用Azure Translate把評核AI理解能力的「MMLU」基準測試繙譯成不同語言，讓GPT-4作答。結果發現，GPT-4英文答題的正確率高達80.5%，中文答題正確率亦達到80.1%，日語和韓語答題正確率則為70%至80％，可見GPT-4展現出極高的多國語言能力。

MMLU（Multi-task Language Understanding）基準考試包含14,000條試題，涵蓋 STEM、人文、社會科學等57個學科。結果GPT-4幾乎以10%以上差距擊敗其他大型語言模型，包括Google旗下的PaLM。（圖片來源：OpenAI官網）

GPT-4仍有幻覺，不完全可靠

　　縱然GPT-4在技術上已有長足進步，但OpenAI執行長山姆．奧特曼（Sam Altman）卻坦承，「它仍然是有缺陷的。」GPT-4依舊有GPT-3.5的「幻覺」（Hallucination）問題，有時會捏造資訊，生成與事實不符的回覆；即使有用戶指出其答案出錯，GPT-4會傾向堅持自己是對的。

在SAT、GRE、AP等公開考試中，GPT-4大部分的成績（綠色部分）均優於GPT-3.5（藍色部分）。（圖片來源：OpenAI官網）

　　不過，OpenAI強調，他們額外花了6個月時間來調整模型，並在數據訓練過程中納入更多人工回饋訓練，以減輕GPT-4的幻覺問題。在OpenAI的對抗性測試評估中，GPT-4陳述事實回應（Factual Responses）的可能性提高40%，回答不允許內容請求的可能性則降低82%。因此，GPT-4比起GPT-3.5算是較為可靠，但OpenAI仍警告不宜盡信GPT-4給出的答案。

　　GPT-4的另一缺憾是，其受訓數據也像GPT-3.5般只更新至2021年，對於這個時間點以後的事情，它就無法作出回應。幸好，OpenAI發表GPT-4後不久，微軟便宣布Bing AI搜尋引擎已同步升級使用GPT-4模型。大家只要透過Bing向GPT-4提問，它也能夠回答2022年或以後發生的事情。

AI市場規模超過3000億美元

　　OpenAI在短時間內推出功能更強大的GPT-4模型，代表著其開發團隊正以極高速度引領AI技術變革，迫使Google等競爭對手要投放更多資源來奮起直追。這樣有助加快AI的研發進程，並造就市場百花齊放的局面，實現AI全面普及。

現有ChatGPT用戶如想體驗GPT-4的強大功能，只要升級為ChatGPT Plus訂戶，乖乖付上20美元（約156港元）的月費便可以了。（圖片來源：OpenAI官網）

　　根據OpenAI提供的資料，美國投行摩根士丹利（Morgan Stanley）現已運用GPT-4來整理金融數據，電子支付方案商Stripe亦嘗試用GPT-4協助打擊詐騙；同時，網上教育機構可汗學院（Khan Academy）、網上語言學習平台Duolingo、以及冰島政府也有使用GPT-4 來輔助營運。由此可見，生成式AI已開始在企業和政府逐步落地應用。

投資顧問經常要瀏覽大量金融資料，以回覆客戶提問，但這樣做卻相當費時失事。因此，摩根士丹利現正探索如何利用GPT-4來整理金融資料，以提高分析效率。（圖片來源：OpenAI官網）

　　國際市調機構IDC分析指，引進AI速度較慢的企業，無可避免地會落後於競爭對手。IDC預估，2023年全球對AI系統的支出將增加27%，達至1540億美元（約1.2兆港元）；之後每年增長率將維持27%，及至2026年總支出可望超過3000億美元（約2.3兆港元）。

《經濟通》所刊的署名及／或不署名文章，相關內容屬作者個人意見，並不代表《經濟通》立場，《經濟通》所扮演的角色是提供一個自由言論平台。

第九屆「傳媒轉型大獎」請投etnet經濟通一票！► 立即行動

我要回應

AI再進化！GPT-4智商更勝ChatGPT！輸入圖片即可生成內容，律師資格考試擊敗9成考生！

AI搜尋未如理想！ChatGPT加Office軟件更有前途！微軟、Google搶捕辦公室應用AI化商機 2

智城物語．方展策AI︱OpenAI挑戰搜尋引擎！ChatGPT Search只給答案、不含廣告，能否終結Google搜尋霸權？瞄準專業搜尋市場勝算更高？新文章

智城物語．方展策Google Gemma｜GPT-4閉源惹議！Google推開源模型Gemma，為AI競爭添新變數，扭轉OpenAI獨大局面？ 2

版主留言

智城物語 ． 方展策

AI︱OpenAI挑戰搜尋引擎！ChatGPT Search只給答案、不含廣告，能否終結Google搜尋霸權？瞄準專業搜尋市場勝算更高？ 新文章

智慧城市5.0 ． 鄧淑明

電商教室 ． 掌舖Boutir團隊

天氣預報｜天文台將於下午12時40分 發出一號戒備信號！下週中期有機會再出現兩個熱帶氣旋 新文章

我做Marketing ． Michael & Derek

中產降級消費趨嚴重，影響名牌巿場銷情慘淡，造成中產貧富懸殊現象！ 新文章

銷售達人 ． 梁子驄 Brian

得閒拉筋 得閒Build肌 ． 馬德荃 Derek Ma

肌力訓練！用椅子做5個身體不同部位的訓練！KO肚腩、再見拜拜肉、收緊臀部 新文章

得閒拉筋 得閒Build肌 ． 馬德荃 Derek Ma

得閒拉筋 得閒Build肌 ． 馬德荃 Derek Ma

得閒拉筋 得閒Build肌 ． 馬德荃 Derek Ma

得閒拉筋 得閒Build肌 ． 馬德荃 Derek Ma

得閒拉筋 得閒Build肌 ． 馬德荃 Derek Ma

得閒拉筋 得閒Build肌 ． 馬德荃 Derek Ma

得閒拉筋 得閒Build肌 ． 馬德荃 Derek Ma

食療新意思 ． 陳沛思

山今養生智慧 ． 山今老人岑逸飛

食療新意思 ． 陳沛思

食療新意思 ． 陳沛思

山今養生智慧 ． 山今老人岑逸飛

食療新意思 ． 陳沛思

山今養生智慧 ． 山今老人岑逸飛

山今養生智慧 ． 山今老人岑逸飛

山今養生智慧 ． 山今老人岑逸飛

小薯茶水間 ． Katty Wu

特朗普當選｜244磅「圓美」身型是這樣鍊成的！新總統最愛的6樣美食：麥當勞朱古力奶昔、十成熟牛扒加茄汁、千島醬 新文章

玩樂 What’s On ． Eunice Chow

玩樂 What’s On ． Eunice Chow

玩樂 What’s On ． Eunice Chow

聖誕好去處2024｜天線寶寶聖誕回歸！將軍澳7.5米高巨型充氣Po坐鎮 三大互動區必玩極速滑梯！每日飄雪匯演＋慈善心意卡換領 新文章

Shopping What’s On ． Eunice Chow

Shopping What’s On ． Eunice Chow

小薯茶水間 ． Eunice Chow

玩樂 What’s On ． Eunice Chow

北上玩樂︱深圳版「釜山天空膠囊小火車」爆紅！單程體驗幾錢？雲海天使灣沙灘打卡超靚＋餵梅花鹿！跟團買一送一人均$199起仲抵玩？即睇交通方法 新文章

Foodie What’s On ． wong lin lin

開運食物│麥玲玲教食1樣食物添運氣 自爆催旺桃花靠燒嘢食追老公？兼公開「食物開運法」!!! 新文章

小薯茶水間 ． Katty Wu

美國大選結果出爐，共和黨總統候選人特朗普勝選，將再次入主白宮。你點睇未來數年的世界局勢？(297人參與)41

10月26日凌晨，以色列對伊朗首都德克蘭進行空襲，以報復本月稍前伊朗的導彈攻擊。另一方面，北韓派兵前往俄羅斯，已對俄烏戰爭進行增援。兩場區域性戰爭均有升級跡象，你會否擔心世界發生大規模戰爭？(311人參與)88

Art & Living>ChatENT

Beauty>Get it Beauty！

Travel & Dining>「世」界味覺之旅

Beauty>Lazy Girl Beauty Hacks

Fashion>The Dapper Style

Sex & Love>我單身但我快樂

Sex & Love>男男女女‧「嘉」點情趣

新文章

雷鼎鳴 新文章

張翠容 新文章

智城物語．方展策
AI︱OpenAI挑戰搜尋引擎！ChatGPT Search只給答案、不含廣告，能否終結Google搜尋霸權？瞄準專業搜尋市場勝算更高？新文章

智城物語．方展策
Google Gemma｜GPT-4閉源惹議！Google推開源模型Gemma，為AI競爭添新變數，扭轉OpenAI獨大局面？ 2

智城物語．方展策

AI︱OpenAI挑戰搜尋引擎！ChatGPT Search只給答案、不含廣告，能否終結Google搜尋霸權？瞄準專業搜尋市場勝算更高？新文章

智慧城市5.0 ．鄧淑明

電商教室．掌舖Boutir團隊

天氣預報｜天文台將於下午12時40分發出一號戒備信號！下週中期有機會再出現兩個熱帶氣旋新文章

中產降級消費趨嚴重，影響名牌巿場銷情慘淡，造成中產貧富懸殊現象！新文章

銷售達人．梁子驄 Brian

得閒拉筋得閒Build肌．馬德荃 Derek Ma

肌力訓練！用椅子做5個身體不同部位的訓練！KO肚腩、再見拜拜肉、收緊臀部新文章

得閒拉筋得閒Build肌．馬德荃 Derek Ma

得閒拉筋得閒Build肌．馬德荃 Derek Ma

得閒拉筋得閒Build肌．馬德荃 Derek Ma

得閒拉筋得閒Build肌．馬德荃 Derek Ma

得閒拉筋得閒Build肌．馬德荃 Derek Ma

得閒拉筋得閒Build肌．馬德荃 Derek Ma

得閒拉筋得閒Build肌．馬德荃 Derek Ma

食療新意思．陳沛思

山今養生智慧．山今老人岑逸飛

食療新意思．陳沛思

食療新意思．陳沛思

山今養生智慧．山今老人岑逸飛

食療新意思．陳沛思

山今養生智慧．山今老人岑逸飛

山今養生智慧．山今老人岑逸飛

山今養生智慧．山今老人岑逸飛

小薯茶水間． Katty Wu

特朗普當選｜244磅「圓美」身型是這樣鍊成的！新總統最愛的6樣美食：麥當勞朱古力奶昔、十成熟牛扒加茄汁、千島醬新文章

聖誕好去處2024｜天線寶寶聖誕回歸！將軍澳7.5米高巨型充氣Po坐鎮三大互動區必玩極速滑梯！每日飄雪匯演＋慈善心意卡換領新文章

小薯茶水間． Eunice Chow

北上玩樂︱深圳版「釜山天空膠囊小火車」爆紅！單程體驗幾錢？雲海天使灣沙灘打卡超靚＋餵梅花鹿！跟團買一送一人均$199起仲抵玩？即睇交通方法新文章

開運食物│麥玲玲教食1樣食物添運氣自爆催旺桃花靠燒嘢食追老公？兼公開「食物開運法」!!! 新文章

小薯茶水間． Katty Wu

雷鼎鳴新文章

張翠容新文章