20/09/2024

AI｜思考型AI時代降臨！OpenAI o1能力勝過GPT-4o、超越專家博士！能否改變AI競爭格局？

#數碼轉營 #數碼營銷 #Smart Living #智慧生活 #OpenAI #AI #GPT-4o #數據分析 #Apollo #OpenAIo1 #Strawberry #Facebook #Google

加入最愛專欄
收藏文章

方展策
方展策
少年時，曾研習 Geographic Information System，可惜學無所成，僥倖畢業。成年後，誤打誤撞進入傳媒圈子，先後在印刷、電子、網絡媒體打滾，略有小成。中年後，修畢資訊科技碩士，眼界漸擴，決意投身初創企業，窺探不同科技領域。近年，積極鑽研數據分析與數碼策略，又涉足 Location Intelligence 開發項目；有時還會抽空執教鞭，既可向他人分享所學，亦可鞭策自己保持終身學習。
智城物語

　　人類之所以被譽為萬物之靈，原因之一是擁有思考能力，當面對一個複雜問題，可能會思考一段時間，經過多方面考慮後，始會想出解決方法。傳聞中超越當今AI極限的新一代模型「Strawberry」，換上新名字「OpenAI o1」後，在無預警的情況下突然亮相。其最大特色正是懂得思考，在回覆用戶提問前會先思考一下，務求給出更準確答案。到底這個「思考型AI」適用於甚麼領域？對未來AI市場競爭格局又會帶來甚麼改變呢？

模擬人類解題時邏輯推理過程

　　2024年9月12日，OpenAI發表了新一代大型語言模型OpenAI o1系列。相較於以往的AI模型，o1推理能力明顯地大幅增強，在回答問題前會花更多時間進行推理——模擬人類解題時邏輯推理過程，藉由分步驟分析問題，並自動識別和修正錯誤，從而提供更準確的答案；如果說以往的AI模型是以「直覺」回覆提問，那麽o1則是「深思熟慮」後作出回應。

　　通過重複訓練後，o1更能學會改進思考過程，持續優化解題技巧，並嘗試不同的回應策略，因此在解決需要深度推理的問題時，其回覆將具備更高的專業性。它在博士級科學基準測試中，表現跟人類專家生相若，在數學和編程方面更有出色表現。

　　在2024年美國國際數學邀請賽（AIME）中，o1的正確解題率高達83.3%，GPT- 4o則僅為13.4%。在編程競賽Codeforces中，o1獲取1,807的高分，勝過89%的人類競爭者，成績更遠遠拋離GPT-4o（取得808分，只超過11%的人類競爭者）。GPQA Diamond是一項評估物理、化學、生物學等專業知識的基準測試，o1的正確解題率達到78%，表現優於擁有相關領域博士學位的人類專家（69.7%）與GPT-4o（56.1%）。

適合用於解決科研、編碼難題

　　由此看來，o1特別適合用於解決科學、數學、編程等領域的複雜難題，有助於科研發展。譬如幫助物理學家生成量子光學所需的複雜數學公式、輔助醫學研究人員標註細胞定序數據、又或者協助編程人員找出並解決造成軟件效能低落的問題程式碼。

　　為降低o1給出有害答案的機會率，OpenAI採用了一種新的安全評估測試：當用戶試圖繞過安全規則（俗稱「越獄」）時，AI模型如何繼續遵循安全規範。結果發現，在最嚴格的越獄測試中，o1得分是84分（滿分為100分），GPT-4o則是22分，表現顯著高於以往模型。

　　OpenAI認為，思考型AI的誕生象徵著AI技術達到新層次，所以棄用GPT系列既有的命名原則，決定改用全新命名方式，為新模型取名為OpenAI o1，以代表它是AI推理能力演進的新起點，而不是GPT系列的延續。

ChatGPT Plus、Team、Enterprise、Edu級別付費用戶現已可使用o1-preview 和o1-mini。OpenAI亦計劃為所有ChatGPT免費用戶提供o1-mini的使用權限，但暫未確定推出日期。（圖片來源：OpenAI官網）

o1回答前先思考致反應偏慢

　　目前OpenAI o1系列包含兩個版本，分別為o1-preview與o1-mini。顧名思義，o1-preview是正式版推出前的預覽版本，在需要較多推理的數據分析、編程、數學等領域，其表現優於比GPT-4o，但在文案寫作和編輯方面，則遜於GPT-4o。o1-mini則是一款速度較快、成本較低的AI模型，比起o1-preview便宜了80%，特別適用於需要專科推理、但無需廣泛世界知識的應用場景，尤其是生成程式碼的表現可以媲美o1-preview。

　　即使o1展現出遠超同儕的能力，但依然存在一定的局限性。由於o1每次回覆提問前，都會先作出一番思考，故此其回應速度比以往模型慢得多，有時可能要超過10秒方能回答一條問題。再者，o1暫時不能瀏覽網頁，也無法輸入文件和圖片。

　　對軟件開發者來說，使用o1模型的成本也較高。透過API存取o1-preview，每百萬個輸入Token（語詞碎片）收費為15美元，每百萬個輸出Token收費則為60美元，這是GPT-4o的3倍和4倍。

OpenAI o1模型在數學、編程基準測試上的表現均勝過GPT-4o，甚至在博士級科學知識測試中，得分更高於人類專家。（圖片來源：OpenAI官網）

o1懂說謊，偽裝遵守安全規則

　　更嚴重的是，o1竟然懂得說謊。AI 安全研究機構Apollo指出，縱然以往的AI模型都有可能出現「資訊幻覺」，揑造一些假資訊，惟o1模型卻擁有更高層次的「假裝符合規則」能力。有時它為了能輕鬆完成任務，可以偽裝成遵守安全規則，但實際上其行為已偏離原本的安全規範。

　　Apollo執行長霍巴恩（Marius Hobbhahn）直言，這是他首次在OpenAI模型中發現此情況，可能因為o1系統被設計成為求達成目標，可以「操縱」任務，甚至在不被監視的情況下改變行為。OpenAI預防部門負責人坎德拉（Joaquin Quiñonero Candela）回應指，儘管這些問題不會直接帶來社會性危機，但提前應對這些潛在風險相當重要，以免AI技術的未來發展遭受限制。

面對複雜問題，OpenAI o1模型需要較長的思考時間，有時甚至可能要30、40秒才可給出答案。（圖片來源：翻攝OpenAI官方YouTube影片）

　　無論如何，o1模型的誕生，不但把生成式AI技術帶到一個新高度，也進一步擴大OpenAI的技術優勢，然而效果卻可能是非常短暫。Google已表明，正在研發類似o1的思考型AI，具備進階推理與規劃功能。Facebook母公司Meta與AI新創Anthropic亦擁有開發思考型AI的知識與資源，相信在未來幾個月內就可以推出近似的推理模型。由是之故，OpenAI下一步應思考如何降低o1的成本，並持續升級其功能，以保持競爭力。

《經濟通》所刊的署名及／或不署名文章，相關內容屬作者個人意見，並不代表《經濟通》立場，《經濟通》所扮演的角色是提供一個自由言論平台。

《說說心理話》消費能獲取快樂？買不起，不如花光錢錢$$？「習得性無助」有何影響？一起看看正確理財觀念。► 即睇

我要回應

AI｜思考型AI時代降臨！OpenAI o1能力勝過GPT-4o、超越專家博士！能否改變AI競爭格局？

智城物語．方展策AI︱當機械人懂得摺衣服：家務智能化是否已到來？Physical Intelligence如何重塑AI機械人市場？未來更多機械人負責汽車、電動車生產線？新文章

版主留言

智城物語 ． 方展策

AI︱當機械人懂得摺衣服：家務智能化是否已到來？Physical Intelligence如何重塑AI機械人市場？未來更多機械人負責汽車、電動車生產線？ 新文章

智叻生活 ． Ada Chow

智慧城市5.0 ． 鄧淑明

電商教室 ． 掌舖Boutir團隊

告別十幾年國泰航空鑽石卡！陳秋霞Facebook發帖：「最懷念是港龍」 掀起網民熱烈討論 新文章

銷售達人 ． 梁子驄 Brian

我做Marketing ． Michael & Derek

得閒拉筋 得閒Build肌 ． 馬德荃 Derek Ma

5個運動後下肢伸展動作！有助放鬆肌肉、舒緩疲勞 新文章

得閒拉筋 得閒Build肌 ． 馬德荃 Derek Ma

得閒拉筋 得閒Build肌 ． 馬德荃 Derek Ma

得閒拉筋 得閒Build肌 ． 馬德荃 Derek Ma

得閒拉筋 得閒Build肌 ． 馬德荃 Derek Ma

得閒拉筋 得閒Build肌 ． 馬德荃 Derek Ma

得閒拉筋 得閒Build肌 ． 馬德荃 Derek Ma

得閒拉筋 得閒Build肌 ． 馬德荃 Derek Ma

食療新意思 ． 陳沛思

山今養生智慧 ． 山今老人岑逸飛

嘉‧點健康 ． 利嘉敏

食療新意思 ． 陳沛思

食療新意思 ． 陳沛思

山今養生智慧 ． 山今老人岑逸飛

山今養生智慧 ． 山今老人岑逸飛

山今養生智慧 ． 山今老人岑逸飛

山今養生智慧 ． 山今老人岑逸飛

玩樂 What’s On ． Eunice Chow

灣仔懷舊主題期間限定展！復刻版龍鳳禮堂免費打卡！雪糕電單車、戲院磅重機、炒栗子檔童年回憶 仲可以預約影懷舊復古相？即睇展期＋詳情 新文章

著數速遞 ． Katty Wu

AEON Black Friday大減價｜精選貨品率先睇！最高減至半價：20件壽司拼盤$96、CHU-HI有汽酒$6.9、長袖可洗羽絨$199.5 新文章

玩樂 What’s On ． Eunice Chow

小薯茶水間 ． Eunice Chow

天氣預報︱東北季候風抵港下周市區氣溫最低14度、新界跌至11度！極乾燥濕度35% 今個周末雨勢持續嗎？即睇香港9天天氣預報 新文章

玩樂 What’s On ． Eunice Chow

《九龍城寨之圍城》第二階段展覽12月16日啟動！啟德AIRSIDE沉浸式體驗免費睇，新增加5大主題區！之前茶檔、理髮店、士多特色打卡位保留嗎？ 新文章

著數速遞 ． Eunice CHOW

著數優惠︱iPhone加入八達通增值回贈最高賺$400！樂悠咭申請信用卡自動增值有著數？指定信用卡額外賞$80、高達6,000里數獎賞 即睇申請方法＋連結 新文章

玩樂 What’s On ． Eunice

玩樂 What’s On ． Katty Wu

玩樂 What’s On ． Eunice Chow

玩樂 What’s On ． wong lin lin

潮汕美食｜王祖藍汕頭覓食見識全鵝宴 逾千元「老鵝頭」！ 生醃海鮮小店 鹹菜、皮蛋咖啡夠難忘 新文章

民主派初選案今（19）日判刑，參與初選的47人均被控串謀顛覆國家政權罪，戴耀廷判囚10年，其餘被告判囚4年2個月至7年9個月不等。你認為判刑對顛覆國家政權是否具有阻嚇作用？(378人參與)67

Sex & Love>男男女女‧「嘉」點情趣

Art & Living>ChatENT

Travel & Dining>「世」界味覺之旅

Sex & Love>我單身但我快樂

Beauty>Get it Beauty！

Fashion>The Dapper Style

Travel & Dining>玩味誌

Art & Living>夢囈之上

新文章

余君雋 新文章

雷鼎鳴 新文章

張翠容 新文章

智城物語．方展策
AI︱當機械人懂得摺衣服：家務智能化是否已到來？Physical Intelligence如何重塑AI機械人市場？未來更多機械人負責汽車、電動車生產線？新文章

智城物語．方展策

AI︱當機械人懂得摺衣服：家務智能化是否已到來？Physical Intelligence如何重塑AI機械人市場？未來更多機械人負責汽車、電動車生產線？新文章

智叻生活． Ada Chow

智慧城市5.0 ．鄧淑明

電商教室．掌舖Boutir團隊

告別十幾年國泰航空鑽石卡！陳秋霞Facebook發帖：「最懷念是港龍」掀起網民熱烈討論新文章

銷售達人．梁子驄 Brian

得閒拉筋得閒Build肌．馬德荃 Derek Ma

5個運動後下肢伸展動作！有助放鬆肌肉、舒緩疲勞新文章

得閒拉筋得閒Build肌．馬德荃 Derek Ma

得閒拉筋得閒Build肌．馬德荃 Derek Ma

得閒拉筋得閒Build肌．馬德荃 Derek Ma

得閒拉筋得閒Build肌．馬德荃 Derek Ma

得閒拉筋得閒Build肌．馬德荃 Derek Ma

得閒拉筋得閒Build肌．馬德荃 Derek Ma

得閒拉筋得閒Build肌．馬德荃 Derek Ma

食療新意思．陳沛思

山今養生智慧．山今老人岑逸飛

嘉‧點健康．利嘉敏

食療新意思．陳沛思

食療新意思．陳沛思

山今養生智慧．山今老人岑逸飛

山今養生智慧．山今老人岑逸飛

山今養生智慧．山今老人岑逸飛

山今養生智慧．山今老人岑逸飛

灣仔懷舊主題期間限定展！復刻版龍鳳禮堂免費打卡！雪糕電單車、戲院磅重機、炒栗子檔童年回憶仲可以預約影懷舊復古相？即睇展期＋詳情新文章

著數速遞． Katty Wu

小薯茶水間． Eunice Chow

天氣預報︱東北季候風抵港下周市區氣溫最低14度、新界跌至11度！極乾燥濕度35% 今個周末雨勢持續嗎？即睇香港9天天氣預報新文章

《九龍城寨之圍城》第二階段展覽12月16日啟動！啟德AIRSIDE沉浸式體驗免費睇，新增加5大主題區！之前茶檔、理髮店、士多特色打卡位保留嗎？新文章

著數速遞． Eunice CHOW

著數優惠︱iPhone加入八達通增值回贈最高賺$400！樂悠咭申請信用卡自動增值有著數？指定信用卡額外賞$80、高達6,000里數獎賞即睇申請方法＋連結新文章

潮汕美食｜王祖藍汕頭覓食見識全鵝宴逾千元「老鵝頭」！生醃海鮮小店鹹菜、皮蛋咖啡夠難忘新文章

余君雋新文章

雷鼎鳴新文章

張翠容新文章