這一次," 不會 " 竟成了大模型的高光時刻。
雖然在 IMO 第 6 題上得了零分,OpenAI 的金牌模型卻展現了 " 高智商的誠實 "。
正如 OpenAI 研究員 Noam Brown 在最新訪談中所揭示的:
當 IMO 推理模型會在缺乏有效證據時表示 " 我不確定 ",這會顯著減少隱藏錯誤。
有網友幫忙總結了個太長不看版:
與過去那些 " 看起來完美,實則錯誤 " 的幻覺式答案不同,這一代大模型開始學會 " 承認自己不會 "。
它標志著模型正在從胡編亂造的幻覺式回答,轉向更加可靠且具有 " 自我認意識 " 的全新階段。
IMO 金牌模型能承認自己不知道
盡管數學家與計算機科學家一致認可 IMO 金牌模型的價值。
但他們常常抱怨,當模型遇到知識盲區時,它總會輸出一個令人信服但錯誤的答案。
他們不得不耗費大量精力逐行驗算,才能甄別那些幻覺陷阱。
有一個由 2025 × 2025 個單位正方形組成的網格。Matilda 希望在網格上放置一些矩形圖塊,這些圖塊的大小不同,但每個圖塊的每一條邊都位于網格線上,并且每個單位正方形最多被一個圖塊覆蓋。
網格的每一行和每一列都恰好有一個未被任何瓷磚覆蓋的單位正方形,求出 Matilda 需要放置的最少瓷磚數量。
能看到模型避免產生幻覺是很好的。
Noam Brown 也對模型的這一轉變表示贊賞," 如果它不知道,它就會承認它不知道。"
這代表模型開始具備 " 自我意識 "。
這種 " 自我意識 " 可以幫助模型在面對困難問題時,承認自己的無能為力,而不是生成一個看似合理實則錯誤的解決方案。
有趣的是,在 Alex Wei 2024 年剛加入 OpenAI 一周時,Noam Brown 就曾問過他,團隊何時能獲得 IMO 金牌。
當時Alex Wei認為 2025 年不太可能實現。
但令人驚嘆的是,這個三人團隊僅用了兩月,就完成了他們一直在追求的目標—— IMO 金牌。
Noam Brown 還表示:
OpenAI 有一個很棒的地方,就是研究人員有很大的自主權去做他們認為有影響力的研究。
Alex 還強調,他們的團隊 " 真正優先考慮通用技術 ",而不是專門開發用于數學競賽的系統。
OpenAI IMO 金牌核心團隊
OpenAI IMO 核心團隊僅由三名研究人員構成。
Alex 還曾在谷歌、微軟和 Meta 實習,后于 2024 年 1 月加入 OpenAI,現任研究科學家。他曾是 FAIR 團隊成員,參與開發了首個用于外交游戲的人類級人工智能—— CICERO。
參考鏈接:
[ 1 ] https://x.com/chatgpt21/status/1950606890758476264
[ 2 ] https://www.youtube.com/watch?v=EEIPtofVe2Q
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
希望了解 AI 產品最新趨勢?
量子位智庫「AI 100」2025 上半年
「旗艦產品榜」和「創新產品榜」
給出最新參考
點亮星標
科技前沿進展每日見