人類的最後一場考試(HLE):標記AI能力的新基準
1 分鐘內可讀完
AI 大考驗:「人類最後一場考試」為何讓頂尖模型全軍覆沒?
聽過「人類最後一場考試」(HLE) 嗎?這不是普通的測驗,而是對 AI 真正理解能力的終極挑戰。連最新的 Gemini 2.5 Pro、GPT-4o 都只拿到慘不忍睹的分數?一起來看看這場考試到底有多難,以及它對 AI 未來的意義。
最近 AI 真的很火,對吧?
你看看,現在的 AI 能寫詩、能畫畫,甚至能跟你聊天聊地,感覺好像什麼都難不倒它們了。我們常常看到新聞說哪個 AI 模型又在哪個測驗上拿了高分,好像它們離人類的智慧越來越近了。
但,你聽過一個叫「人類最後一場考試」(Humanity’s Last Exam, 簡稱 HLE)的玩意兒嗎?這名字聽起來是不是有點…嗯,中二?但別小看它,這可是目前公認對 AI 理解能力最嚴苛的考驗之一。
等等,「最後一場考試」?這名字也太誇張了吧?
先別急著吐槽!之所以叫這個名字,不是說考完世界就毀滅了啦。而是因為 HLE 的設計理念,就是要模擬人類知識的廣度和深度,去測試 AI 是不是真的「懂了」,而不只是「記住了」。
你想想看,一般的考試可能就考考數學、物理,或者語言能力。但 HLE 可不一樣,它涵蓋了超過一百個學科領域!這不光是有數理化,還包括了文學、哲學、倫理學、藝術史,甚至還有一些非常專業、冷門的知識。這就像是要 AI 不只會解方程式,還要能理解《紅樓夢》裡林黛玉的心情,或是解釋康德的哲學思想一樣。這挑戰,夠大了吧?
而且啊,HLE 的題目形式也很多元。不是只有選擇題讓你猜,還有需要你詳細解釋概念的問答題,甚至是要你寫小論文的題目。說白了,這考試就是要逼 AI 跳出死記硬背的模式,真正去思考、去推理、去融會貫通。
那…我們家 AI 考得怎麼樣?(嗯…有點尷尬)
好啦,說了這麼多,你一定很好奇,那些我們耳熟能詳的 AI 大咖,像是 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude,它們在這場「終極大考」中表現如何?
你可能會想,這些平常在各種測驗輕鬆拿 90 分以上的模範生,面對 HLE 應該也不會太差吧?
嗯…結果可能會讓你跌破眼鏡。
根據 AGI Safety Institute 公布的最新數據(更新到 2025 年 4 月 3 日),目前頂尖模型的表現是這樣的:
- Gemini 2.5 Pro: 18.2%
- o3-mini (high): 13.4%
- DeepSeek-R1: 8.5%
- Claude 3.7 Sonnet (16K): 8.0%
- o1: 8.0%
- GPT-4.5 Preview: 5.4%
- Claude 3.5 Sonnet: 4.1%
- GPT-4o: 2.7%
是的,你沒看錯,最強的 Gemini 2.5 Pro 也只有 18.2% 的正確率,而像 GPT-4o 這麼先進的模型,得分居然連 3% 都不到!這跟它們在其他基準測試上的表現簡直是天壤之別。
這結果告訴我們什麼?它像一盆冷水,提醒我們:目前的 AI 模型,雖然在模仿、生成方面很厲害,但距離真正像人類專家那樣進行跨領域、深層次的理解和推理,還有非常、非常長的一段路要走。
不只答錯,還錯得很有自信?談談「校準誤差」
更慘的是什麼你知道嗎?這些 AI 不只是答錯題目而已。HLE 測試中還有一個指標叫做「校準誤差」(Calibration Error),用來衡量 AI 對自己答案的「自信程度」跟「實際正確性」符不符合。
結果發現,這些模型在 HLE 上的校準誤差普遍很高(大多在 80% 到 90% 以上)。這是什麼意思?簡單來說,就是它們不僅答錯了,還常常「一本正經地胡說八道」,對自己的錯誤答案充滿信心。這就像你身邊那種明明不懂卻裝懂,還講得頭頭是道的朋友,是不是有點讓人哭笑不得?
這種高校準誤差,恰恰凸顯了目前 AI 的一個核心問題:它們還缺乏真正的「自我認知」和「不確定性判斷」能力。它們不太會說「我不知道」或「我不確定」,而是傾向於瞎掰一個答案出來。這在很多應用場景下,其實是蠻危險的。
好吧,現在不行,那以後呢?AI 能畢業嗎?
看到這裡,你可能會有點小失望。原來 AI 還這麼「笨」啊?
先別急著下定論。話說回來,雖然現在的成績單不太好看,但我們也不能忘了 AI 技術進步的速度有多驚人。幾年前,我們可能還無法想像 AI 能做到今天這樣。
HLE 的出現,其實是一件好事。它就像一面鏡子,清楚地照見了當前 AI 技術的不足之處,也為未來的研究指明了方向。研究人員可以針對 HLE 暴露出來的問題,去改進模型的架構、訓練方法和數據,讓 AI 不只會「學舌」,更能真正「理解」。
那麼,AI 最終能成功通過 HLE 這場大考嗎?老實說,誰知道呢?也許一年後,我們就能看到有模型達到 50% 的正確率,也許還需要更長的時間。
但可以肯定的是,HLE 將持續作為一個重要的里程碑和挑戰,鞭策著 AI 技術朝向更深邃、更接近人類智慧的層次邁進。這不僅是一場考試,更是我們探索智能本質、塑造科技未來的關鍵一步。
想了解更多關於「人類最後一場考試」的資訊嗎?
你可以直接造訪他們的官方網站:
Share on: