人類的最後一場考試(HLE)：標記AI能力的新基準

AI 大考驗：「人類最後一場考試」為何讓頂尖模型全軍覆沒？

聽過「人類最後一場考試」(HLE) 嗎？這不是普通的測驗，而是對 AI 真正理解能力的終極挑戰。連最新的 Gemini 2.5 Pro、GPT-4o 都只拿到慘不忍睹的分數？一起來看看這場考試到底有多難，以及它對 AI 未來的意義。

最近 AI 真的很火，對吧？

你看看，現在的 AI 能寫詩、能畫畫，甚至能跟你聊天聊地，感覺好像什麼都難不倒它們了。我們常常看到新聞說哪個 AI 模型又在哪個測驗上拿了高分，好像它們離人類的智慧越來越近了。

但，你聽過一個叫「人類最後一場考試」（Humanity’s Last Exam, 簡稱 HLE）的玩意兒嗎？這名字聽起來是不是有點…嗯，中二？但別小看它，這可是目前公認對 AI 理解能力最嚴苛的考驗之一。

等等，「最後一場考試」？這名字也太誇張了吧？

先別急著吐槽！之所以叫這個名字，不是說考完世界就毀滅了啦。而是因為 HLE 的設計理念，就是要模擬人類知識的廣度和深度，去測試 AI 是不是真的「懂了」，而不只是「記住了」。

你想想看，一般的考試可能就考考數學、物理，或者語言能力。但 HLE 可不一樣，它涵蓋了超過一百個學科領域！這不光是有數理化，還包括了文學、哲學、倫理學、藝術史，甚至還有一些非常專業、冷門的知識。這就像是要 AI 不只會解方程式，還要能理解《紅樓夢》裡林黛玉的心情，或是解釋康德的哲學思想一樣。這挑戰，夠大了吧？

而且啊，HLE 的題目形式也很多元。不是只有選擇題讓你猜，還有需要你詳細解釋概念的問答題，甚至是要你寫小論文的題目。說白了，這考試就是要逼 AI 跳出死記硬背的模式，真正去思考、去推理、去融會貫通。

那…我們家 AI 考得怎麼樣？（嗯…有點尷尬）

好啦，說了這麼多，你一定很好奇，那些我們耳熟能詳的 AI 大咖，像是 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude，它們在這場「終極大考」中表現如何？

你可能會想，這些平常在各種測驗輕鬆拿 90 分以上的模範生，面對 HLE 應該也不會太差吧？

嗯…結果可能會讓你跌破眼鏡。

根據 AGI Safety Institute 公布的最新數據（更新到 2025 年 4 月 3 日），目前頂尖模型的表現是這樣的：

Gemini 2.5 Pro: 18.2%
o3-mini (high): 13.4%
DeepSeek-R1: 8.5%
Claude 3.7 Sonnet (16K): 8.0%
o1: 8.0%
GPT-4.5 Preview: 5.4%
Claude 3.5 Sonnet: 4.1%
GPT-4o: 2.7%

是的，你沒看錯，最強的 Gemini 2.5 Pro 也只有 18.2% 的正確率，而像 GPT-4o 這麼先進的模型，得分居然連 3% 都不到！這跟它們在其他基準測試上的表現簡直是天壤之別。

這結果告訴我們什麼？它像一盆冷水，提醒我們：目前的 AI 模型，雖然在模仿、生成方面很厲害，但距離真正像人類專家那樣進行跨領域、深層次的理解和推理，還有非常、非常長的一段路要走。

不只答錯，還錯得很有自信？談談「校準誤差」

更慘的是什麼你知道嗎？這些 AI 不只是答錯題目而已。HLE 測試中還有一個指標叫做「校準誤差」（Calibration Error），用來衡量 AI 對自己答案的「自信程度」跟「實際正確性」符不符合。

結果發現，這些模型在 HLE 上的校準誤差普遍很高（大多在 80% 到 90% 以上）。這是什麼意思？簡單來說，就是它們不僅答錯了，還常常「一本正經地胡說八道」，對自己的錯誤答案充滿信心。這就像你身邊那種明明不懂卻裝懂，還講得頭頭是道的朋友，是不是有點讓人哭笑不得？

這種高校準誤差，恰恰凸顯了目前 AI 的一個核心問題：它們還缺乏真正的「自我認知」和「不確定性判斷」能力。它們不太會說「我不知道」或「我不確定」，而是傾向於瞎掰一個答案出來。這在很多應用場景下，其實是蠻危險的。

好吧，現在不行，那以後呢？AI 能畢業嗎？

看到這裡，你可能會有點小失望。原來 AI 還這麼「笨」啊？

先別急著下定論。話說回來，雖然現在的成績單不太好看，但我們也不能忘了 AI 技術進步的速度有多驚人。幾年前，我們可能還無法想像 AI 能做到今天這樣。

HLE 的出現，其實是一件好事。它就像一面鏡子，清楚地照見了當前 AI 技術的不足之處，也為未來的研究指明了方向。研究人員可以針對 HLE 暴露出來的問題，去改進模型的架構、訓練方法和數據，讓 AI 不只會「學舌」，更能真正「理解」。

那麼，AI 最終能成功通過 HLE 這場大考嗎？老實說，誰知道呢？也許一年後，我們就能看到有模型達到 50% 的正確率，也許還需要更長的時間。

但可以肯定的是，HLE 將持續作為一個重要的里程碑和挑戰，鞭策著 AI 技術朝向更深邃、更接近人類智慧的層次邁進。這不僅是一場考試，更是我們探索智能本質、塑造科技未來的關鍵一步。

想了解更多關於「人類最後一場考試」的資訊嗎？

你可以直接造訪他們的官方網站：

Humanity’s Last Exam - AGI Safety Institute