人類的最後一場考試(HLE):標記AI能力的新基準
你知道嗎?近來人工智能在各種標準測試中已經突破了多個環範,尤其是在大型語言模型上的進步真是快得令人驚訝。但是,當一個AI在一堆測試中可輕鬆獲得上千分,這標試還有意義嗎?大型語言模型真正的限制到底在哪裡?為了測試AI的真實智能較量,與大型模型學習速度相配的標準必須得上一個新階段。於是,由舊金山「人工智能安全中心」和Scale AI協作的「人類最後一場考試」(Humanity’s Last Exam,簡稱HLE)應運而生。它不僅是一系列額外困難的標準測試,更是一場執著的智慧考驗。
1 分鐘內可讀完
為什麼叫「人類最後一場考試」?
充滿挑戰性的標準並不少,但HLE為何能擺脫群身?簡單來說,它是目前最接近「人類求知」的考驗。HLE包括了過一百個頗特別的學科領域,這並非僅僅是數學與物理,還包括文學、哲學、道德學、自然科學等。這些問題不僅涉及執行知識,更要求深層次的理解與推理能力。
除了多元化的類別,HLE還包括了各種問題形式:不僅是單選題,還包括解釋題和論文題。目的就是使AI在專業認知與關聯思考能力上推向極限。
AI表現怎麼樣?
如果你想看看現存的巨頭系統能否突破HLE的障礙,結果可能會讓你大吃一驚。
近期將多個大型模型對HLE進行測試,結果表示:
- GPT-4o:3.3%
- Grok-2:3.8%
- Claude 3.5 Sonnet:4.3%
- Gemini Thinking:7.7%
- o1:9.1%
- DeepSeek-R1:9.4%
這些模型在其他測試中可以得分超過90%,但在HLE上卻什麼法子都沒了。這個結果不僅讓人驚訝,更是在提醒我們:大型模型還遠遠沒有達到「真正智慧」的水準。
未來:AI能成功通過HLE嗎?
目前模型表現遠不理想,但我們不能忽視過去幾年來AI的飛躍進步。隨著技術的進歷,誰能保証一年內沒有模型達到HLE的50%正確率?
HLE是人類之對AI智慧的正式挑戰,它不僅是一場考試,也是研究人工智能未來的重要基石。