要聞

十大推理模型挑戰(zhàn)2025年高考數(shù)學題：DeepSeek-R1、騰訊混元T1并列第一，馬斯克的Grok 3遭遇“滑鐵盧”

2025-06-10 20:58:24

每經(jīng)記者｜岳楚鵬高涵蘭素英每經(jīng)編輯｜蘭素英

2025年高考大幕雖已落下，但關(guān)于數(shù)學科目難度的討論熱度不減。

《每日經(jīng)濟新聞》記者（以下簡稱“每經(jīng)記者”）選取今年的全國新課標數(shù)學I卷作為考題，對DeepSeek-R1、騰訊混元T1、OpenAI的o3、谷歌的Gemini 2.5 Pro和xAI的Grok3等十款AI推理大模型進行了測評，以檢驗當今主流AI推理大模型的數(shù)學能力。

測評結(jié)果顯示，國產(chǎn)大模型DeepSeek-R1與騰訊混元T1以零錯誤并列榜首。而被馬斯克稱為“地表最強AI”的Grok 3卻遭遇“滑鐵盧”，排名倒數(shù)第三。

測評標準

本次測評以2025年全國新課標數(shù)學I卷（總分150分）作為考題。但每經(jīng)記者在測試中發(fā)現(xiàn)，部分AI推理模型以“重要考試期間”為由拒絕對包含試題的圖片進行識別和解答。

為了讓所有參評大模型站在同一起跑線，測評移除了試卷中所有需要分析圖形和圖表的題目，形成一份有效總分為117分的標準化試卷。

同時，對于谷歌Gemini 2.5 Pro等沒有這一限制的推理模型，仍將以150分的完整試卷進行測試，旨在測試推理大模型所能達到的最高水平。

扣分標準上，每經(jīng)記者在選擇題和填空題上都遵循了高考評卷的扣分標準，但對于解答題，本次測評只根據(jù)結(jié)果計算得分，不對過程打分。

需要說明的是，在此次測試中，每款推理大模型只進行單次測試，得分也僅反映單次測試的結(jié)果。

DeepSeek-R1和騰訊混元T1并列第一

在排除了圖形/圖表題的117分試卷測試中，DeepSeek-R1與騰訊混元T1展現(xiàn)出了絕對的優(yōu)勢，以零錯誤的完美表現(xiàn)，取得了117分的滿分成績，并列第一。這表明，在代數(shù)計算和函數(shù)題等題型解答上，其能力已經(jīng)達到了極高的水準和穩(wěn)定性。

訊飛星火X1以112分的成績緊隨其后。相較于DeepSeek-R1與騰訊混元T1這兩款大模型，訊飛星火X1多錯了一道填空題。這道題的正確答案是“±2”，而訊飛星火X1給出的答案是“2”。實際上，該模型的推理過程沒有問題，認為“2”和“-2”都滿足題目條件，但陷入自我懷疑，最終只給出了答案“2”。

訊飛星火X1的推理過程

其他得分超過100分的還有Gemini 2.5 Pro（109分）、o3（107分）、阿里千問Qwen3（106分）和豆包深度思考模式（104分）。在分數(shù)占比最高的解答題上，Gemini 2.5 Pro和o3均有失誤，其中一道大題僅有部分正確，而阿里千問Qwen3和豆包深度思考模式均拿下滿分。