DeepSeek宣布推出最新的數學推理模型DeepSeekMath-V2,在模擬的2025年國際數學奧林匹克競賽中,解決6個問題中的5個,達到金牌水平,成為第一個在相關級別競賽中獲得金牌的開源模型,標志開源人工智能在複雜推理能力上一次重大突破。

今年7月,Google的Gemini高級版本,和一個來自OpenAI的實驗性推理模型,亦達到國際數學奧林匹克競賽的金牌標準,同樣解決5個問題,是首批達到這個水平的閉源人工智能模型。

報道指,DeepSeekMath-V2採用一種創新的自我驗證訓練框架。核心是訓練一個專門的"驗證器",任務是評估證明過程的質量,而不是最終答案的對錯。DeepSeek亦不斷提升驗證過程的難度,確保驗證器與生成器同步進化,被視為是人工智能民主化的重要一步,可能再次引發市場對於開源模型是否會侵蝕閉源產品商業護城河的討論。

DeepSeekMath-V2的表現,意味在複雜的數學推理領域,同全球領先的AI實驗室站在同一起跑線。國際數學奧林匹克競賽被認為是全球難度最高的高中生數學競賽,在2025年的競賽中,630名人類參賽者中,只有72人獲得金牌。

DeepSeek表示,模型在中國最頂尖的全國性競賽——中國數學奧林匹克中,亦都達到金牌水平。在面向大學本科生的普特南數學競賽中,模型在12道題中,完全解決11道,另一道題亦只有微小錯誤,最終在120分滿分中,得分118,超過人類參加者90分的最高分記錄。

DeepSeek模型的權重,已在開源社區Hugging Face上發布,允許研究人員和開發者自由下載。Hugging Face的聯合創始人兼行政總裁Clement Delangue在社交平台X形容:"想象一下,你可以免費擁有世界上最優秀數學家之一的大腦。"

他補充說,據他所知,之前無任何聊天機器人或API,能讓人接觸到一個國際數學奧林匹克競賽中金牌水平的模型。用戶可以不受限制地探索、微調、優化模型,並運行在自己的硬件上,無任何公司或政府可以收回它,是人工智能和知識民主化的最佳體現。