由DeepSeek團隊完成、創始人梁文鋒擔任通訊作者的DeepSeek-R1推理模型研究論文,登上國際權威學術期刊《自然(Nature)》的封面,成為首個通過同行評議的主要大語言模型。

DeepSeek明確否認外界指他們使用OpenAI模型輸出進行訓練的質疑。DeepSeek指V3 Base(R1的基座模型)使用的數據全部來自互聯網,雖然可能包含GPT-4生成的結果,但絕非有意,更沒有專門的蒸餾環節。

DeepSeek首次公開單靠強化學習,就能激發大模型推理能力的重要研究成果。DeepSeek R1的核心創新,在於採用"純強化學習"的自動化試錯方法,通過獎勵模型達到正確答案的行為,來學習推理策略,而非傳統模仿人類預設的推理模式。

DeepSeek團隊還首次公開,R1訓練成本僅為29.4萬美元。這個金額即使加上約600萬美元的基礎模型成本,亦遠低於OpenAI、谷歌訓練AI的成本。在開源之後,R1在Hugging Face平台下載量破1090萬次,成為全球最受歡迎的開源推理模型。

《自然》期刊不但將論文作為封面,還在評論報道文章中,形容是「里程碑式論文、揭示 DeepSeek AI模型的秘密」、「創造歷史」等,表達讚賞和肯定。《自然》雜誌又指,隨著AI技術日漸普及,大模型廠商無法驗證的宣傳,可能對社會帶來風險。依靠獨立研究人員進行的同行評審,是抑制AI行業過度炒作的有效方式。而DeepSeek所做的一切,是非常值得歡迎的先例。

DeepSeek在8月21日發布最新的大語言模型DeepSeek-V3.1,據團隊介紹,新升級版本的變化主要體現在三個方面:混合推理架構、更高的思考效率、更強的智能體(Agent)能力。DeepSeek-V3.1實現一個模型同時支持思考模式與非思考模式。