在美國科技富豪馬斯克高調推以20萬塊GPU集群訓練的AI大模型Grok-3的同時,中國的AI初創DeepSeek發布一項新技術——原生稀疏注意力(Native Sparse Attention, NSA)機制,可以將大語言模型處理長文本的速度,最高提升11.6倍,更在通用基準測試中,實現性能反超傳統"全注意力模型"。

內地傳媒報道,DeepSeek昨日公布一項由創始人梁文鋒親自參與的研究論文成果——原生稀疏注意力機制,是DeepSeek團隊在相關領域的創新性工作,結合算法創新和硬件優化,目的是解決長文建模中的計算瓶頸。

報道指,論文顯示,NSA仍未用於訓練DeepSeek V3模型,意味著將NSA整合到模型訓練,基座模型的能力有望顯著提升。論文明確指出,使用NSA預訓練的模型,超過傳統的"全注意力模型”。

相比之下,馬斯克的xAI選擇另一條道路,使用20萬塊GPU集群訓練Grok-3,未來的Grok4更計劃使用百萬塊GPU、1.2GW的集群。

科技媒體AI寒武紀表示,NSA的三大關鍵創新包括兼顧全局上下文感知和局部信息精確性;針對現代硬件進行優化,顯著提升計算速度;及支持端到端訓練,減少預訓練計算量,同時保持模型性能。

科技媒體信息平權表示,DeepSeek使用的Triton底層,可以調用輝達的CUDA,也可以調用其他計算平台的框架,包括AMD以至國產計算卡,暗示DeepSeek在模型研發階段,就已經開始考慮未來適配更多類型計算卡,為更廣泛、更普遍的開源做準備。