內地大模型企業DeepSeek創辦人梁文鋒為首在元旦日發布署名論文,提出名為mHC(流形約束超連接)的新型網絡架構,試圖解決大規模模型訓練中長期存在的穩定性與可擴展性問題,被業內視為面向下一代基礎架構的底層創新方向之一。

論文題為《mHC: Manifold-Constrained Hyper-Connections》,署名作者包括梁文鋒,文章指出,近年以超連接(HC)為代表的新設計,大幅拓寬「信息傳輸通道」、增加通道間連接,雖能提升模型表現,但同時帶來大規模訓練不穩定、可擴展性受限及內存訪問開銷偏大的問題。

mHC架構在保留性能提升的前提下,恢復信息「原樣傳遞」的特性,使訓練過程更穩定、更易向更大規模擴展。通俗而言,若將AI模型視作一條很長的「計算管道」,傳統計算鏈條傳遞訊息就像一條較窄的水管,流量一大容易「塞車」;超連接則把水管加粗,但水流過猛時可能沖壞管道。DeepSeek提出mHC則相當於加入「智能調節閥」,在保證水流充足的同時控制衝擊,並減少資源浪費。

DeepSeek在論文中表示,mHC為未來研究開啟多條值得探索的新路徑,團隊希望藉此重新喚起學界對宏觀架構設計的關注,尤其是從拓撲結構如何影響優化與表徵學習的角度出發,有望突破現有大模型訓練框架的瓶頸,為下一代基礎架構指明方向。

從產業角度看,若mHC方案在工程實踐中證明有效,企業在訓練更大規模基礎模型時,理論上可在相同算力條件下降低硬件投入、縮短訓練週期,令算力相對有限的中小AI公司也有能力嘗試更複雜模型設計,從而降低大模型研發門檻,並為多模態模型、工業級智能決策系統等對穩定性和規模要求更高的場景鋪路。

有行業人士評論指,mHC屬針對Transformer「最基礎問題」的底層創新,在DeepSeek既有研究積累基礎上,這類架構級突破或將在日後的DeepSeek V4版本中體現為「重大更新」。

自2025年初廣受關注以來,DeepSeek尚未正式發布R2或V4等里程碑版本,但持續在模型迭代與開源上加快節奏,已先後推出DeepSeek‑V3.2與V3.2‑Special,11月底亦開源數學推理模型DeepSeek‑Math‑V2,號稱達國際奧數金牌水準,並對外免費開放,被視為在垂直領域能力上的一項標誌性成果。