內地傳媒報道,AI初創月之暗面旗下大模型Kimi發布技術報告,對大模型10年未有變化的核心結構殘差連接行重新設計,使每一層能夠選擇性地關注此前各層輸出,而非統一求和,48B模型訓練效率提升1.25倍,被行業解讀為提前預告了下一代模型的關鍵模塊。月之暗面三位聯合創始人楊植麟、吳育昕、周昕宇帶領幾十名研究員,完成這項研究。
論文發布後,科技富豪馬斯克在社交平台X評價Kimi的研究令人印象深刻,前OpenAI研究科學家Andrej Karpathy表示,Kimi的研究真正踐行"Attention is All You Need"的理念,推理之父、前OpenAI研究副總裁Jerry Tworek認為,深度學習2.0來了。
有網民在X平台比喻大模型是一座100層的大樓,每一層的工人工作後,將成果交給下一層。 過去10年,傳遞方式都是「流水賬」——每一層只能看到上一層遞過來的一份混合文件,前面誰寫了什麽、寫得好不好,全部混合一齊,不能夠分開。Kimi做的事情是為每一層裝了一部電話。第100層的工人如果覺得「第3層當時算的那個數據現在要用」,可以直接打電話回去查,不用再翻閱被改了97遍的混合文件。而且每個工人會根據自己手頭的任務,自己決定打給誰,並不是固定的。相關改動可以令同樣的機器、同樣的數據下,模型性能提升25%。
早前報道指,月之暗面在擴展融資輪中,尋求籌集至高10億美元的資金,公司的估值將達到約180億美元,是3個月前估值的4倍多。公司今年早些時候獲得逾7億美元的融資,當時估值達到100億美元。