萬億參數Kimi K2開源 月之暗面研發工程師親述幕后故事快訊
另一位月之暗面研發人員、知乎答主Justin Wong談到Kimi K2為何會選擇開源時稱,的Kimi研發人員隨后在知乎展開,月之暗面開源MoBA框架研發人員鹿恩哲、蘇劍林分別在知乎上講述了研發思路。
【TechWeb】7月14日消息,日前,國內大模型獨角獸月之暗面正式發布并開源了其最新一代MoE架構基礎模型Kimi K2,總參數量達到1萬億(1T) ,引發圈內熱議。Kimi內部則將K2研發群戲稱為“接生群”,多位參與“接生”的Kimi研發人員隨后在知乎展開“親自答”,從多個角度深入講述了其背后研發歷程。
作為月之暗面 Infra側推理方面研發人員,知乎答主劉少偉談及了K2模型結構的設計宗旨。他稱K2模型是在DeepSeek V3結構的框架之下,如何選擇合適的參數,使得模型在訓練、推理成本與v3相當的前提下,獲得明顯更低的loss。“綜合以上四個相比v3的改動,我們能夠得到一個在相同EP數量下,雖然總參數增大到1.5倍,但除去通信部分,理論的prefill和decode耗時都更小的推理方案”。

月之暗面研究員、知乎答主Flood Sung則表示,Kimi K2最值得關注的信息,除了MuonClip帶來的漂亮得起飛的loss曲線,還有就是Agent能力。他透露,為了實現更好的通用Agent能力,構建了一個大規模的agent合成數據pipeline:簡單的說是一個完全自動化的agent數據生產工廠,通過全流程的模擬來過濾出好的Agent軌跡數據。Flood Sung稱,“這個生產線非常符合老子的思想:’一生二,二生三,三生萬物’。”
另一位月之暗面研發人員、知乎答主Justin Wong談到Kimi K2為何會選擇開源時稱,開源意味著能夠借助社區力量完善技術生態,“在我們開源不到24小時就看到有社區做出K2的MLX實現、4bit量化等等,這些憑我們這點人力真的做不出來”。月之暗面研究員、知乎答主Dylan則表示,K2實際上就是一個剛出生的baby,雖然略顯“靈性”,但和很多已久的frontier model(前沿模型)相比,還是有很多、很明顯的缺點,“作為post-train(后訓練)相關的同學,還是略感慚愧,希望后面的版本迭代里面能夠持續釋放K2 base model的潛力”。

據了解,開發者在AI成果發布的同時,越來越多選擇來知乎發布背后的詳盡思考。6月,月之暗面也曾發布一款Agent產品,Kimi-researcher兩位主要研發人員也在知乎親自答,解讀產品背后的技術思考和亮點。更早之前,月之暗面開源MoBA框架研發人員鹿恩哲、蘇劍林分別在知乎上講述了研發思路,引發了業界對“稀疏注意力”框架的討論。(周小白)
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。