螞蟻集團回應新模型訓練成本降低:基于不同芯片持續調優,會逐步開源快訊
導讀
大模型訓練成本有關消息,其 3000 億參數的 MoE 大模型可在使用國產 GPU 的低性能設備上完成高效訓練,百靈輕量版參數規模為 168 億(激活參數 27.5 億)。
3 月 24 日消息,據新浪科技報道,針對有關螞蟻“百靈”大模型訓練成本有關消息,螞蟻集團回應稱,公司針對不同芯片持續調優,以降低 AI 應用成本,目前已經取得一定進展,也將逐步通過開源分享。
附事件背景:
近日,螞蟻集團 Ling 團隊在預印版 Arxiv 平臺發表技術成果論文《每一個 FLOP 都至關重要:無需高級 GPU 即可擴展 3000 億參數混合專家 LING 大模型》,宣布推出兩款不同規模的 MoE (混合專家)大語言模型 —— 百靈輕量版(Ling-Lite)與百靈增強版(Ling-Plus),并提出一系列創新方法,實現在低性能硬件上高效訓練大模型,顯著降低成本。
百靈輕量版參數規模為 168 億(激活參數 27.5 億),增強版基座模型參數規模高達 2900 億(激活參數 288 億),性能均達行業領先水平。實驗表明,其 3000 億參數的 MoE 大模型可在使用國產 GPU 的低性能設備上完成高效訓練,性能與完全使用英偉達芯片、同規模的稠密模型及 MoE 模型相當。(清源)
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。