英偉達“超神”的背后:AI廠商迫切地在MoE模型上尋求算力新解法觀點

MoE模型的持續迭代在解決AI算力荒的同時也在跨越式地提升AI模型的性能,簡單對比一下MoE模型和Dense模型的計算性能,MoE模型在計算性能上并沒有因為算力的問題而大打折扣。
文 | 智能相對論
作者 | 陳泊丞
在過去的一年多時間內,英偉達破天荒地完成了市值的“三級跳”。
一年前,英偉達的市值并尚不足1萬億美元,位居谷歌母公司Alphabet、亞馬遜、蘋果和微軟等科技巨頭之后。
時至今日,英偉達市值突破3萬億美元,超越蘋果,僅次于微軟。
這樣的成就歸功于英偉達在AI芯片領域的顯著優勢。隨著生成式AI進入規?;l階段,算力需求愈發膨脹,由此英偉達的AI芯片便成了市場的“香餑餑”。
然而,市場對算力的需求遠超大眾的想象,英偉達的高端芯片也是一卡難求,在這個節點上AI行業不得不在其他層面上尋求破局算力荒的新解法。
如今,在算法架構上,MoE混合專家模型憑借其在算力效率上的顯著優勢持續走紅,成為越來越多AI廠商共同探索的新方向。
那么,MoE模型的走紅,是否真的能為AI行業破解算力荒?
MoE模型劍指算力效率:優化算法,壓榨性能
區別于稠密(Dense)模型,MoE模型采用采用稀疏激活機制,在處理任務的過程中往往可以根據不同的任務需求,只需要激活一部分專家網絡即可,而非激活全部參數,從而很好地提高了計算效率,更高效地利用計算資源。
比如,阿里巴巴的Qwen1.5-MoE-A2.7B模型在總參數量為143億的情況下,每次推理只激活27億參數。類似的,DeepSeek-MoE 16B的總參數量為164億,但每次推理只激活約28億的參數等等。
以上這種設計,就有效平衡了模型的性能與計算資源的使用效率。
因此,盡管MoE模型通常擁有更多的參數,但由于其稀疏性,訓練開銷可以顯著降低。又比如,在實踐中,使用Qwen1.5-MoE-A2.7B相比于Qwen1.5-7B,訓練成本顯著降低了75%。
再以浪潮信息的源2.0-M32開源MoE模型來說,我們發現,源2.0-M32在2顆CPU,80GB內存的單臺服務器上即可部署高性能推理服務,而Llama3-70B則需要在4顆80G顯存的GPU服務器上才能完成部署和運行。
通過這樣的對比,就可以發現,憑借MoE模型在算力效率上的顯著優勢便能在AI基礎設施層面減少投入,緩解對高端GPU芯片的過度依賴。根據推算性能測試,如今源2.0-M32的單Token推理算力需求是Llama3-70B的1/19。
之所以能達到這樣的效果,是因為MoE模型通過將模型劃分為多個小型的專家網絡,而這種劃分允許模型在保持性能的同時,減少所需的存儲空間和內存帶寬。由于在訓練過程中模型大小的減少,MoE模型需要的計算資源也隨之減少,這意味著相比于同等性能的密集模型,MoE可以以更低的硬件成本和更短的訓練時間完成訓練。
可以說,MoE模型本質上是一種高效的Scaling技術,在允許參數規模拓展的過程中也為算力投入提供了一個較好的解決方案,讓大模型在保證規模和精度的同時具備了加速落地的可能。
更少的算力是否意味著性能打折?
盡管MoE模型可以用較少的算力去進行訓練,但這并不意味著其性能會大打折扣。
在實踐中,MoE模型通過細粒度專家的設計、非從頭訓練的初始化方法和帶有共享及路由專家的路由機制等技術創新,使模型在保持較小參數量的同時,能夠激活并利用更加精細的計算資源。這也就使得MoE模型在保持高性能的同時,有效降低了計算資源消耗。
簡單對比一下MoE模型和Dense模型的計算性能,源2.0-M32在支持BF16精度的2顆CPU服務器上,約20小時就能完成1萬條樣本的全量微調。而在同樣的CPU服務器上,Llama3-70B完成全量微調則是需要約16天的時間。
由此來說,MoE模型在計算性能上并沒有因為算力的問題而大打折扣,反而還提升了不少。同樣的算力支持,MoE模型可以產出更智能的應用和實現更高效的性能。
這樣的結果涉及MoE模型多種算法的創新和優化。MoE模型通過引入專家網絡(Expert Networks)和門控機制(Gating Mechanism)實現了模型的稀疏化和模塊化,但是模型的性能問題依舊還沒有得到很好的解決和優化。
隨后,行業繼續從不同的角度對MoE模型的性能提升進行探索。其中,QLoRA微調技術是針對預訓練模型的,通過對專家網絡的參數進行低秩分解,將高維參數矩陣分解為低秩矩陣的乘積。然后對這些低秩矩陣和量化參數進行微調,而不是整個專家網絡參數,進一步提升模型的性能。
同時,微軟又提出了一個端到端的MoE訓練和推理解決方案DeepSpeed-MoE,其通過深度優化MoE在并行訓練中的通信,減少通信開銷,并實現高效的模型并行。此外,DeepSpeed-MoE還提出了基于微調的專家排序機制,可以根據訓練過程中專家的損失動態調整輸入樣本到專家的分配,提升效果。
總的來說,針對MoE模型的性能問題,業內一直在致力于創新和探索新的算法和技術來進行提升和優化。目前,MoE所展現出了巨大的性能潛力,并不輸Dense模型。
寫在最后
現階段,算力吃緊是不爭的事實,日趨激烈的算力需求促使了英偉達的“超神”故事。但是,AI大模型廠商們也并非坐以待斃,針對算法架構層面的創新和優化持續涌現,MoE模型的走紅正預示著AI行業進入了算法+基礎設施兩手抓的階段。
可以預見的是,MoE模型的持續迭代在解決AI算力荒的同時也在跨越式地提升AI模型的性能,把人工智能帶入一個全新的發展階段。胡適曾提到一種經典的戰略思想:大膽假設,小心求證。
從某種程度來說,MoE模型的走紅,恰恰是這一戰略思路的呈現。AI行業對算力、性能等問題的探討,在假設和求證中,MoE模型為人工智能找到了一條更為清晰的發展之路。
*本文圖片均來源于網絡
此內容為【智能相對論】原創,
僅代表個人觀點,未經授權,任何人不得以任何方式使用,包括轉載、摘編、復制或建立鏡像。
部分圖片來自網絡,且未核實版權歸屬,不作為商業用途,如有侵犯,請作者與我們聯系。
?AI產業新媒體;
?澎湃新聞科技榜單月度top5;
?文章長期“霸占”鈦媒體熱門文章排行榜TOP10;
?著有《人工智能 十萬個為什么》
?【重點關注領域】智能家電(含白電、黑電、智能手機、無人機等AIoT設備)、智能駕駛、AI+醫療、機器人、物聯網、AI+金融、AI+教育、AR/VR、云計算、開發者以及背后的芯片、算法等。
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。