TMT观察网_独特视角观察TMT行业

英偉達“超神”的背后:AI廠商迫切地在MoE模型上尋求算力新解法觀點

智能相對論 2024-06-20 17:22
分享到:
導讀

MoE模型的持續迭代在解決AI算力荒的同時也在跨越式地提升AI模型的性能,簡單對比一下MoE模型和Dense模型的計算性能,MoE模型在計算性能上并沒有因為算力的問題而大打折扣。

文 | 智能相對論

作者 | 陳泊丞

在過去的一年多時間內,英偉達破天荒地完成了市值的“三級跳”。

一年前,英偉達的市值并尚不足1萬億美元,位居谷歌母公司Alphabet、亞馬遜、蘋果和微軟等科技巨頭之后。

時至今日,英偉達市值突破3萬億美元,超越蘋果,僅次于微軟。

這樣的成就歸功于英偉達在AI芯片領域的顯著優勢。隨著生成式AI進入規?;l階段,算力需求愈發膨脹,由此英偉達的AI芯片便成了市場的“香餑餑”。

然而,市場對算力的需求遠超大眾的想象,英偉達的高端芯片也是一卡難求,在這個節點上AI行業不得不在其他層面上尋求破局算力荒的新解法。

如今,在算法架構上,MoE混合專家模型憑借其在算力效率上的顯著優勢持續走紅,成為越來越多AI廠商共同探索的新方向。

那么,MoE模型的走紅,是否真的能為AI行業破解算力荒?

MoE模型劍指算力效率:優化算法,壓榨性能

區別于稠密(Dense)模型,MoE模型采用采用稀疏激活機制,在處理任務的過程中往往可以根據不同的任務需求,只需要激活一部分專家網絡即可,而非激活全部參數,從而很好地提高了計算效率,更高效地利用計算資源。

比如,阿里巴巴的Qwen1.5-MoE-A2.7B模型在總參數量為143億的情況下,每次推理只激活27億參數。類似的,DeepSeek-MoE 16B的總參數量為164億,但每次推理只激活約28億的參數等等。

以上這種設計,就有效平衡了模型的性能與計算資源的使用效率。

因此,盡管MoE模型通常擁有更多的參數,但由于其稀疏性,訓練開銷可以顯著降低。又比如,在實踐中,使用Qwen1.5-MoE-A2.7B相比于Qwen1.5-7B,訓練成本顯著降低了75%。

再以浪潮信息的源2.0-M32開源MoE模型來說,我們發現,源2.0-M32在2顆CPU,80GB內存的單臺服務器上即可部署高性能推理服務,而Llama3-70B則需要在4顆80G顯存的GPU服務器上才能完成部署和運行。

通過這樣的對比,就可以發現,憑借MoE模型在算力效率上的顯著優勢便能在AI基礎設施層面減少投入,緩解對高端GPU芯片的過度依賴。根據推算性能測試,如今源2.0-M32的單Token推理算力需求是Llama3-70B的1/19。

之所以能達到這樣的效果,是因為MoE模型通過將模型劃分為多個小型的專家網絡,而這種劃分允許模型在保持性能的同時,減少所需的存儲空間和內存帶寬。由于在訓練過程中模型大小的減少,MoE模型需要的計算資源也隨之減少,這意味著相比于同等性能的密集模型,MoE可以以更低的硬件成本和更短的訓練時間完成訓練。

可以說,MoE模型本質上是一種高效的Scaling技術,在允許參數規模拓展的過程中也為算力投入提供了一個較好的解決方案,讓大模型在保證規模和精度的同時具備了加速落地的可能。

更少的算力是否意味著性能打折?

盡管MoE模型可以用較少的算力去進行訓練,但這并不意味著其性能會大打折扣。

在實踐中,MoE模型通過細粒度專家的設計、非從頭訓練的初始化方法和帶有共享及路由專家的路由機制等技術創新,使模型在保持較小參數量的同時,能夠激活并利用更加精細的計算資源。這也就使得MoE模型在保持高性能的同時,有效降低了計算資源消耗。

簡單對比一下MoE模型和Dense模型的計算性能,源2.0-M32在支持BF16精度的2顆CPU服務器上,約20小時就能完成1萬條樣本的全量微調。而在同樣的CPU服務器上,Llama3-70B完成全量微調則是需要約16天的時間。

由此來說,MoE模型在計算性能上并沒有因為算力的問題而大打折扣,反而還提升了不少。同樣的算力支持,MoE模型可以產出更智能的應用和實現更高效的性能。

這樣的結果涉及MoE模型多種算法的創新和優化。MoE模型通過引入專家網絡(Expert Networks)和門控機制(Gating Mechanism)實現了模型的稀疏化和模塊化,但是模型的性能問題依舊還沒有得到很好的解決和優化。

隨后,行業繼續從不同的角度對MoE模型的性能提升進行探索。其中,QLoRA微調技術是針對預訓練模型的,通過對專家網絡的參數進行低秩分解,將高維參數矩陣分解為低秩矩陣的乘積。然后對這些低秩矩陣和量化參數進行微調,而不是整個專家網絡參數,進一步提升模型的性能。

同時,微軟又提出了一個端到端的MoE訓練和推理解決方案DeepSpeed-MoE,其通過深度優化MoE在并行訓練中的通信,減少通信開銷,并實現高效的模型并行。此外,DeepSpeed-MoE還提出了基于微調的專家排序機制,可以根據訓練過程中專家的損失動態調整輸入樣本到專家的分配,提升效果。

總的來說,針對MoE模型的性能問題,業內一直在致力于創新和探索新的算法和技術來進行提升和優化。目前,MoE所展現出了巨大的性能潛力,并不輸Dense模型。

寫在最后

現階段,算力吃緊是不爭的事實,日趨激烈的算力需求促使了英偉達的“超神”故事。但是,AI大模型廠商們也并非坐以待斃,針對算法架構層面的創新和優化持續涌現,MoE模型的走紅正預示著AI行業進入了算法+基礎設施兩手抓的階段。

可以預見的是,MoE模型的持續迭代在解決AI算力荒的同時也在跨越式地提升AI模型的性能,把人工智能帶入一個全新的發展階段。胡適曾提到一種經典的戰略思想:大膽假設,小心求證。

從某種程度來說,MoE模型的走紅,恰恰是這一戰略思路的呈現。AI行業對算力、性能等問題的探討,在假設和求證中,MoE模型為人工智能找到了一條更為清晰的發展之路。

*本文圖片均來源于網絡

此內容為【智能相對論】原創,

僅代表個人觀點,未經授權,任何人不得以任何方式使用,包括轉載、摘編、復制或建立鏡像。

部分圖片來自網絡,且未核實版權歸屬,不作為商業用途,如有侵犯,請作者與我們聯系。

?AI產業新媒體;

?澎湃新聞科技榜單月度top5;

?文章長期“霸占”鈦媒體熱門文章排行榜TOP10;

?著有《人工智能 十萬個為什么》

?【重點關注領域】智能家電(含白電、黑電、智能手機、無人機等AIoT設備)、智能駕駛、AI+醫療、機器人、物聯網、AI+金融、AI+教育、AR/VR、云計算、開發者以及背后的芯片、算法等。


模型 MoE 性能
分享到:

1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。


主站蜘蛛池模板: 找果网 | 苹果手机找回方法,苹果iPhone手机丢了找回,认准找果网! | 脑钠肽-白介素4|白介素8试剂盒-研域(上海)化学试剂有限公司 | 智能型高压核相仪-自动开口闪点测试仪-QJ41A电雷管测试仪|上海妙定 | 桐城新闻网—桐城市融媒体中心主办 | 火锅底料批发-串串香技术培训[川禾川调官网]| 防火门-专业生产甲级不锈钢钢质防火门厂家资质齐全-广东恒磊安防设备有限公司 | 工业铝型材-铝合金电机壳-铝排-气动执行器-山东永恒能源集团有限公司 | 深圳希玛林顺潮眼科医院(官网)│深圳眼科医院│医保定点│香港希玛林顺潮眼科中心连锁品牌 | 中视电广_短视频拍摄_短视频推广_短视频代运营_宣传片拍摄_影视广告制作_中视电广 | 精密交叉滚子轴承厂家,转盘轴承,YRT转台轴承-洛阳千协轴承 | 冷柜风机-冰柜电机-罩极电机-外转子风机-EC直流电机厂家-杭州金久电器有限公司 | 集装箱标准养护室-集装箱移动式养护室-广州璟业试验仪器有限公司 | 影视模板素材_原创专业影视实拍视频素材-8k像素素材网 | 合肥网带炉_安徽箱式炉_钟罩炉-合肥品炙装备科技有限公司 | 河南生物显微镜,全自动冰冻切片机-河南荣程联合科技有限公司 | 一体化净水器_一体化净水设备_一体化水处理设备-江苏旭浩鑫环保科技有限公司 | 顶呱呱交易平台-行业领先的公司资产交易服务平台 | 袋式过滤器,自清洗过滤器,保安过滤器,篮式过滤器,气体过滤器,全自动过滤器,反冲洗过滤器,管道过滤器,无锡驰业环保科技有限公司 | 流程管理|流程管理软件|企业流程管理|微宏科技-AlphaFlow_流程管理系统软件服务商 | 汽车润滑油厂家-机油/润滑油代理-高性能机油-领驰慧润滑科技(河北)有限公司 | 瑞典Blueair空气净化器租赁服务中心-专注新装修办公室除醛去异味服务! | 安全,主动,被动,柔性,山体滑坡,sns,钢丝绳,边坡,防护网,护栏网,围栏,栏杆,栅栏,厂家 - 护栏网防护网生产厂家 | 艺术生文化课培训|艺术生文化课辅导冲刺-济南启迪学校 | 泡沫消防车_水罐消防车_湖北江南专用特种汽车有限公司 | 【灵硕展览集团】展台展会设计_展览会展台搭建_展览展示设计一站式服务公司 | 耐磨陶瓷管道_除渣器厂家-淄博浩瀚陶瓷科技有限公司 | 北京易通慧公司从事北京网站优化,北京网络推广、网站建设一站式服务商-北京网站优化公司 | 纯水设备_苏州皙全超纯水设备水处理设备生产厂家 | 拖鞋定制厂家-品牌拖鞋代加工厂-振扬实业中国高端拖鞋大型制造商 | 深圳工程师职称评定条件及流程_深圳职称评审_职称评审-职称网 | 碳纤维布-植筋胶-灌缝胶-固特嘉加固材料公司| 体视显微镜_荧光生物显微镜_显微镜报价-微仪光电生命科学显微镜有限公司 | 304不锈钢无缝管_不锈钢管厂家 - 隆达钢业集团有限公司 | 自动记录数据电子台秤,记忆储存重量电子桌称,设定时间记录电子秤-昆山巨天 | 河南包装袋厂家_河南真空袋批发价格_河南服装袋定制-恒源达包装制品 | 万师讲师网-优质讲师培训师供应商,讲师认证,找讲师来万师 | 防爆电机_防爆电机型号_河南省南洋防爆电机有限公司 | 硫化罐_蒸汽硫化罐_大型硫化罐-山东鑫泰鑫智能装备有限公司 | 杭州货架订做_组合货架公司_货位式货架_贯通式_重型仓储_工厂货架_货架销售厂家_杭州永诚货架有限公司 | 湿地保护| 锤式粉碎机,医药粉碎机,锥式粉碎机-无锡市迪麦森机械制造有限公司 |