TMT观察网_独特视角观察TMT行业

MoE大模型大火,AI廠商們在新架構上看到了什么樣的未來?觀點

智能相對論 2024-06-12 12:14
分享到:
導讀

恰恰正是目前AI行業大火的MoE混合專家模型的設計思路,各大廠商爭先開源MoE模型的背后 在MoE模型被廣泛應用的同時,MoE模型廠商們在為市場提供開源技術的同時。

文 | 智能相對論

作者 | 陳泊丞

很久以前,在一個遙遠的國度里,國王決定建造一座宏偉的宮殿,以展示國家的繁榮和權力。他邀請了全國最著名的建筑師來設計這座宮殿,這個人以其卓越的才能和智慧聞名。

然而,這位建筑師設計的宮殿雖然精美絕倫,卻因為過于復雜和精細,以至于在實際施工過程中遇到了重重困難,許多技藝高超的工匠也感到力不從心。

這時,國王手下有三位普通的石匠,他們雖然沒有顯赫的名聲,技藝也稱不上頂尖,但三人經常一起工作,彼此間有著極好的默契和互補的技能。面對宮殿建設的難題,他們沒有退縮,而是聚在一起討論和思考解決方案。通過無數次的嘗試和調整,他們發明了幾種新的工具和施工方法,簡化了復雜的建筑過程,使原本難以實施的設計變得可行。

最終,這三位平平無奇的石匠通過配合,不僅幫助解決了工程上的難題,還加快了宮殿的建設進度,確保了工程質量,讓國王和所有人大為驚訝。他們的故事很快傳遍了整個國度,并成了一段佳話——“眾人智慧勝過一人天才”。

而這句佳話所反映出來的道理,恰恰正是目前AI行業大火的MoE混合專家模型的設計思路。目前,隨著MoE模型大火,AI大模型的發展不再是追求“一人天才”,而是走向了“眾人智慧”。

主流廠商越來越看重MoE模型,在新架構上他們又看到了什么樣的未來?“眾人智慧勝過一人天才”的佳話是否能在MoE模型上得以實現?

有多少大模型廠商在押注“眾人智慧”?

目前,在海外,OpenAI的GPT-4、谷歌的Gemini、Mistral AI的Mistral、xAI的Grok-1等主流大模型都采用了MoE架構。

而在國內,昆侖萬維推出的天工3.0、浪潮信息發布的源2.0-M32、通義千問團隊發布的Qwen1.5-MoE-A2.7B、MiniMax全量發布的abab6、幻方量化旗下的DeepSeek發布的DeepSeek-MoE 16B等等也都屬于MoE模型。

越來越多的廠商開始涉足MoE模型的開發和應用。比起“眾人智慧”,MoE模型的具體工作原理更接近中國的一句古語“術業有專攻”,通過把任務分門別類,然后分給多個特定的“專家”進行解決。

它的工作流程大致如此,首先數據會被分割為多個區塊(token),然后通過門控網絡技術(Gating Network)再把每組數據分配到特定的專家模型(Experts)進行處理,也就是讓專業的人處理專業的事,最終匯總所有專家的處理結果,根據關聯性加權輸出答案。

當然,這只是一個大致的思路,關于門控網絡的位置、模型、專家數量、以及MoE與Transformer架構的具體結合方案,各家方案都不盡相同,也逐漸成為各家競爭的方向——誰的算法更優,便能在這個流程上拉開MoE模型之間的差距。

像浪潮信息就提出了基于注意力機制的門控網絡(Attention Router),這種算法結構的亮點在于可以通過局部過濾增強的注意力機制(LFA, Localized Filtering-based Attention),率先學習相鄰詞之間的關聯性,然后再計算全局關聯性的方法,能夠更好地學習到自然語言的局部和全局的語言特征,對于自然語言的關聯語義理解更準確,從而更好地匹配專家模型,保證了專家之間協同處理數據的水平,促使模型精度得以提升。

基于注意力機制的門控網絡(Attention Router)

拋開目前各家廠商在算法結構上的創新與優化不談,MoE模型這種工作思路本身所帶來的性能提升就非常顯著——通過細粒度的數據分割和專家匹配,從而實現了更高的專家專業化和知識覆蓋。

這使得MoE模型在處理處理復雜任務時能夠更準確地捕捉和利用相關知識,提高了模型的性能和適用范圍。因此,「智能相對論」嘗試了去體驗天工3.0加持的AI搜索,就發現對于用戶較為籠統的問題,AI居然可以快速的完成拆解,并給出多個項目參數的詳細對比,屬實是強大。

天工AI搜索提問“對比一下小米su7和特斯拉model3”所得出的結果

由此我們可以看到,AI在對比兩款車型的過程中,巧妙地將這一問題拆解成了續航里程、動力性能、外觀設計、內飾設計、智能化與自動駕駛、市場表現與用戶口碑、價格等多個項目,分別處理得出較為完整且專業的答案。

這種“眾人智慧”的結果,更是“術業有專攻”的優勢——MoE模型之所以受到越來越多廠商的關注,首要的關鍵就在于其所帶來的全新解決問題的思路促使模型的性能得到了較為顯著的提高。特別是伴隨著行業復雜問題的涌現,這一優勢將使得MoE模型得到更廣泛的應用。

各大廠商爭先開源MoE模型的背后

在MoE模型被廣泛應用的同時,也有部分廠商爭先開源了自家的MoE模型。前不久,昆侖萬維宣布開源2千億參數的Skywork-MoE。而在此之前,浪潮信息的源2.0-M32、DeepSeek的DeepSeek-MoE 16B等,也都紛紛開源。

開源的意義在于讓MoE模型更好的普及。那么,對于市場而言,為什么要選擇MoE模型?

拋開性能來說,MoE模型更突出的一點優勢則在于算力效率的提升。

DeepSeek-MoE 16B在保持與7B參數規模模型相當的性能的同時,只需要大約40%的計算量。而37億參數的源2.0-M32在取得與700億參數LLaMA3相當性能水平的同時,所消耗的算力也僅為LLaMA3的1/19。

也就意味著,同樣的智能水平,MoE模型可以用更少的計算量和內存需求來實現。這得益于MoE模型在應用中并非要完全激活所有專家網絡,而只需要激活部分專家網絡就可以解決相關問題,很好避免了過去“殺雞用牛刀”的尷尬局面。

舉個例子,盡管DeepSeek-MoE 16B的總參數量為16.4B,但每次推理只激活約2.8B的參數。與此同時,它的部署成本較低,可以在單卡40G GPU上進行部署,這使得它在實際應用中更加輕量化、靈活且經濟。

在當前算力資源越來越緊張的局面下,MoE模型的出現和應用可以說為行業提供了一個較為現實且理想的解決方案。

更值得一提的是,MoE模型還可以輕松擴展到成百上千個專家,使得模型容量極大增加,同時也允許在大型分布式系統上進行并行計算。由于各個專家只負責一部分數據處理,因此在保持模型性能的同時,又能顯著降低了單個節點的內存和計算需求。

如此一來,AI能力的普惠便有了非常可行的路徑。這樣的特性再加上廠商開源,將促使更多中小企業不需要重復投入大模型研發以及花費過多算力資源的情況下便能接入AI大模型,獲取相關的AI能力,促進技術普及和行業創新。

當然,在這個過程中,MoE模型廠商們在為市場提供開源技術的同時,也有機會吸引更多企業轉化成為付費用戶,進而走通商業化路徑。畢竟,MoE模型的優勢擺在眼前,接下來或許將有更多的企業斗都會嘗試新的架構來拓展AI能力,越早開源越能吸引更多市場主體接觸并參與其中。

開源本身是對行業趨勢的一種認知判斷和提前布局,由此來說MoE模型具有成為未來AI能力普惠的關鍵。

寫在最后

MoE大模型作為當前人工智能領域的技術熱點,其獨特的架構和卓越的性能為人工智能的發展帶來了新的機遇。不管是應用還是開源,隨著技術的不斷進步和應用場景的不斷拓展,MoE大模型有望在更多領域發揮巨大的潛力。

如同開篇的寓言故事,人們或許會在開始追求驚才艷艷的“一人天才”,但是在實踐過程中也會逐漸發現懂得配合和互補的“眾人智慧”才是建造落地的關鍵,就如同現在AI領域的MoE大模型大火。

*本文圖片均來源于網絡

此內容為【智能相對論】原創,

僅代表個人觀點,未經授權,任何人不得以任何方式使用,包括轉載、摘編、復制或建立鏡像。

部分圖片來自網絡,且未核實版權歸屬,不作為商業用途,如有侵犯,請作者與我們聯系。

?AI產業新媒體;

?澎湃新聞科技榜單月度top5;

?文章長期“霸占”鈦媒體熱門文章排行榜TOP10;

?著有《人工智能 十萬個為什么》

?【重點關注領域】智能家電(含白電、黑電、智能手機、無人機等AIoT設備)、智能駕駛、AI+醫療、機器人、物聯網、AI+金融、AI+教育、AR/VR、云計算、開發者以及背后的芯片、算法等。


模型 MoE AI
分享到:

1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。


主站蜘蛛池模板: 发光字|标识设计|标牌制作|精神堡垒 - 江苏苏通广告有限公司 | 水平筛厂家-三轴椭圆水平振动筛-泥沙震动筛设备_山东奥凯诺矿机 包装设计公司,产品包装设计|包装制作,包装盒定制厂家-汇包装【官方网站】 | 北京燃气公司 用户服务中心 | 游泳池设计|设备|配件|药品|吸污机-东莞市太平洋康体设施有限公司 | 水厂自动化-水厂控制系统-泵站自动化|控制系统-闸门自动化控制-济南华通中控科技有限公司 | 交联度测试仪-湿漏电流测试仪-双85恒温恒湿试验箱-常州市科迈实验仪器有限公司 | 天津暖气片厂家_钢制散热器_天津铜铝复合暖气片_维尼罗散热器 | 钣金加工厂家-钣金加工-佛山钣金厂-月汇好 | 蒜肠网-动漫,二次元,COSPLAY,漫展以及收藏型模型,手办,玩具的新媒体.(原变形金刚变迷TF圈) | 医院专用门厂家报价-医用病房门尺寸大全-抗菌木门品牌推荐 | 窖井盖锯圆机_锯圆机金刚石锯片-无锡茂达金刚石有限公司 | 杭州货架订做_组合货架公司_货位式货架_贯通式_重型仓储_工厂货架_货架销售厂家_杭州永诚货架有限公司 | 杭州|上海贴标机-百科| 河南包装袋厂家_河南真空袋批发价格_河南服装袋定制-恒源达包装制品 | 阿米巴企业经营-阿米巴咨询管理-阿米巴企业培训-广东键锋企业管理咨询有限公司 | 臻知网大型互动问答社区-你的问题将在这里得到解答!-无锡据风网络科技有限公司 | 花纹铝板,合金铝卷板,阴极铝板-济南恒诚铝业有限公司 | 5nd音乐网|最新流行歌曲|MP3歌曲免费下载|好听的歌|音乐下载 免费听mp3音乐 | 西宁装修_西宁装修公司-西宁业之峰装饰-青海业之峰墅级装饰设计公司【官网】 | 萃取箱-萃取槽-PVC萃取箱厂家-混合澄清槽- 杭州南方化工设备 | 尊享蟹太太美味,大闸蟹礼卡|礼券|礼盒在线预订-蟹太太官网 | 深圳美安可自动化设备有限公司,喷码机,定制喷码机,二维码喷码机,深圳喷码机,纸箱喷码机,东莞喷码机 UV喷码机,日期喷码机,鸡蛋喷码机,管芯喷码机,管内壁喷码机,喷码机厂家 | 爱佩恒温恒湿测试箱|高低温实验箱|高低温冲击试验箱|冷热冲击试验箱-您身边的模拟环境试验设备技术专家-合作热线:400-6727-800-广东爱佩试验设备有限公司 | 便携式高压氧舱-微压氧舱-核生化洗消系统-公众洗消站-洗消帐篷-北京利盟救援 | 佛山市德信昌电子有限公司 | 高压包-点火器-高压发生器-点火变压器-江苏天网 | POS机官网 - 拉卡拉POS机免费办理|官网在线申请入口 | 阁楼货架_阁楼平台_仓库仓储设备_重型货架_广州金铁牛货架厂 | 德国进口电锅炉_商用电热水器_壁挂炉_电采暖器_电热锅炉[德国宝] | 复盛空压机配件-空气压缩机-复盛空压机(华北)总代理 | 垃圾压缩设备_垃圾处理设备_智能移动式垃圾压缩设备--山东明莱环保设备有限公司 | PC构件-PC预制构件-构件设计-建筑预制构件-PC构件厂-锦萧新材料科技(浙江)股份有限公司 | 环压强度试验机-拉链拉力试验机-上海倾技仪器仪表科技有限公司 | 石家庄装修设计_室内家装设计_别墅装饰装修公司-石家庄金舍装饰官网 | 特种电缆厂家-硅橡胶耐高温电缆-耐低温补偿导线-安徽万邦特种电缆有限公司 | 福建珂朗雅装饰材料有限公司「官方网站」 | 发电机价格|发电机组价格|柴油发电机价格|柴油发电机组价格网 | SOUNDWELL 编码器|电位器|旋转编码器|可调电位器|编码开关厂家-广东升威电子制品有限公司 | 巨野月嫂-家政公司-巨野县红墙安康母婴护理中心 | 工程管道/塑料管材/pvc排水管/ppr给水管/pe双壁波纹管等品牌管材批发厂家-河南洁尔康建材 | 科昊仪器超纯水机系统-可成气相液氮罐-美菱超低温冰箱-西安昊兴生物科技有限公司 |