華為,在黎明之前快訊
華為的芯片技術(shù)落后一代,英偉達(dá)和華為,華為的未來(lái)是什么。
黎明前最黑暗,勝利前最絕望,成功前最渺茫。
堂吉訶德舉著破矛沖向風(fēng)車(chē),切格瓦拉的摩托車(chē)駛向安第斯山脈,蓋茨比始終追逐著心中的綠光,他們的命運(yùn)終章永遠(yuǎn)只有兩種筆法:加冕為盜火者,或坍縮成黑洞。
華為素來(lái)不愛(ài)“造夢(mèng)”,這是一家理性大于感性的公司。
所有關(guān)于聯(lián)接的答案,都能在方程組的深處,找到最簡(jiǎn)潔的表達(dá),那些被高斯噪聲吻過(guò)的頻譜,在香農(nóng)的公式里凝結(jié)成精巧的信息,在華為眼里都是理性的計(jì)算。
然而,當(dāng)華為被置于風(fēng)暴中央之時(shí),成功除了前赴后繼的突圍,故事中總帶有那么一些理想主義色彩。
上甘嶺
曾經(jīng)的黑夜對(duì)于華為來(lái)說(shuō),并不算短。
2019.5.16,19萬(wàn)華為人因“實(shí)體清單”的消息集體落入慌亂與不安的情緒。
越是在行業(yè)待得足夠久的人,越知曉其中的分量,高通芯片、英特爾/AMD芯片、Windows和安卓操作系統(tǒng)等,這是大眾顯而易見(jiàn)看到的部分,還有更重要但外界感知不到的部分,例如數(shù)據(jù)庫(kù)、ERP軟件、各種生產(chǎn)工具等軟件等,華為的業(yè)務(wù)面臨全面停擺的風(fēng)險(xiǎn)。
更重要的是,還有一個(gè)在當(dāng)時(shí)并不明顯,但后來(lái)被驗(yàn)證的預(yù)言。“他們不只想遏制華為的現(xiàn)在,更想摧毀華為的未來(lái)。”
華為的未來(lái)是什么?
2018年,華為首次對(duì)外發(fā)布了AI戰(zhàn)略與全棧全場(chǎng)景AI解決方案,包括全球首個(gè)覆蓋全場(chǎng)景人工智能的華為昇騰系列芯片以及基于華為昇騰系列芯片的產(chǎn)品和云服務(wù)。
在所有預(yù)設(shè)前提改變的情況下,華為AI戰(zhàn)略被打亂了步伐。
“再窮也要對(duì)未來(lái)投資”,華為比任何人都更明白這一點(diǎn),如果趕不上AI的時(shí)代浪潮,華為可能在十年、二十年后就變成一家“泯然眾人矣”的公司。
現(xiàn)在與未來(lái)交織成兩條主線(xiàn)。華為發(fā)起的“三丫坡會(huì)戰(zhàn)”,成功保障了自身的生產(chǎn)運(yùn)營(yíng),實(shí)現(xiàn)了關(guān)鍵產(chǎn)品和技術(shù)的自主研發(fā),涵蓋硬件、操作系統(tǒng)、數(shù)據(jù)庫(kù)、中間件、應(yīng)用軟件等領(lǐng)域。
但是,關(guān)于未來(lái)的問(wèn)題,就像“達(dá)摩克利斯之劍”懸于頭頂。
美國(guó)對(duì)AI的封鎖層層加碼,華為連基本的AI算力供應(yīng)都難以實(shí)現(xiàn),又該如何與美國(guó)的AI企業(yè)競(jìng)爭(zhēng)?
外界無(wú)從知曉,華為扛著多大的壓力,但它沒(méi)有給自己彷徨的時(shí)間。
不久之后,華為內(nèi)部就成立了一支特殊的“作戰(zhàn)部隊(duì)”,結(jié)合了包括云、計(jì)算、芯片等業(yè)務(wù)線(xiàn)的精兵強(qiáng)將,這支隊(duì)伍領(lǐng)到的“軍令”,就是攻克AI算力的“上甘嶺”。
那條坑道
彼時(shí),憑借GPU和CUDA生態(tài)系統(tǒng)的堅(jiān)固壁壘,英偉達(dá)可謂“獨(dú)孤求敗”,打遍天下無(wú)敵手。
英偉達(dá)和華為,恰如一個(gè)在上甘嶺的南坡,洋槍大炮重兵布陣,另一個(gè)卻在北坡,小米加步槍艱難突進(jìn)。
那條打通南北坡,決勝千里的“坑道”在哪里?
答案指向超節(jié)點(diǎn)。單芯片性能落后,那就靠系統(tǒng)性能力來(lái)彌補(bǔ),甚至超越。一場(chǎng)決定未來(lái)10年甚至20年成敗的“冒險(xiǎn)”,在華為內(nèi)部悄然卻激烈的啟動(dòng)了。
2022年下半年,華為正式啟動(dòng)了超節(jié)點(diǎn)的研發(fā),當(dāng)時(shí)誰(shuí)也沒(méi)想到AI的發(fā)展會(huì)在第二年就迎來(lái)了第一個(gè)爆發(fā)點(diǎn)——ChatGPT發(fā)布,并在全球掀起了大模型浪潮。
華為早有預(yù)感,作為基礎(chǔ)設(shè)施提供商,華為的定位就是為各種應(yīng)用“架橋修路”,從5G到AI算力都是如此,基于這種戰(zhàn)略導(dǎo)向,華為云前瞻性地判斷出了AI的大發(fā)展,并決定要提前投入。
第一個(gè)核心問(wèn)題很快到來(lái),超節(jié)點(diǎn)立項(xiàng)的時(shí)候,ChatGPT還沒(méi)發(fā)布,大模型還沒(méi)顯露趨勢(shì),更沒(méi)人預(yù)料到DeepSeek的爆火,從一個(gè)時(shí)代進(jìn)入到另一個(gè)時(shí)代,就用了不到2年的時(shí)間。
超節(jié)點(diǎn)項(xiàng)目要面對(duì)的第一個(gè)選擇:超節(jié)點(diǎn)是建64個(gè)芯片,還是384個(gè)芯片?
“在當(dāng)時(shí)的環(huán)境下,64卡是夠用的,但是我們要布局未來(lái),而且以昇騰AI云服務(wù)提供算力服務(wù),可以把超節(jié)點(diǎn)算力分開(kāi)或者合并,做大了沒(méi)問(wèn)題,做小了可能就會(huì)很被動(dòng)。”華為一位項(xiàng)目組專(zhuān)家回憶道。
彼時(shí)誰(shuí)也不知道AI的市場(chǎng)什么時(shí)候會(huì)來(lái),資源有限,當(dāng)時(shí)的昇騰也還不是戰(zhàn)略重心。那么,是否要投入一個(gè)如此耗費(fèi)精力,結(jié)果又不十分確定的大項(xiàng)目,是不是明智之舉?
猶豫的時(shí)間并不長(zhǎng),不久之后的2023年初,華為就決策要堅(jiān)定投入384超節(jié)點(diǎn)。
超節(jié)點(diǎn)項(xiàng)目涉及到海思、計(jì)算和云等多個(gè)業(yè)務(wù)團(tuán)隊(duì)。華為云數(shù)據(jù)中心一位負(fù)責(zé)人表示,“公司面臨困難的時(shí)候,大家都想到前線(xiàn)去參戰(zhàn),到芯片的團(tuán)隊(duì)作貢獻(xiàn),公司還特別發(fā)了個(gè)文,號(hào)召大家做好自己的本職工作。而超節(jié)點(diǎn)項(xiàng)目讓我們也成為了參戰(zhàn)部隊(duì),大家內(nèi)心非常自豪和興奮。”
在芯片能力落后于英偉達(dá)一代的情況下,華為的策略是用“非摩爾定律補(bǔ)摩爾定律”,單芯片性能不足,就上升到系統(tǒng)層面,因?yàn)榇竽P偷挠?xùn)練推理本來(lái)就需要算力集群,才能發(fā)揮出更高的效果。
時(shí)間緊迫,任務(wù)艱巨,戰(zhàn)略清晰。然而實(shí)踐,卻依然艱難。在落后的情況下,想要追平甚至超越英偉達(dá),意味著需要付出更大的代價(jià)。
當(dāng)華為選擇了384卡之后,那就只能采用光模塊來(lái)通信的技術(shù)路線(xiàn),而不是英偉達(dá)NVL72選擇的全電通信,這是一個(gè)巨大的技術(shù)挑戰(zhàn)。
業(yè)內(nèi)有消息指出,英偉達(dá)此前也考慮過(guò)光模塊方案,但由于其成本高昂、功耗大且由于所需的光學(xué)收發(fā)器和兩級(jí)網(wǎng)絡(luò)導(dǎo)致不可靠,最終被放棄。于是,英偉達(dá)NVL72超節(jié)點(diǎn)采用全銅線(xiàn)架構(gòu),一經(jīng)部署便保持固定狀態(tài),相對(duì)穩(wěn)定。缺點(diǎn)是:只能部署2米以?xún)?nèi),否則速度會(huì)大幅衰減,因此可聯(lián)接芯片數(shù)量有限。而光模塊則有高帶寬和高速率的優(yōu)勢(shì),損耗低,適合長(zhǎng)距離傳輸,因而可聯(lián)接更多芯片,部署靈活。
但是光模塊故障率高,這就需要數(shù)據(jù)中心有一套高效的故障定位和修復(fù)系統(tǒng),保證超節(jié)點(diǎn)長(zhǎng)穩(wěn)運(yùn)行,不影響客戶(hù)業(yè)務(wù)。
不管是千卡集群,還是萬(wàn)卡集群,還是十萬(wàn)卡的集群,華為CloudMatrix 384超節(jié)點(diǎn)可實(shí)現(xiàn)1分鐘故障感知、3分鐘故障定界、10分鐘故障恢復(fù)。
作為挑戰(zhàn)者,想實(shí)現(xiàn)領(lǐng)先者都實(shí)現(xiàn)不了的方案,本是個(gè)“妄想”,但是,偏執(zhí)卻常是成功的必要條件。
既然找到了384超節(jié)點(diǎn)這條“坑道”,必須一掘到底。
勝利,但沒(méi)有終點(diǎn)
2025年4月,CloudMatrix 384超節(jié)點(diǎn)一經(jīng)發(fā)布,便引起了極大關(guān)注,海外的關(guān)注度比國(guó)內(nèi)還要高得多。究其原因,就像華為云副總裁黃瑾在最近的華為云AI峰會(huì)所說(shuō):“CloudMatrix 384超節(jié)點(diǎn)具備MoE親和、以網(wǎng)強(qiáng)算、以存強(qiáng)算、長(zhǎng)穩(wěn)可靠、朝推夜訓(xùn)、即開(kāi)即用六大領(lǐng)先技術(shù)優(yōu)勢(shì),這項(xiàng)技術(shù)創(chuàng)新跳出單點(diǎn)技術(shù)限制走向系統(tǒng)性、工程性的創(chuàng)新算力架構(gòu)直面通信效率瓶頸、內(nèi)存墻制約、可靠性短板三大技術(shù)挑戰(zhàn)。”可以說(shuō),華為云以系統(tǒng)架構(gòu)創(chuàng)新重新定義新一代AI基礎(chǔ)設(shè)施。
起初很多人不相信華為能實(shí)現(xiàn)這樣的突破。海外知名分析機(jī)構(gòu)SemiAnalysis,以“Huawei AI CloudMatrix 384–China’s Answer to Nvidia GB200 NVL72”為題,猜測(cè)和分析了CloudMatrix 384超節(jié)點(diǎn)的種種細(xì)節(jié)。
SemiAnalysis得出的結(jié)論是,華為的芯片技術(shù)落后一代,但其自主研發(fā)的云端超級(jí)算力解決方案CloudMatrix 384卻可領(lǐng)先于英偉達(dá)和AMD當(dāng)前市售產(chǎn)品一代,直接對(duì)標(biāo)英偉達(dá)GB200 NVL72系統(tǒng),在多項(xiàng)關(guān)鍵指標(biāo)上展現(xiàn)出超越英偉達(dá)機(jī)架級(jí)解決方案的技術(shù)優(yōu)勢(shì)。
這是工程創(chuàng)新的“奇跡”。可能瘋狂就是反復(fù)做著同樣的事情,卻期待不同的結(jié)果。
“早期光模塊根本不可用”,上述華為云數(shù)據(jù)中心負(fù)責(zé)人還記得,光模塊試驗(yàn)時(shí)的沮喪,“想用非摩爾去解決摩爾定律,結(jié)果非摩爾這邊的問(wèn)題反而更大,我們用了最土的辦法,每一個(gè)光模塊的端面全部拍照,再逐個(gè)分析,解決了數(shù)不清的問(wèn)題,才實(shí)現(xiàn)了較好的穩(wěn)定性。”
當(dāng)時(shí),承接超節(jié)點(diǎn)落地的華為云數(shù)據(jù)中心面臨著空前壓力。
傳統(tǒng)的分布式系統(tǒng)本質(zhì)上是一個(gè)松耦合系統(tǒng),服務(wù)器之間一般用25Gbps或100Gbps以太網(wǎng)帶寬就可以滿(mǎn)足絕大多數(shù)應(yīng)用的需求。而AI時(shí)代的應(yīng)用負(fù)載與傳統(tǒng)業(yè)務(wù)有很大不同,當(dāng)前服務(wù)器集群的以太網(wǎng)互聯(lián)帶寬已經(jīng)越來(lái)越難滿(mǎn)足前面提到的AI時(shí)代的訓(xùn)練、推理等場(chǎng)景的需求。
CloudMatrix 384實(shí)現(xiàn)了CPU、NPU、GPU、內(nèi)存等多樣資源的跨服務(wù)器統(tǒng)一池化,用“對(duì)等架構(gòu)”替換掉傳統(tǒng)的“主從架構(gòu)”,讓多元算力可以直接通信,不需要通過(guò)CPU,讓系統(tǒng)能夠靈活配置跨服務(wù)器的多種資源,形成一個(gè)大規(guī)模的緊耦合的多元算力池化架構(gòu),這是AI原生云基礎(chǔ)設(shè)施最重要的能力。
DeepSeek成為CloudMatrix 384顯露崢嶸的一個(gè)縮影。DeepSeek使用了大規(guī)模專(zhuān)家并行(Expert Parallelism,大EP并行)的MoE模型架構(gòu),特點(diǎn)是大模型設(shè)置了多個(gè)專(zhuān)家來(lái)處理問(wèn)題,1個(gè)卡(算力芯片)對(duì)應(yīng)著1個(gè)專(zhuān)家,專(zhuān)家越多,效率越高,傳統(tǒng)英偉達(dá)服務(wù)器都是8卡,CloudMatrix 384可以對(duì)應(yīng)384個(gè)專(zhuān)家,極大提高專(zhuān)家數(shù)量,并且優(yōu)化協(xié)同效率。
硅基流動(dòng)CEO袁進(jìn)輝記得,2025年除夕,DeepSeek的爆火快速點(diǎn)燃市場(chǎng),硅基流動(dòng)和華為云當(dāng)即決定要在CloudMatrix 384上跑DeepSeek。
若采用單機(jī)部署方案,最終的性能遠(yuǎn)不如DeepSeek官方公布的部署方案,且至少有數(shù)倍成本差距。更具挑戰(zhàn)的是,雖然DeepSeek公開(kāi)了大EP并行方案,但技術(shù)難度較大,業(yè)內(nèi)還沒(méi)有其他團(tuán)隊(duì)快速?gòu)?fù)現(xiàn)這一部署方法。
效率和精度是核心問(wèn)題,每秒輸出的token可能卡在計(jì)算或者通信上,模型輸出的結(jié)果可能和官方不一致,經(jīng)過(guò)雙方團(tuán)隊(duì)的數(shù)月攻關(guān),DeepSeek在CloudMatrix 384終于實(shí)現(xiàn)了較好的效果,可比肩H100部署性能。
“首先,他們無(wú)視你,而后嘲笑你,接著攻擊你,再后來(lái)就是你的勝利之日。”
無(wú)人知曉華為人如何度過(guò)那些漫長(zhǎng)黑夜,想來(lái)那必定是充滿(mǎn)了焦慮、懷疑和不甘。最終華為熬過(guò)了一道關(guān)卡,CloudMatrix 384超節(jié)點(diǎn)不是終點(diǎn),華為人來(lái)不及慶祝,收拾心情整裝再出發(fā),奔赴下一個(gè)戰(zhàn)場(chǎng)。
跪著的都輸了,站著才可能贏。
1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會(huì)明確標(biāo)注作者和來(lái)源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請(qǐng)轉(zhuǎn)載時(shí)務(wù)必注明文章作者和"來(lái)源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為T(mén)MT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會(huì)經(jīng)TMT觀察網(wǎng)編輯修改或補(bǔ)充。