浪潮信息“拓荒”:一場面向大模型時代的性能“壓榨”觀點

解決了系統應用的問題——服務器的架構創新在算力之外,即對服務器等硬件的基礎架構進行創新,融合架構3.0解決的不僅僅是服務器性能、算力釋放等問題。
文 | 智能相對論
作者 | 沈浪
全球人工智能產業正被限制在了名為“算力”的瓶頸中,一側是供不應求的高端芯片,另一側則是激戰正酣的“百模大戰”,市場的供求兩端已然失衡。
然而,大多數人的關注點仍舊還是在以英偉達為主導的高端芯片領域。
半導體的創新固然關鍵,但是從現實處境來講,芯片從造出來到用起來,是一個龐大的系統工程,市場更需要一條能暫時繞開半導體創新的系統創新的技術路徑,來同步釋放算力,以滿足現階段爆發性的算力需求以及后期可持續的常態發展。
遵循著這一思路,就不難發現,以浪潮信息為代表的本土廠商已經開始了另一條釋放算力的創新路徑,即對服務器等硬件的基礎架構進行創新,在硬件層面“拓荒”,“壓榨”更多的硬件性能,打破算力桎梏。
只是這樣的路徑,似乎沒有想象中的那么簡單、輕松。
01 向底層“拓荒”,激活“牛鞭效應”
以服務器為例,一臺服務器有超過10000個零部件,同時還涉及30多個技術領域,包括材料學、熱力學、電池技術、流體力學、化學等一系列學科。此外,一臺服務器里還會應用超過100種傳輸協議。其制造過程更是需要經歷30多道流程,使用100多種加工和制造工藝等等。
若要對這樣的高精密硬件的基礎架構進行創新,絕非易事。
在四五年前,一些大規模數據中心用戶幾乎都遇到過一個相似的問題:風扇轉速越快,硬盤越有可能出現性能波動,嚴重時還會直接掉線,非常影響硬盤的讀寫性能。
浪潮信息的工程師團隊做了大量實驗,最終鎖定原因:風扇產生的噪音一旦達到120分貝,就非常容易造成硬盤磁頭偏移、讀寫效率下降,進而導致扇區失效乃至硬盤報廢、服務器宕機。
盡管這樣的問題看起來很小,卻對服務器的性能有著嚴重制約。如何解決服務器內部的風噪問題,成為了一個業內共同探索的議題。國際開放計算社區OCP組織成員包括FaceBook(現為Meta公司)、微軟、浪潮信息、戴爾等企業,共同發起Storage Vibration(存儲設備振動)項目,旨在解決相關的問題。
最終,浪潮信息的工程師們基于大量機理性研究和測試,發現了硬盤性能損失與聲壓強度間的數學規律,并構建出業界首個硬盤敏感度模型,量化出不同硬盤受到各類噪聲影響后的性能表現。
以此為依據,浪潮信息也得以對最新G7服務器系統進行了全方位的優化設計,譬如通過CFD流體動力學仿真改進·不同機箱布局下的風扇的葉片形態,抑制扇葉表面因渦流脫落形成的高頻噪音,提升硬盤讀寫效率50%;或是在機箱內通過設計40多種歌院式的消音結構,消除特定的高頻噪聲等等。
這些“繡花針”功夫是創新底層架構的關鍵,而看似很微小的基礎改良,卻是提升服務器性能、保障硬件平穩運行的重要因素。在經濟學領域,有一個專業術語叫作“牛鞭效應”,指一端微小的擺動被不斷放大,到了另一端將演變為大幅擺動的趨勢。
從硬件的應用來看,基礎部件的改良也將激活“牛鞭效應”——從一張硬盤到一個服務器,再到一個數據中心,隨著硬件不斷疊加應用,底層的改良價值將被逐步放大,向上層傳遞,成為服務器安全運作、釋放算力、促進人工智能產業發展的重要保障。
類似的,現階段備受關注的芯片互聯技術,也是支撐大模型大規模算力場景的關鍵技術,尤其是單個服務器內部芯片高速直連,是實現大規模算力集群高效協同工作的基礎。作為全球領先的服務器廠商,浪潮信息在高速互連領域定義了業界第一個符合OAM(開放加速模塊)規范的8卡互連硬件系統,解決了高速信號的速率提升和信號失真問題,實現開放加速規范下芯片互連的最高速率,助力著人工智能產業的持續突破。
02 一場對性能的極限“壓榨”
在人工智能行業,算力的巨大需求和供給緊張已然是擺上臺面的事實。為什么業內廠商想要不斷地改進傳統的硬件架構去釋放算力,哪怕只是一點細微的聲噪優化,都不遺余力地花上四五年的時間去研究、探索和創新。
細究來說,算力的供應大抵可以歸結為兩條路徑,一是“增量拓展”,比如接入更多的服務器、建更多的數據中心,通過“堆量”的方式來提供更多的算力。二是“存量優化”,對原有架構、原有機器進行優化升級,通過“提質”的方式來把性能和效率提升起來。
其中,在這兩條路徑之下,“存量優化”又是必然的一條。無關乎未來算力是否緊張或寬裕,如何對現有的機器和架構進行升級優化,是行業發展的一個重要階段,只是時間早晚的問題。
值得一提的是,現階段,服務器行業已經有著充分的理由去推進“存量優化”這一路徑。
一方面,算力領域正在面臨著高端芯片緊張的問題,“增量拓展”被限制,那么業內廠商就不得不考慮“存量優化”的事情。
另一方面,源于服務器的特殊性,在服務器概念上的簡單的“堆量”只能堆出各種形態和規格的服務器,但對數據中心計算能力的提升并沒有什么實質性的幫助。
對此,在2014年,浪潮信息提出了“融合架構”的技術理念,旨在創造一種新的體系架構,將硬件設備中的同類資源整合成一個資源池,即便是不同的設備也能夠任意地整合,再通過軟件動態感知業務的資源需求,從而利用硬件重組的能力來滿足各類應用的性能需求。
這種“融合架構”看似是“增量拓展”,但核心則是“存量優化”。直到融合架構3.0的發布,就可以清晰地看到,這一技術理念打破了現有服務器的邏輯架構和應用模式,實現了整機柜級別的計算、內存、存儲與互聯等各種IT資源的池化,形成了以系統設計為中心的新架構模式,對構建高速高性能的互聯網絡起到了重要作用。
簡單來說,基于“池化”的概念,融合架構3.0將服務器內的計算資源、存儲資源、內存資源、異構加速資源等核心IT資源重新細化,并做了“重組”,從而能使其發揮出更高的性能和應用價值。
這相當于對現有的服務器性能做了一次極限地“壓榨”。眾所周知,傳統服務器的性能利用率是無法達到100%,兩臺服務器相連得到大多是1+1<2結果,而基于融合架構3.0的支持,就有可能實現1+1>2的情況。
當然,這只是一個便于理解的理想化公式,現實大抵是達不到這個效果的。但是,其中的進步也是看得見的,特別是隨著服務器的增加,當我們再來估算1+1+1+...+N的效果時,在融合架構3.0下的服務器便能發揮出遠超傳統架構的性能和價值。
這是融合架構3.0的價值展望,同時也是“存量優化”這一路徑在服務器行業的價值呈現。正如上文提及的“牛鞭效應”,當底層細微的創新不斷被放大到一個硬件、一個計算集群、一個產業生態,那么其發揮出來的作用將遠超過往。
03 在算力之外
當前,在服務器行業,就能看到類似的信號。
繼續以融合架構3.0為例,其打破了以往“以CPU為中心”的設計理念,從整體出發,以系統為中心,通過硬件解耦將異構計算、內存、存儲等資源轉變為可獨立擴展的資源池。
在這個過程中,不僅實現了亞微秒級遠端內存訪問,并且還構建出了一種邏輯上可遠端共享的內存資源池,讓多臺主機訪問同一個內存池,從而大大提高了數據交換的效率,讓Spark、Hadoop和機器學習等使用分布式數據框架的應用,能夠更順暢地實現框架內各節點間的數據交換與協作。
也就是說,融合架構3.0解決的不僅僅是服務器性能、算力釋放等問題,實際上還繼續向上層拓展,解決了系統應用的問題——服務器的架構創新在算力之外,帶來了全新的價值呈現。
類似的,放眼全球市場,微軟與英偉達合作推出的虛擬機Azure ND H100 v5 VM系列,正基于強大的硬件能力支持結合Quantum-2InfiniBand網絡互連,從而幫助企業更好、更高效地處理生成式AI任務。
現階段,大多數硬件升級并非單線的,而是考慮到上層的應用需求,如大模型訓練、生成式AI任務等,結合軟件系統、網絡服務等進行融合創新,從而為應用場景服務。
縱觀當前人工智能產業在算力層面的困頓處境,以算力牽動整個人工智能產業的發展是必然的趨勢。而業內廠商在解決算力供給問題的過程,也將同步帶動其他模塊的升級。換句話說,解決算力問題就不能局限在高端芯片領域,更要從其他的路徑尋求多元化的發展。
在這個階段,以英偉達為主導的高端芯片領域和以浪潮信息為代表的服務器硬件升級,都將站在市場的聚光燈下。今天的市場,需要更多元、更勇敢、更執著的探索者、創新者。
*本文圖片均來源于網絡
#智能相對論 Focusing on智能新產業新服務,這是智能的服務NO.247深度解讀
此內容為【智能相對論】原創,
僅代表個人觀點,未經授權,任何人不得以任何方式使用,包括轉載、摘編、復制或建立鏡像。
部分圖片來自網絡,且未核實版權歸屬,不作為商業用途,如有侵犯,請作者與我們聯系。
?AI產業新媒體;
?澎湃新聞科技榜單月度top5;
?文章長期“霸占”鈦媒體熱門文章排行榜TOP10;
?著有《人工智能 十萬個為什么》
?【重點關注領域】智能家電(含白電、黑電、智能手機、無人機等AIoT設備)、智能駕駛、AI+醫療、機器人、物聯網、AI+金融、AI+教育、AR/VR、云計算、開發者以及背后的芯片、算法等。
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。