TMT观察网_独特视角观察TMT行业

新至強訓練推理增效十倍,英特爾CPU加速AI更上一層樓觀點

智能相對論 2023-01-13 16:13
分享到:
導讀

英特爾可以通過新 CPU 和 GPU 實現(xiàn)對各類 AI 任務的加速,從 2019 年英特爾為其第二代至強可擴展處理器增添了內(nèi)置的深度學習加速技術后,第四代至強可擴展芯片不僅可借助 AMX 實現(xiàn)相當于上一代芯片(FP32)10 倍的 AI 性能提升。

人工智能技術改變了我們的生活,而說到 AI 背后的算力,人們經(jīng)常會先想到 GPU。從 2019 年英特爾為其第二代至強可擴展處理器增添了內(nèi)置的深度學習加速技術后,原本定位通用計算的 CPU 芯片,也加入了為 AI 加速的行列。

今天,代號為「Sapphire Rapids」的第四代至強可擴展處理器也在中國迎來發(fā)布首秀,除了一系列微架構的革新和技術規(guī)格的升級外,新 CPU 對 AI 運算「更上層樓」的支持也格外引人關注,其背后的技術助力,也是英特爾在這代產(chǎn)品中增添的全新內(nèi)置 AI 加速器 —— 英特爾高級矩陣擴展(AMX)技術自然也成為了焦點。

作為焦點,當然要拿出實力來證明自己的價值 —— 在發(fā)布會上,英特爾透露的第四代至強可擴展處理器的基礎算力平均提升值為 53%,而在 AMX 的助推下,其在 PyTorch 上的 AI 實時推理速度,可提升至上一代產(chǎn)品(FP32)的 5.7-10 倍,訓練性能提升最高也能提升到上一代產(chǎn)品的 10 倍…… 這意味著,這款新至強,把業(yè)界頂級 CPU 的性能門檻一下子提高了不少。

新一代英特爾 CPU 為 AI 任務處理找到了新方向。現(xiàn)在,英特爾可以通過新 CPU 和 GPU 實現(xiàn)對各類 AI 任務的加速。為實現(xiàn)這些提升,英特爾引入了一系列內(nèi)置加速單元。

多種加速器加持,提升 AI 訓練、推理及端到端性能

AI 的熱度,從 AlphaGo 一鳴驚人后,一直就沒有減退。最近一段時間,人們都在談論 ChatGPT 等「大模型」帶來的革命性體驗。由預訓練模型方法推動的 AI 技術正在向跨任務、跨模態(tài)的方向演進,已成為當下 AI 技術發(fā)展的重要趨勢。

然而,大模型雖然帶來了前所未有的 AI 能力,又對算力提出了無窮無盡的需求。芯片制造商和科技公司一直在尋找提升 AI 應用效率的方法。GPU 更多解決的,是訓練效率,是探索 AI 算法邊界的能力,而 CPU,似乎更適合在 AI 應用的規(guī)模化部署和實踐上發(fā)揮重要作用。

自從四五年前開始在 CPU 中內(nèi)置針對 AI 進行加速的專用運算單元或指令集后,英特爾就一直相信,如果想要在更為廣泛的行業(yè)中真正推進 AI 應用的普及,那么就應該充分利用現(xiàn)階段應用和部署最為廣泛的 IT 基礎設施和架構,也就是要更加充分地利用 CPU 的資源。畢竟使用 GPU 和其他專用加速器的成本以及知識和人才門檻都非常高。相比之下,CPU 內(nèi)置 AI 加速能力,主攻 AI 推理加速,并搭配以更為簡單易用、能夠部署和優(yōu)化難度的軟件工具,會是一條更為行之有效的路徑。

它是這么想,也是這么做的 —— 首先,從 2017 年第一代至強可擴展芯片開始,英特爾就開始利用英特爾高級矢量擴展 512 技術(AVX-512 指令集)的矢量運算能力對 AI 進行加速上的嘗試,到 2018 年英特爾在第二代至強可擴展芯片導入深度學習加速(DL Boost)技術,更是讓至強成為了首款集成 AI 加速有力的主流數(shù)據(jù)中心級 CPU,或者說:CPU 加速 AI 的代名詞。

2020 年通過擴展出 bfloat16 加速功能,面向多路服務器的第三代至強可擴展處理器在推理加速能力之外,又增加了訓練加速能力,已被證明可以幫助業(yè)界大量 AI 工作負載實現(xiàn)更優(yōu)的性能和功耗比。

就在大家認為英特爾在 CPU 加速 AI 的技術創(chuàng)新和投入會止步于此的時候,第四代至強可擴展芯片,又帶來了矩陣化的算力支持 ——AMX。

第四代英特爾至強可擴展處理器。

這種全新內(nèi)置 AI 加速器的出現(xiàn),進一步驗證了「與其增加 CPU 內(nèi)核數(shù)和時鐘頻率,加入和更新專用計算單元對提升 AI 工作負載性能更有效」這一思路。正如前文所述,第四代至強可擴展芯片不僅可借助 AMX 實現(xiàn)相當于上一代芯片(FP32)10 倍的 AI 性能提升,與前兩代產(chǎn)品使用的深度學習加速技術相比,其理論性能(每秒操作量)最高也可以達到其 8 倍之多。

機器學習包含大量的矩陣計算,在主打通用計算的 CPU 上,此類任務會被轉換為效率較低的向量計算,而在加入專用的矩陣計算單元后,至強 CPU 的 AI 能力有了巨大的提升。因此,AMX 可以被視為至強 CPU 上的「TensorCore」—— 從原理上看,CPU 上的 AI 加速器實現(xiàn)的目的和 GPU、移動端處理器上的類似。由于 AMX 單元對底層矩陣計算進行加速,理論上它對于所有基于深度學習的 AI 應用都能起到效果。

如果說 AMX 為至強 CPU 帶來的是直觀的推理和訓練加速,那么第四代至強可擴展芯片內(nèi)置的其他幾種加速器,就是為 AI 端到端應用加速帶來的驚喜。

這是因為在真正完整的 AI 應用流水線中,任務往往會從數(shù)據(jù)的處理和準備開始,在這一階段,第四代至強可擴展芯片內(nèi)置的數(shù)據(jù)流加速器(DSA),可讓數(shù)據(jù)存儲與傳輸性能提升到上一代產(chǎn)品的 2 倍,而專門針對數(shù)據(jù)庫和數(shù)據(jù)分析加速的英特爾存內(nèi)分析加速器(IAA),也可將相關應用的性能提升到上一代產(chǎn)品的三倍(RocksDB);數(shù)據(jù)保護與壓縮加速技術(QAT),則能在內(nèi)核用量減少多達 95% 的情況下將一級壓縮吞吐量提升至原來的兩倍。這些技術的使用,也有助于 AI 端到端應用性能的整體躍升。

此外,隨著 AI 應用在更多行業(yè),包括金融、醫(yī)療等數(shù)據(jù)敏感型行業(yè)的落地,人們對于數(shù)據(jù)安全合規(guī)的要求逐漸提高,聯(lián)邦學習等技術逐漸獲得應用。在這一方面,至強可擴展處理器集成的專攻數(shù)據(jù)安全強化的加速器 —— 軟件防護擴展(SGX),也是大有用武之地,它的突出優(yōu)勢就是可以為處理中或運行中的敏感數(shù)據(jù)和應用代碼提供與其他系統(tǒng)組件和軟件隔離的安全飛地,實現(xiàn)更小的信任邊界。

這種技術對于 AI 而言,最核心的價值就是可以讓有多方數(shù)據(jù)交互、協(xié)作的 AI 訓練過程變得更加安全,各方數(shù)據(jù)都可以在其擁有者的本地參與訓練,用于訓練的數(shù)據(jù)和模型會被安全飛地所保護,最終模型可以在這種保護下提升精度和效率,但為其演進做出了關鍵貢獻的數(shù)據(jù)則會一直處于「可用而不可見 」的狀態(tài)下,以確保其中的敏感和隱私信息的安全性。

在這么多內(nèi)置加速器的支持下,可以說,從數(shù)據(jù)預處理,到訓練,再到推理,最后到整個 AI 應用的安全保護層面,第四代至強可擴展處理器都實現(xiàn)了更全面的功能覆蓋和重點增強。與此同時,英特爾還在進一步強化 AI 加速的開箱即用優(yōu)勢:通過與大量第三方進行合作,英特爾共同優(yōu)化了 SAP HANA、Microsoft SQL Server、Oracle、VMware Cloud Foundation、Red Hat OpenShift 等主流應用,很多主流軟件庫和開源機器學習框架,以及大多數(shù)云服務也對這款英特爾架構上的新品做好了優(yōu)化,開發(fā)者可以直接使用新硬件開發(fā)和部署 AI 算法。

從開發(fā)者的角度看,使用第四代至強可擴展處理器實現(xiàn)優(yōu)化加速的門檻也確實很低:人們只需使用集成在 TensorFlow 和 PyTorch 中的庫,無需任何額外工作即可激活至強芯片內(nèi)置 AI 加速的能力。此外,只需更改幾行代碼,開發(fā)人員就可以無縫地加速單節(jié)點和多節(jié)點配置中的 Scikit-learn 應用。

全能服務器 CPU

除了有加速器傍身專攻特定應用負載外,第四代至強可擴展處理器在基礎性能上也是可圈可點。

例如,它采用了與英特爾第 12、13 代酷睿同款的 Intel 7 制造工藝(改進版 10nm 制程)和 Golden Cove CPU 架構,同時首次引入 chiplet 小芯片封裝方式,最多可搭載 60 個核心,改用新的 Socket E LGA4677 封裝接口,集成了 112MB 三級緩存,功耗最高達到 350W。

新一代至強還帶來了對八通道 DDR5-4800 和 PCIe 5.0 的支持,并包含 CXL 1.1 高速互連總線,可選集成最多 64GB HBM2e 內(nèi)存。

上述這些針對 IO 和存儲的新技術的引入,使得第四代至強可擴展處理器具備了能夠打破帶寬瓶頸的 I/O 能力,讓使用者可以充分利用處理器的代際性能提升滿足 AI 平臺等業(yè)務對于通用算力的苛刻需求。

四代至強可擴展處理器平臺特性。

綜合這些基礎芯片架構規(guī)模上的升級和革新,以及各種加速器的特定加成效果,第四代至強可擴展處理器的基礎算力相比上一代產(chǎn)品可提升 53%,而其能效,或者說每瓦性能,相比上一代產(chǎn)品也提升了 2.9 倍,這意味著更高的效率,更低的功耗和更優(yōu)的投資回報率。

英特爾表示,新一代 CPU 還可以催生出前所未有的應用,幫助 AI 算法直接利用非結構化數(shù)據(jù)進行實時分析。在金融、醫(yī)療、零售等行業(yè)中,人們可以利用機器學習作出更加精確的投資決策,降低術后并發(fā)癥風險,更好地理解消費者的需求。

構建下一代異構 AI 算力

在不斷尋求創(chuàng)新業(yè)務的過程中,人們對于算力的需求相比以往正變得更加迫切。而且這種算力也必須要兼顧到通用和專用的不同方向。因此英特爾架構也正在就此有針對性的演進,這在本次第四代至強可擴展處理器的發(fā)布會上就可見一斑 —— 對科學計算和 AI 加速有更苛刻要求的用戶,也等來了英特爾數(shù)據(jù)中心 GPU 旗艦產(chǎn)品 ——MAX 系列的發(fā)布。

其實在過去幾年里,英特爾已經(jīng)陸續(xù)推出了一些異構產(chǎn)品,例如 2022 年英特爾旗下的 Habana Labs 正式發(fā)布了用于深度學習訓練的 Gaudi2,隨之被應用在 AWS 上。同年夏天主打視覺云應用的數(shù)據(jù)中心 GPU Flex 系列也在視頻處理、云游戲和視覺 AI 推理應用中初露頭腳,但很多「發(fā)燒級」用戶最期待的還是數(shù)據(jù)中心 GPU Max 系列,今天,這款采用了突破性設計,采用多芯片集合的方式,混合 5 種工藝,晶體管數(shù)量超過千億的 「怪獸」,終于來了!

GPU 產(chǎn)品線的完善,也使得英特爾成為業(yè)界唯一一家能提供橫跨 CPU、GPU、ASIC、FPGA 四大類型芯片計算解決方案的供應商,可為智能數(shù)據(jù)中心提供基于任何場景、需求的產(chǎn)品組合。

強大的硬件之外,英特爾還利用 oneAPI 軟件體系實現(xiàn)了對異構硬件的統(tǒng)一編程和管理,構建了能夠靈活調(diào)配、無縫協(xié)作和低門檻的 AI 開發(fā)工具。通過 XPU 硬件、oneAPI 軟件及 UCIe 開放標準的布局,英特爾已經(jīng)打造出了軟硬一體化的完整生態(tài)。

隨著新一代芯片發(fā)布,我們或許將看到未來 AI 計算的形態(tài)發(fā)生重要轉變。

*本文圖片均來源于網(wǎng)絡 


AI 英特爾 加速
分享到:

1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請轉載時務必注明文章作者和"來源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或將追究責任;
3.作者投稿可能會經(jīng)TMT觀察網(wǎng)編輯修改或補充。


主站蜘蛛池模板: 德国EA可编程直流电源_电子负载,中国台湾固纬直流电源_交流电源-苏州展文电子科技有限公司 | 顺景erp系统_erp软件_erp软件系统_企业erp管理系统-广东顺景软件科技有限公司 | 浙江红酒库-冰雕库-气调库-茶叶库安装-医药疫苗冷库-食品物流恒温恒湿车间-杭州领顺实业有限公司 | 高压互感器,电流互感器,电压互感器-上海鄂互电气科技有限公司 | 自动售货机_无人售货机_专业的自动售货机运营商_免费投放售货机-广州富宏主官网 | 防爆型气象站_农业气象站_校园气象站_农业四情监测系统「山东万象环境科技有限公司」 | 萃取箱-萃取槽-PVC萃取箱厂家-混合澄清槽- 杭州南方化工设备 | 气弹簧定制-气动杆-可控气弹簧-不锈钢阻尼器-工业气弹簧-可调节气弹簧厂家-常州巨腾气弹簧供应商 | 一体化污水处理设备,一体化污水设备厂家-宜兴市福源水处理设备有限公司 | 山东钢衬塑罐_管道_反应釜厂家-淄博富邦滚塑防腐设备科技有限公司 | 欧必特空气能-商用空气能热水工程,空气能热水器,超低温空气源热泵生产厂家-湖南欧必特空气能公司 | 混合气体腐蚀试验箱_盐雾/硫化氢/气体腐蚀试验箱厂家-北京中科博达 | 空气净化器租赁,空气净化器出租,全国直租_奥司汀净化器租赁 | 小型高低温循环试验箱-可程式高低温湿热交变试验箱-东莞市拓德环境测试设备有限公司 | 制丸机,小型中药制丸机,全自动制丸机价格-甘肃恒跃制药设备有限公司 | atcc网站,sigma试剂价格,肿瘤细胞现货,人结肠癌细胞株购买-南京科佰生物 | CXB船用变压器-JCZ系列制动器-HH101船用铜质开关-上海永上船舶电器厂 | 气体检测仪-氢气检测仪-可燃气体传感器-恶臭电子鼻-深国安电子 | 面粉仓_储酒罐_不锈钢储酒罐厂家-泰安鑫佳机械制造有限公司 | 安徽控制器-合肥船用空调控制器-合肥家电控制器-合肥迅驰电子厂 安徽净化板_合肥岩棉板厂家_玻镁板厂家_安徽科艺美洁净科技有限公司 | 污水处理设备,一体化泵站,一体化净水设备-「梦之洁环保设备厂家」 | 制丸机,小型中药制丸机,全自动制丸机价格-甘肃恒跃制药设备有限公司 | 企业VI设计_LOGO设计公司_品牌商标设计_【北京美研】 | AGV叉车|无人叉车|AGV智能叉车|AGV搬运车-江西丹巴赫机器人股份有限公司 | RFID电子标签厂家-上海尼太普电子有限公司| 精密五金冲压件_深圳五金冲压厂_钣金加工厂_五金模具加工-诚瑞丰科技股份有限公司 | 400电话_400电话申请_888元包年_400电话办理服务中心_400VIP网 | bng防爆挠性连接管-定做金属防爆挠性管-依客思防爆科技 | 工业废水处理|污水处理厂|废水治理设备工程技术公司-苏州瑞美迪 今日娱乐圈——影视剧集_八卦娱乐_明星八卦_最新娱乐八卦新闻 | 制丸机,小型中药制丸机,全自动制丸机价格-甘肃恒跃制药设备有限公司 | 物流公司电话|附近物流公司电话上门取货 | 环氧乙烷灭菌器_压力蒸汽灭菌器_低温等离子过氧化氢灭菌器 _低温蒸汽甲醛灭菌器_清洗工作站_医用干燥柜_灭菌耗材-环氧乙烷灭菌器_脉动真空压力蒸汽灭菌器_低温等离子灭菌设备_河南省三强医疗器械有限责任公司 | 周口风机|周风风机|河南省周口通用风机厂 | 建筑资质代办-建筑企业资质代办机构-建筑资质代办公司 | 除尘器布袋骨架,除尘器滤袋,除尘器骨架,电磁脉冲阀膜片,卸灰阀,螺旋输送机-泊头市天润环保机械设备有限公司 | AGV叉车|无人叉车|AGV智能叉车|AGV搬运车-江西丹巴赫机器人股份有限公司 | 杭州月嫂技术培训服务公司-催乳师培训中心报名费用-产后康复师培训机构-杭州优贝姆健康管理有限公司 | 实验室隔膜泵-无油防腐蚀隔膜泵-耐腐蚀隔膜真空泵-杭州景程仪器 电杆荷载挠度测试仪-电杆荷载位移-管桩测试仪-北京绿野创能机电设备有限公司 | 油罐车_加油机_加油卷盘_加油机卷盘_罐车人孔盖_各类球阀_海底阀等车用配件厂家-湖北华特专用设备有限公司 | 锂电池砂磨机|石墨烯砂磨机|碳纳米管砂磨机-常州市奥能达机械设备有限公司 | LHH药品稳定性试验箱-BPS系列恒温恒湿箱-意大利超低温冰箱-上海一恒科学仪器有限公司 |