DeepSeek代碼開源周收官,世界已經變了快訊
展示了DeepSeek在優化大模型訓練、推理、通信以及文件系統方面的技術創新與突破,DeepSeek開源了三項并行優化策略,DeepSeek開源了DeepGEMM代碼庫。
【TechWeb】3月1日消息,AI公司DeepSeek為期五天的 “代碼開源周” 告一段落。
本周一至周五,DeepSeek以每日不定時一更的頻率,開源多個代碼庫,涵蓋FlashMLA、DeepEP通信庫、DeepGEMM、并行優化策略、并行文件系統3FS。
DeepSeek認為:通用人工智能(AGI)不存在“高高在上的象牙塔”,而是秉持車庫創業精神,與社區共同構建創新力量。
五天的代碼開源,展示了DeepSeek在優化大模型訓練、推理、通信以及文件系統方面的技術創新與突破。這些開源項目不僅提升了AI模型的性能和效率,也為AI領域的研究者和開發者提供了寶貴的資源和工具。
從模型開源,到代碼開源,DeepSeek憑一己之力,重塑了大模型世界。
英偉達跌落神壇
在這一周里,AI大模型火起來至今的最大贏家(賺錢最多)英偉達發布了最新財報。但是股價已經連跌多日,從130多美元跌到120美元左右。
英偉達2025財年第四季度營收同比增長78%,較此前連續五個季度三位數增長的態勢顯著放緩,且同比增速為近兩年來最低水平。2024財年第四季度曾達到265%的峰值?。
分析師們在分析英偉達營收增速放緩的原因時認為一方面是微軟、Meta等核心客戶同步研發自研芯片以減少對英偉達的依賴;一方面是?DeepSeek-R1低成本AI模型降低算力需求,部分削弱市場對英偉達高端芯片的依賴?。
當日,英偉達股價大跌8.5%,市值蒸發2740億美元。
一個月前,DeepSeek發布的低成本、高性能開源推理模型R1引發市場震動,英偉達股價一度暴跌近17%。
盡管英偉達CEO黃仁勛強調,DeepSeek的開源工具和低成本模型雖然對行業產生了沖擊,但英偉達通過軟硬件協同優化,依然保持了在AI芯片領域的領先地位。
但是也未能阻止投資者對其業績增速放緩、毛利率下降及中國AI公司DeepSeek的影響的擔憂。
被改變的還有同行。
OpenAI最新大模型GPT-4.5被槽太貴
閉源大模型no1的OpenAI在周五發布了最新的最強大模型GPT-4.5,當然也是最貴的。
GPT-4.5是OpenAI史上參數規模最大的模型,其計算量是上一代的10倍。GPT-4.5的API價格為每百萬Tokens 75美元,相較上一代GPT-4o的2.5美元上漲30倍。
GPT-4.5不是一個專注于推理的模型,GPT-4.5并不能完全替代GPT-4o,在基準測試中它的某些能力低于o1、o3-mini。
這款被網友吐槽“貴得要死”的大模型,并沒能如OpenAI此前的歷屆旗艦大模型發布時一樣引發好評熱議如潮。現在,更多人會用DeepSeek來酸它:有免費好用的DeepSeek開源可用,給我一個花這么多錢用你的理由?
附上DeepSeek代碼開源周內容:
2月24日:Flash MLA開源
(詳情: https://www.techweb.com.cn/it/2025-02-24/2957370.shtml)
?開源內容?:DeepSeek開源了Flash MLA,這是一個針對英偉達Hopper GPU優化的高效MLA(Multi-head Latent Attention,多頭潛注意力)解碼內核。
?核心特性?:特別針對可變長度序列進行優化,使用基準為Hopper GPU、CUDA 12.3及以上版本、PyTorch 2.0及以上版本。在H800 SXM5平臺上,內存受限配置下可達最高3000GB/s,計算受限配置下可達峰值580 TFLOPS。
?技術亮點?:FlashMLA的設計參考了FlashAttention 2&3以及CUTLASS的技術實現,通過KV壓縮與潛在變量、低秩降維技術、動態序列處理等優化,顯著減少了大模型訓練和推理過程中的內存占用。
2月25日:DeepEP通信庫開源
(詳情:https://www.techweb.com.cn/it/2025-02-25/2957421.shtml)
?開源內容?:DeepSeek開源了DeepEP,這是一個用于MoE(混合專家)模型訓練和推理的EP(Expert Parallelism)通信庫。
?核心特性?:為所有GPU內核提供高吞吐量和低延遲,支持低精度操作(包括FP8)。針對NVLink到RDMA的非對稱帶寬轉發場景進行深度優化,提供高吞吐量,并支持SM數量控制。
?技術亮點?:對于對延遲敏感的推理解碼,DeepEP包含一組低延遲內核和純RDMA,以最大限度地減少延遲。同時,引入了一種基于鉤子的通信計算重疊方法,不占用任何SM資源。
2月26日:DeepGEMM代碼庫開源
?(詳情:https://www.techweb.com.cn/it/2025-02-26/2957487.shtml)
開源內容?:DeepSeek開源了DeepGEMM代碼庫,專為簡潔高效的FP8通用矩陣乘法(GEMMs)而設計。
?核心特性?:同時支持普通的和專家混合(MoE)分組的GEMM運算,為V3/R1訓練和推理提供動力支持。使用CUDA編寫,無需編譯,通過輕量級即時編譯模塊在運行時編譯所有內核。
?技術亮點?:DeepGEMM設計簡潔,代碼量約為300行,但性能在各種矩陣形狀上與專家調優的庫相匹配或超越。在H800上測試,計算性能最高可達1358 TFLOPS,內存寬帶最高可達2668 GB/s。
2月27日:并行優化策略開源
(詳情:https://www.techweb.com.cn/internet/2025-02-27/2957552.shtml)
開源內容?:DeepSeek開源了三項并行優化策略,包括DualPipe、EPLB和Profile-data。
DualPipe?:一種用于V3/R1模型訓練中實現計算與通信重疊的雙向流水線并行算法,顯著減少管道氣泡(空閑時間)。
EPLB?:一個針對V3/R1的專家并行負載均衡工具,根據估計的專家負載計算平衡的專家復制和放置計劃。
Profile-data?:DeepSeek基礎設施中的數據分析,包括來自訓練和推理框架的性能剖析數據,旨在幫助社區更深入地理解通信與計算重疊策略及相關底層實現細節。
2月28日:3FS文件系統開源
?(詳情:https://www.techweb.com.cn/internet/2025-02-28/2957580.shtml)
開源內容?:DeepSeek開源了Fire-Flyer文件系統(3FS),一個高性能并行文件系統。
?核心特性?:應對AI訓練和推理工作負載的挑戰,利用現代SSD和RDMA網絡提供共享存儲層,簡化分布式應用程序的開發。在由180個存儲節點組成的大型測試集群上,總讀取吞吐量達到約6.6個TIB/S。
?技術亮點?:3FS的主要功能和優勢包括性能和可用性、強一致性、文件接口開發、多樣化的工作負載(如數據準備、數據加載器、檢查點、用于推理的KVCache)等。
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。