TMT观察网_独特视角观察TMT行业

“算力崩塌”,是真是假快訊

巨潮WAVE 2025-02-06 10:52
分享到:
導讀

GPT-4o模型的訓練成本約為1億美元,Scaling Law被業界認為是大模型訓練的,R1模型的訓練成本基本相當。

DeepSeek的開發成本極低,開源、服務完全免費,這讓山姆·奧特曼和其他AI人工智能的從業者“印象深刻”,讓世界首富馬斯克破防,讓瑞·達利歐對美股深感擔憂。

知名投資人“木頭姐” 凱茜·伍德甚至直言:DeepSeek加劇了人工智能的成本崩潰。

“神秘的東方力量”讓全世界為之側目,也引發了中美AI領導地位更替的思考。不過,對于算力進行重新判斷,可能仍然為時尚早。

當前,我國AI算力部署占全球算力基礎設施的26%,名列世界第二。在“算力即國力”的思潮下,東數西算等數字基礎設施工程正積極進行。

DeepSeek顛覆了固有的“大力出奇跡”的大模型性能提升路徑,短期內對算力需求預期會出現大幅下降。但長期來看,算力部署仍然有大規模需求擴張作的基礎。

正在進行的超大規模算力投資,對于中國科技產業來說,仍是一筆巨大的財富。Deepseek帶來的對算力成本的大幅節省,與如今中國大規模投入的算力基礎設施建設并不沖突。

顛覆

DeepSeek的顛覆性創新,在于極致的效率革命。它僅用不到OpenAI十分之一的成本,就達到了后者最新大模型的性能。

1月20日,DeepSeek 正式發布DeepSeek-R1模型系列,大模型排行榜Chatbot Arena上,DeepSeek- R1的基準測試排名已升至全類別第三,與ChatGPT-4o最新版并駕齊驅,并在風格控制類模型分類中與OpenAI-o1并列頭名。

R1模型雖未公布訓練成本,但據DeepSeekV3技術報告,V3模型的訓練總計只需要278.8萬GPU小時,相當于在2048塊H800 (英偉達特供中國市場的低配版GPU)集群上訓練約2個月,合計成本僅557.6萬美金。

有傳言,R1模型的訓練成本基本相當,但參數規模達到驚人的6710億,這些數據都足夠令外界震驚。

作為對比,GPT-4o模型的訓練成本約為1億美元,需要英偉達GPU量級在萬塊以上,且是比H800性能更強的H100。

同樣是開源模式的Meta Llama 3 系列模型,其訓練需要多達3930萬H100 GPU小時,DeepSeek的訓練成本約相當于Llama 3的7%。也有AI大佬表示過,僅DeepSeek-V3級別的能力就需要接近16000顆GPU的集群。

也就是說,這家中國初創AI公司僅用不到十分之一的成本,就達到了世界一流水平。

這種顛覆性的成本優勢,極有可能改變過往“高投入、高算力”的研發路徑,市場對算力硬件需求持續高增長的預期或產生動搖。

“四兩撥千斤”的能力源于其自研的MLA和MOE架構,為其自身的模型訓練成本下降起到了關鍵作用。

此外,R1模型使用數據蒸餾技術(Distillation),通過一系列算法和策略,將原始復雜的數據進行去噪、降維、提煉,從而得到更為精煉、更為有用的數據,提升訓練效率。

模型蒸餾可以通過訓練小型模型模仿大型模型,廣泛應用于提高AI效率與降低成本。比喻來說,DeepSeek相當于通過更高效的學習方法獲得了優異分數,而OpenAI還在搞題海戰術。

關于“蒸餾技術”網絡上出現了一些爭議

OpenAI的訓練非常依賴人工,其數據團隊甚至分為不同水平的部門,大量數據標注還要轉交給肯尼亞等廉價外包勞工,高維數據還需更高素質的專業人員進行標注,這些都是成本。

近期OpenAI和一些輿論也在公開指責DeepSeek團隊通過“模型蒸餾”技術“違規復制”其產品功能,但始終未提供具體證據。

而且“數據越多性能越強”屬于慣性固有思維,因為數據量越多,其中的干擾也將隨之變大,在此之前,市場上已經有“人工智能變蠢了”的討論出現。

也就是說,如何對數據進行清洗和精煉,同樣是提升模型能力的關鍵。通過創新訓練方法,DeepSeek改變了堆砌算力的共識。

正如創始人梁文鋒所說:“我們想去驗證一些猜想?!?/p>

改寫

半導體領域普遍遵循摩爾定律,AGI行業則是沿著Scaling Law(模型規模定律)向前演進。

Scaling Law被業界認為是大模型訓練的“第一性原理”,模型性能與規模(參數量、數據大小、算力資源)呈正相關——參數越多、計算資源越大,模型的性能就越強。

好比一個中學生,給他提供更豐富的學習資料、更長的學習時間和更好的學習環境,他的學習成績普遍會更好。

此次AI浪潮正是以Scaling law為底層邏輯的技術革命,但DeepSeek的出現打破了這一定律,或者至少讓Scaling law的邊際效益出現放緩的跡象。

這帶給業界的啟示是,人工智能產業將不再一味追求大規模算力的投入,而是在模型架構和工程優化結合上進行突破。粗放式的瘋狂投入發展階段逐步退潮,AI創新進入追求效率,追求模型架構設計、工程優化全新階段。

正如達摩院首席科學家趙德麗所認為的,大模型可以看成是知識的壓縮,怎么利用知識產生更好的智能,就是基于基礎模型的思維推理必然發展的方向。

如微軟rStar-Math無需蒸餾,用60塊A100訓練的7B模型在數學推理上可媲美 OpenAI-o1;上海 AI 實驗室的書生·浦語3.0,僅使用4T數據進行訓練,綜合性能超過了同量級的開源模型,而且訓練成本降低了75%以上。?

DeepSeek帶來的“范式轉移”,不僅破除了科技大廠建立的技術領先壁壘,同時還打破了重資本比拼的游戲慣例。而且它不僅開源,而且還免費。

作為回應,OpenAI緊急上線新一代推理模型o3系列的mini版本,并且首次免費向用戶開放其基礎功能。奧特曼承認,“我個人認為,在(開閉源)這個問題上我們站在了歷史的錯誤一方,需要找出一個不同的開源策略?!?/p>

效率優化策略,無疑給互聯網大廠們的超級愿景潑了一盆冷水。

字節跳動2024年在AI賽道的資本開支就高達800億元,接近BAT的總和;微軟、谷歌、亞馬遜、Meta、蘋果五巨頭合計資本開支2253億美元,2025年有望繼續增長19.6%。其中,單是微軟就計劃在2025財年砸下800億美元,用于建設人工智能數據中心。

就在DeepSeek-R1模型發布兩天后,美國政府就聯合OpenAI、軟銀、甲骨文等啟動“星際之門”項目,計劃在未來四年內最高投資5000億美元。孫正義還宣布要給OpenAI投資250億美元,巨頭們期望通過“軍備競賽”,維持自身在AI領域的全球領導地位。

此前,美國大廠為GPT-5、Llama4等下一代模型正使盡全力補充算力,奧特曼甚至一度去找到中東巨富,計劃籌集7萬億美金建設一座超級數據中心和芯片制造廠。

奧特曼一度試圖籌資7萬億美元

DeepSeek的出現,改變了這種超大規模擴張算力的行業發展“固定路徑”,但同時也出現了一種應該徹底放棄算力建設的聲音。

過剩?

國家算力戰略部署的復雜性,顯然會超過一般輿論討論所得出的結論。尤其是,我國算力基礎設施目前仍處于初步搭建階段,還遠未到過剩狀態。

一方面,隨著訪問量急速飆升,用戶蜂擁而至,DeepSeek深度思考和聯網搜索功能也出現了宕機情況。DeepSeek移動應用上線僅18天就迎來了1600萬次下載,幾乎是ChatGPT同期的兩倍,更是成為全球140個市場中下載量最高的APP。

另一方面,需要注意的是,DeepSeek目前僅支持文字問答、讀圖、讀文檔等功能,還未涉及圖片、音頻和視頻生成領域,未來要想突破文本范疇,其對算力和前期訓練成本的投入都將呈幾何級飆升。

對于其他追隨DeepSeek的大模型公司來說情況也是類似,隨著用戶的增長和產品線的不斷豐富,最終都需要不斷擴張算力。目前國內各大投資機構都在“瘋狂對接”DeepSeek,顯然是對此有非常清晰的判斷。

百度CTO王海峰就認為,規模定律(Scaling Law)仍然有效,更高質量更大規模的數據、更大的模型將會帶來更強的能力。

目前算力建設已成為國家級戰略。2024年《政府工作報告》中就明確提出,適度超前建設數字基礎設施,加快形成全國一體化算力體系。根據《中國綜合算力指數(2024年)》報告,截至2023年末,我國算力基礎設施規模占全球的26%,名列第二,僅次于美國。

工信部數據顯示,截至2024年9月,我國算力總規模246EFLOPS(每秒進行百億億次浮點運算的能力),在用算力中心機架總規模超過830萬標準機架。

此前,六部門聯合印發《算力基礎設施高質量發展行動計劃》,其中指出到2025年,我國算力規模將達到300EFLOPS,智能算力占比要達到35%。

“東數西算”工程早在2021年5月就已啟動,京津冀、長三角、粵港澳大灣區、成渝、貴州、內蒙古、甘肅、寧夏八大樞紐和10大集群雛形已現。

國內已建、正在建設的智算中心超過250個,規劃具有超萬張GPU集群的智算中心已有十多個,國產芯片廠商也因此受到極大關注。華為昇騰910B、寒武紀思元590、百度昆倉芯II-R200、海光信息深算二號,加上中芯國際,共同形成了對抗英偉達、AMD的中國軍團。

這些大規模部署和研發投入,都具有歷史性的戰略意義,是人工智能時代的重要社會財富。

寫在最后

用低成本開發出優質產品,是中國在資源匱乏的歷史條件下,實現工業現代化的獨特文化,而美國則擅長所謂的“范佛里特彈藥量”,倚仗超大規模投入獲得超級領先地位。

在當前的世界經濟格局中,中國家電、光伏等制造業基本都是以高性價比策略取勝,DeepSeek的成功,也是在另一個領域中體現出了中國智慧、巧思和韌性。

中美AI拉鋸的混戰中,原先還處在追趕階段的中國企業,突然以一種領先或顛覆者的身份出現,讓全球科技界大為吃驚。但我們仍需要保持冷靜和謙遜的心態。

就像梁文鋒所說的:

在美國每天發生的大量創新里,這是非常普通的一個。他們之所以驚訝,是因為這是一個中國公司,以創新貢獻者的身份,加入到他們的游戲里去。

也正因如此,算力基礎設施仍是一種人工智能時代不可或缺的創新土壤、社會資源。

模型 DeepSeek AI 數據 成本
分享到:

1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。


主站蜘蛛池模板: 涂层测厚仪_漆膜仪_光学透过率仪_十大创新厂家-果欧电子科技公司 | 防渗土工膜|污水处理防渗膜|垃圾填埋场防渗膜-泰安佳路通工程材料有限公司 | 无缝方管|无缝矩形管|无缝方矩管|无锡方管厂家 | PC构件-PC预制构件-构件设计-建筑预制构件-PC构件厂-锦萧新材料科技(浙江)股份有限公司 | 台式低速离心机-脱泡离心机-菌种摇床-常州市万丰仪器制造有限公司 | 伺服电机维修、驱动器维修「安川|三菱|松下」伺服维修公司-深圳华创益 | 合肥卓创建筑装饰,专业办公室装饰、商业空间装修与设计。 | vr安全体验馆|交通安全|工地安全|禁毒|消防|安全教育体验馆|安全体验教室-贝森德(深圳)科技 | 细沙回收机-尾矿干排脱水筛设备-泥石分离机-建筑垃圾分拣机厂家-青州冠诚重工机械有限公司 | 非甲烷总烃分析仪|环控百科| 重庆监控_电子围栏设备安装公司_门禁停车场管理系统-劲浪科技公司 | 合肥制氮机_合肥空压机厂家_安徽真空泵-凯圣精机 | 【直乐】河北石家庄脊柱侧弯医院_治疗椎间盘突出哪家医院好_骨科脊柱外科专业医院_治疗抽动症/关节病骨伤权威医院|排行-直乐矫形中医医院 | 交通气象站_能见度检测仪_路面状况监测站- 天合环境科技 | 神超官网_焊接圆锯片_高速钢锯片_硬质合金锯片_浙江神超锯业制造有限公司 | 河南橡胶接头厂家,河南波纹补偿器厂家,河南可曲挠橡胶软连接,河南套筒补偿器厂家-河南正大阀门 | 皮带输送机-大倾角皮带输送机-皮带输送机厂家-河南坤威机械 | 仿古瓦,仿古金属瓦,铝瓦,铜瓦,铝合金瓦-西安东申景观艺术工程有限公司 | ptc_浴霸_大巴_干衣机_呼吸机_毛巾架_电动车加热器-上海帕克 | 山东石英砂过滤器,除氟过滤器「价格低」-淄博胜达水处理 | jrs高清nba(无插件)直播-jrs直播低调看直播-jrs直播nba-jrs直播 上海地磅秤|电子地上衡|防爆地磅_上海地磅秤厂家–越衡称重 | 东莞工厂厂房装修_无尘车间施工_钢结构工程安装-广东集景建筑装饰设计工程有限公司 | 污水处理设备,一体化泵站,一体化净水设备-「梦之洁环保设备厂家」 | 五轴加工中心_数控加工中心_铝型材加工中心-罗威斯 | 定量包装机,颗粒定量包装机,粉剂定量包装机,背封颗粒包装机,定量灌装机-上海铸衡电子科技有限公司 | 精密模具加工制造 - 富东懿| 铝箔袋,铝箔袋厂家,东莞铝箔袋,防静电铝箔袋,防静电屏蔽袋,防静电真空袋,真空袋-东莞铭晋让您的产品与众不同 | 临时厕所租赁_玻璃钢厕所租赁_蹲式|坐式厕所出租-北京慧海通 | 冻干机(冷冻干燥机)_小型|实验型|食品真空冷冻干燥机-松源 | 集菌仪_智能集菌仪_全封闭集菌仪_无菌检查集菌仪厂家-那艾 | 江苏大隆凯科技有限公司 | 动力配电箱-不锈钢配电箱-高压开关柜-重庆宇轩机电设备有限公司 聚天冬氨酸,亚氨基二琥珀酸四钠,PASP,IDS - 远联化工 | 电动不锈钢套筒阀-球面偏置气动钟阀-三通换向阀止回阀-永嘉鸿宇阀门有限公司 | 建筑工程资质合作-工程资质加盟分公司-建筑资质加盟 | 纳米二氧化硅,白炭黑,阴离子乳化剂-臻丽拾科技 | 智能垃圾箱|垃圾房|垃圾分类亭|垃圾分类箱专业生产厂家定做-宿迁市传宇环保设备有限公司 | 无缝钢管-聊城无缝钢管-小口径无缝钢管-大口径无缝钢管 - 聊城宽达钢管有限公司 | 茅茅虫AI论文写作助手-免费AIGC论文查重_写毕业论文降重 | 垃圾处理设备_餐厨垃圾处理设备_厨余垃圾处理设备_果蔬垃圾处理设备-深圳市三盛环保科技有限公司 | 商用绞肉机-熟肉切片机-冻肉切丁机-猪肉开条机 - 广州市正盈机械设备有限公司 | 灰板纸、灰底白、硬纸板等纸品生产商-金泊纸业|