TMT观察网_独特视角观察TMT行业

爆火的DeepSeek引發(fā)成本、技術(shù)質(zhì)疑,未來算力還重要嗎?快訊

TechWeb.com.cn 2025-02-10 13:32
分享到:
導(dǎo)讀

利用OpenAI專有模型來訓(xùn)練其AI大模型,DeepSeek論文中提到的600萬美元成本僅指預(yù)訓(xùn)練運行的GPU成本,DeepSeek-V3極低的訓(xùn)練成本預(yù)示著AI大模型對算力投入的需求將大幅下降。

TechWeb文/卞海川

近期,DeepSeek在AI大模型領(lǐng)域引發(fā)熱議,憑借其驚人的性能表現(xiàn)和低成本訓(xùn)練模式,迅速吸引了全球關(guān)注,且熱度一直不減。但隨之而來的,對其成本、技術(shù)以及為未來作為大模型基礎(chǔ)設(shè)施的算力也引發(fā)了爭議。

DeepSeek陷成本誤區(qū)?

提及成本,DeepSeek發(fā)表的原始報告中有詳細解釋這筆成本的計算:“在預(yù)訓(xùn)練階段,每兆個token上訓(xùn)練DeepSeek-V3僅需要180K H800 GPU小時,也就是說,在我們擁有2048個H800 GPU的叢集上需要3.7天。因此,我們的預(yù)訓(xùn)練階段在不到兩個月的時間內(nèi)完成,耗費2664K GPU小時。加上上下文長度擴充所需的119K GPU小時和后制訓(xùn)練所需的5K GPU小時,DeepSeek-V3的完整訓(xùn)練僅需2.788M GPU小時。假設(shè)H800 GPU的租賃價格為每GPU小時2美元,我們的總訓(xùn)練成本僅為557.6萬美元。”

對此,近日知名的SemiAnalysis公開發(fā)布的《DeepSeek Debates: Chinese Leadership On Cost, True Training Cost, Closed Model Margin Impacts》的報告中稱:DeepSeek論文中提到的600萬美元成本僅指預(yù)訓(xùn)練運行的GPU成本,這只是模型總成本的一小部分,他們在硬件上的花費遠高于5億美元。例如為了開發(fā)新的架構(gòu)創(chuàng)新,在模型開發(fā)過程中,需要投入大量資金來測試新想法、新架構(gòu)思路,并進行消融實驗。開發(fā)和實現(xiàn)這些想法需要整個團隊投入大量人力和GPU計算時間。例如深度求索的關(guān)鍵創(chuàng)新—多頭潛在注意力機制(Multi-Head Latent Attention),就耗費了數(shù)月時間。

無獨有偶,據(jù)外媒報道,李飛飛等斯坦福大學(xué)和華盛頓大學(xué)的研究人員以不到50美元的費用,使用了16張英偉達H100 GPU,耗時26分鐘就完成了訓(xùn)練,成功“打造”出了一個名為s1-32B的人工智能推理模型。

有業(yè)內(nèi)觀點認為,DeepSeek模型低成本并不客觀。

武漢大學(xué)計算機學(xué)院教授、中國人工智能學(xué)會心智計算專委會副主任蔡恒進對TechWeb表示,DeepSeek在生成模型的成本在報告中已經(jīng)寫的很清晰了,過于糾結(jié)前期的投入,有多少實際成本是不重要的,特別是對于國內(nèi)產(chǎn)業(yè)成本很低的情況下,前期做研究的成本也會比美國低很多。

蒸餾業(yè)內(nèi)通行做法,是非公婆各有理

除了上述的成本外,業(yè)內(nèi)對于DeepSeek爭議最大的還有就是其是否使用了蒸餾技術(shù),如果使用,究竟使用了誰家的?

最先提出質(zhì)疑的是,是在DeepSeek R1發(fā)布之初,OpenAI和微軟均向媒體證實,已掌握疑似DeepSeek通過“蒸餾”(distillation)技術(shù),利用OpenAI專有模型來訓(xùn)練其AI大模型。這使得DeepSeek能夠以較低的成本在特定任務(wù)上達到類似的效果。OpenAI雖未進一步提供證據(jù)的細節(jié),但根據(jù)其服務(wù)條款,用戶不得“復(fù)制”任何OpenAI的服務(wù),或“利用輸出結(jié)果開發(fā)與OpenAI競爭的模型”。

對于DeepSeek爆火之下,馬斯克一直罕見地并未發(fā)表評論,卻在最近點贊了一則推文。推文中提到了DeepSeek大量依賴模型蒸餾技術(shù),需要借助ChatGPT-4o和o1才能完成訓(xùn)練。盡管模型蒸餾是一項常見的技術(shù)手段,能夠?qū)penAI中的大量數(shù)據(jù)迅速提煉重點并快速理解和應(yīng)用,但這種模式只能讓DeepSeek接近OpenAI,而難以真正超越OpenAI。

除了國外,國內(nèi)關(guān)于DeepSeek V3曾在測試中出現(xiàn)過異常:該模型自稱是OpenAI的ChatGPT,并能提供OpenAI的API使用說明。專家認為,這很可能是由于訓(xùn)練數(shù)據(jù)中混入了大量由ChatGPT生成的內(nèi)容(即“蒸餾”數(shù)據(jù)),導(dǎo)致模型發(fā)生了“身份混淆”。

此外,由中國科學(xué)院深圳先進技術(shù)研究院、北京大學(xué)、01.AI、南方科技大學(xué)、Leibowitz AI等多個知名機構(gòu)的研究團隊聯(lián)合發(fā)表的《Distillation Quantification for Large Language Models(大語言模型的蒸餾量化)》論文則顯示DeepSeek V3的蒸餾過程可能主要來自GPT4o,且蒸餾程度較高。

該論文提出了一個系統(tǒng)化的框架,量化并評估大模型蒸餾的過程及其影響,采用了“響應(yīng)相似性評估(RSE)”和“身份一致性評估(ICE)”兩個量化指標。RSE實驗結(jié)果顯示,DeepSeek V3的蒸餾程度與GPT4o接近,評分為4.102,遠高于其他模型(如Llama 3.1-70B和Doubao-Pro-32k)。在ICE實驗中,DeepSeek V3也顯示出較高的蒸餾程度,屬于可疑響應(yīng)數(shù)量最多的模型之一。

對于蒸餾技術(shù)的爭議,蔡恒進對TechWeb表示,DeepSeek完全蒸餾GPT的說法是錯誤的,ChatGPT的模型是閉源的,而DeepSeek展示了思考過程,這是抄不出來的。“DeepSeek技術(shù)上是有創(chuàng)新的,過于糾結(jié)蒸餾這方面完全沒有意義。”蔡恒進說道。

蔡恒進認為DeepSeek有著獨特的技術(shù)路徑優(yōu)勢,它可以從底層優(yōu)化,可以繞開英偉達CUDA生態(tài),可以大幅提升國產(chǎn)芯片做預(yù)訓(xùn)練的性能。

打破算力魔咒,未來算力還重要嗎?

基于我們前述成本的優(yōu)勢,有業(yè)內(nèi)觀點認為,DeepSeek的出現(xiàn),打破了英偉達等科技巨頭“堆積算力”的路徑,也就是說,美國AI巨頭們認定的那個靠錢、靠更高算力芯片才能堆出來的更好的模型,不需要那么高昂的門檻了。

蔡恒進對TechWeb表示,原來我們一直認為不斷“堆積算力”才能提高AI模型能力,但Deepseek的出現(xiàn)走出了另一條路,即不一定要提升很高的參數(shù)規(guī)模就能實現(xiàn)很高的性能,可能對算力需求至少降到10倍以上。“堆算力”本身沒有錯,但隨著Deepseek的出現(xiàn)我們會發(fā)現(xiàn)這條路的性價比不高。

DeepSeek-V3極低的訓(xùn)練成本預(yù)示著AI大模型對算力投入的需求將大幅下降,但也有觀點認為,DeepSeek表現(xiàn)固然優(yōu)秀,但其統(tǒng)計口徑只計算了預(yù)訓(xùn)練,數(shù)據(jù)的配比需要做大量的預(yù)實驗,合成數(shù)據(jù)的生成和清洗也需要消耗算力。

此外,在訓(xùn)練上做降本增效不代表算力需求會下降,只代表大廠可以用性價比更高的方式去做模型極限能力的探索。

業(yè)內(nèi)在討論算力時,常引用蒸汽時代的杰文斯悖論來類比。這一悖論由經(jīng)濟學(xué)家威廉?斯坦利?杰文斯提出,核心觀點是:當某種資源的使用效率提高、獲取變得更容易時,其總體使用量往往不減反增。以蒸汽機為例,燃油效率的提升降低了單位工作量所需的煤炭成本,反而刺激了更多的工業(yè)活動,導(dǎo)致煤炭的總體消耗量上升。蒸汽機效率的提升,不僅沒有減少對蒸汽機的需求,反而因為技術(shù)的推廣和應(yīng)用場景的擴大,進一步增加了市場對蒸汽機的需求。DeepSeek 的發(fā)展也呈現(xiàn)出類似的趨勢:算力效率的提升并未減少對算力的需求,反而推動了更多高算力應(yīng)用的落地,使得行業(yè)對算力的需求持續(xù)增長。

對此,中信證券研報也指出,近日,DeepSeek-V3的正式發(fā)版引起AI業(yè)內(nèi)廣泛高度關(guān)注,其在保證了模型能力的前提下,訓(xùn)練效率和推理速度大幅提升。DeepSeek新一代模型的發(fā)布意味著AI大模型的應(yīng)用將逐步走向普惠,助力AI應(yīng)用廣泛落地;同時訓(xùn)練效率大幅提升,亦將助力推理算力需求高增。

而Bloomberg Intelligence最近的一篇報告顯示,企業(yè)客戶可能會在2025年進行更大規(guī)模的AI投資,而AI支出增長將更側(cè)重于推理側(cè),以實現(xiàn)投資變現(xiàn)或提升生產(chǎn)力。

那么上述存有爭議的事實究竟如何?俗話說:讓子彈再飛一會吧!

模型 DeepSeek 訓(xùn)練 成本 蒸餾
分享到:

1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會明確標注作者和來源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請轉(zhuǎn)載時務(wù)必注明文章作者和"來源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會經(jīng)TMT觀察網(wǎng)編輯修改或補充。


主站蜘蛛池模板: 滚筒烘干机_转筒烘干机_滚筒干燥机_转筒干燥机_回转烘干机_回转干燥机-设备生产厂家 | 防爆电机_ybx3系列电机_河南省南洋防爆电机有限公司 | 高清视频编码器,4K音视频编解码器,直播编码器,流媒体服务器,深圳海威视讯技术有限公司 | 北京翻译公司_同传翻译_字幕翻译_合同翻译_英语陪同翻译_影视翻译_翻译盖章-译铭信息 | 【连江县榕彩涂料有限公司】官方网站 | 无线讲解器-导游讲解器-自助讲解器-分区讲解系统 品牌生产厂家[鹰米讲解-合肥市徽马信息科技有限公司] | 苏州防水公司_厂房屋面外墙防水_地下室卫生间防水堵漏-苏州伊诺尔防水工程有限公司 | 佛山市钱丰金属不锈钢蜂窝板定制厂家|不锈钢装饰线条|不锈钢屏风| 电梯装饰板|不锈钢蜂窝板不锈钢工艺板材厂家佛山市钱丰金属制品有限公司 | 欧盟ce检测认证_reach检测报告_第三方检测中心-深圳市威腾检验技术有限公司 | 动库网动库商城-体育用品专卖店:羽毛球,乒乓球拍,网球,户外装备,运动鞋,运动包,运动服饰专卖店-正品运动品网上商城动库商城网 - 动库商城 | 气动隔膜泵-电动隔膜泵-循环热水泵-液下排污/螺杆/管道/化工泵「厂家」浙江绿邦 | 欧景装饰设计工程有限公司-无锡欧景装饰官网 | 沈阳建筑设计公司_加固改造设计_厂房设计_设计资质加盟【金辉设计】 | Magnescale探规,Magnescale磁栅尺,Magnescale传感器,Magnescale测厚仪,Mitutoyo光栅尺,笔式位移传感器-苏州连达精密量仪有限公司 | 硅胶制品-硅橡胶制品-东莞硅胶制品厂家-广东帝博科技有限公司 | 雪花制冰机(实验室雪花制冰机)百科| 岩石钻裂机-液压凿岩机-劈裂机-挖改钻_湖南烈岩科技有限公司 | 采暖炉_取暖炉_生物质颗粒锅炉_颗粒壁炉_厂家加盟批发_烟台蓝澳采暖设备有限公司 | 耐磨焊丝,堆焊焊丝,耐磨药芯焊丝,碳化钨焊丝-北京耐默公司 | 热熔胶网膜|pes热熔网膜价格|eva热熔胶膜|热熔胶膜|tpu热熔胶膜厂家-苏州惠洋胶粘制品有限公司 | 龙门加工中心-数控龙门加工中心厂家价格-山东海特数控机床有限公司_龙门加工中心-数控龙门加工中心厂家价格-山东海特数控机床有限公司 | 数字展示在线_数字展示行业门户网站 | 西门子代理商_西门子变频器总代理-翰粤百科 | 广州/东莞小字符喷码机-热转印打码机-喷码机厂家-广州瑞润科技 | 818手游网_提供当下热门APP手游_最新手机游戏下载 | 权威废金属|废塑料|废纸|废铜|废钢价格|再生资源回收行情报价中心-中废网 | 云南外加剂,云南速凝剂,云南外加剂代加工-普洱澜湄新材料科技有限公司 | 胶辊硫化罐_胶鞋硫化罐_硫化罐厂家-山东鑫泰鑫智能装备有限公司 意大利Frascold/富士豪压缩机_富士豪半封闭压缩机_富士豪活塞压缩机_富士豪螺杆压缩机 | led全彩屏-室内|学校|展厅|p3|户外|会议室|圆柱|p2.5LED显示屏-LED显示屏价格-LED互动地砖屏_蕙宇屏科技 | 我车网|我关心的汽车资讯_汽车图片_汽车生活! | 河南橡胶接头厂家,河南波纹补偿器厂家,河南可曲挠橡胶软连接,河南套筒补偿器厂家-河南正大阀门 | 高柔性拖链电缆_卷筒电缆_耐磨耐折聚氨酯电缆-玖泰特种电缆 | 华东师范大学在职研究生招生网_在职研究生招生联展网 | ◆大型吹塑加工|吹塑加工|吹塑代加工|吹塑加工厂|吹塑设备|滚塑加工|滚塑代加工-莱力奇塑业有限公司 | 合肥活动房_安徽活动板房_集成打包箱房厂家-安徽玉强钢结构集成房屋有限公司 | 根系分析仪,大米外观品质检测仪,考种仪,藻类鉴定计数仪,叶面积仪,菌落计数仪,抑菌圈测量仪,抗生素效价测定仪,植物表型仪,冠层分析仪-杭州万深检测仪器网 | 影视模板素材_原创专业影视实拍视频素材-8k像素素材网 | FFU_空气初效|中效|高效过滤器_空调过滤网-广州梓净净化设备有限公司 | 青海电动密集架_智能密集架_密集架价格-盛隆柜业青海档案密集架厂家 | sfp光模块,高速万兆光模块工厂-性价比更高的光纤模块制造商-武汉恒泰通 | 通风天窗,通风气楼,屋顶通风天窗,屋顶通风天窗公司 |