TMT观察网_独特视角观察TMT行业

李開復(fù):分享對DeepSeek的四個觀察快訊

TechWeb.com.cn 2025-03-31 13:22
分享到:
導(dǎo)讀

最后還有很多企業(yè)需要基于 DeepSeek 模型進(jìn)行模型微調(diào),DeepSeek破解并開源推理模型的思考訓(xùn)練過程,DeepSeek破解并開源推理模型的思考訓(xùn)練過程。

【TechWeb】3月31日消息,在2025中關(guān)村論壇年會人工智能主題日上,零一萬物 CEO、創(chuàng)新工場董事長李開復(fù)發(fā)表演講,其中提到對DeepSeek的四點(diǎn)觀察:

第一個觀察是,DeepSeek破解并開源推理模型的思考訓(xùn)練過程,進(jìn)一步縮小與美國的差距。

第二個觀察是,DeepSeek 極其高效的工程效率,這走出了一條與OpenAI天量級融資的底層邏輯迥然不同的中國道路。

第三個觀察,也是最重要的一點(diǎn),DeepSeek 證明了開源模型能力追趕上閉源模型,進(jìn)一步推進(jìn)SOTA模型的商品化。

第四個觀察,中國迎來了屬于自己的“DeepSeek Moment”,將大幅加速大模型在中國的全面落地。

以下為李開復(fù)演講全文記錄:

非常高興又有機(jī)會來中關(guān)村論壇分享我對過去這幾個月 AI 領(lǐng)域所發(fā)生的一些重大事件的觀察,以及我眼中的 AI 行業(yè)藍(lán)圖。

AI 2.0 是有史以來最偉大的科技革命與平臺革命,大模型走出實(shí)驗(yàn)室,穿透各行各業(yè)成為驅(qū)動實(shí)體經(jīng)濟(jì)的新質(zhì)生產(chǎn)力。在過去兩年間,從 ChatGPT 推出之后,大模型智力在不斷地提升,而且目前看起來遠(yuǎn)沒有觸及天花板。與此同時,大模型的推理成本在以每年降低十倍的速度快速下降,這為AI-First應(yīng)用爆發(fā)提供了非常重要的條件。兩年前模型性能不夠好的模型,現(xiàn)在已經(jīng)夠好了;兩年前推理成本太貴的模型,現(xiàn)在已經(jīng)是“白菜價”了。所以在我看來, AI-First 應(yīng)用很快將井噴,2025 年將會是 AI-First 應(yīng)用爆發(fā)、大模型“落地為王”的元年。

幾個月前,前 OpenAI 聯(lián)合創(chuàng)始人 Ilya 公開表示,預(yù)訓(xùn)練階段的 Scaling Law 已經(jīng)放緩。因?yàn)槟P陀?xùn)練所用的數(shù)據(jù)量已經(jīng)觸及瓶頸,算力方面也存在著客觀制約因素——超大 GPU 集群效益降低,隨著 GPU 數(shù)量增加容錯問題等導(dǎo)致邊際效益降低。即便訓(xùn)練出超大參數(shù)量的大模型,比如 OpenAI 所發(fā)布的 GPT-4.5,模型性能確實(shí)有提升,但是 GPT-4.5 的價格是 DeepSeek-V3 的 500 倍。在絕大多數(shù)生產(chǎn)力場景里,超大參數(shù)量的模型價格昂貴速度緩慢,性價比并不突出。

好在行業(yè)內(nèi)已經(jīng)出現(xiàn)了新的曙光,Scaling Law 正從預(yù)訓(xùn)練階段轉(zhuǎn)向推理階段,也就是慢思考模式。過往預(yù)訓(xùn)練階段的 Scaling Law 是指:有更多的 GPU、更多的數(shù)據(jù),模型就可以變得更聰明,但目前看其增長趨勢放緩了。新的慢思考 Scaling Law 是指:模型思考的時間更長,就會得出有更優(yōu)質(zhì)的結(jié)果。目前看來,慢思考 Scaling Law 下,模型性能的成長速度非常快,而且還有很大的增長空間。
結(jié)合這些新的技術(shù)創(chuàng)新,現(xiàn)在模型訓(xùn)練的過程變得非常有意思。先訓(xùn)練一個“文科生”,讓模型閱讀所有的書籍,然后再向理科方向訓(xùn)練,讓模型能夠證明數(shù)學(xué)題、會寫代碼,最終得到的“文理雙全”的模型會非常厲害。

另外一個值得關(guān)注的點(diǎn)在于,模型性能的提升其實(shí)在加速,而不是在放緩。從 GPT-2 到 GPT-3、從 GPT-3 到 GPT-4.5,每一次升級都花了大約兩年的時間,為什么呢?本質(zhì)上還是人在訓(xùn)練模型,是人來規(guī)劃新的算法、新的模型架構(gòu)、再搭配更多 GPU、再投入更多數(shù)據(jù),最終推動模型性能的提升。
但今天,我們進(jìn)入了一個非常有意思的“AI 教 AI”的時代。從 OpenAI 發(fā)布 o1 到 發(fā)布 o3,中間只隔了三個月。 DeepSeek-R1 也是在 OpenAI o1 發(fā)布的兩個月之后就正式發(fā)布,并且可能很快就會發(fā)布 R2。無論是從 o1 到 o3,還是從 R1 到 R2,模型迭代的速度縮短到了三個月。一個重要的原因就是現(xiàn)在很大程度上已經(jīng)不再單單依靠人來發(fā)明新算法、發(fā)明模型架構(gòu),而是 AI 借由慢思考具備了反思的能力,能夠自我迭代、自我進(jìn)步,也就是“AI 教 AI”,AI進(jìn)入到自我演進(jìn)范式。

經(jīng)過慢思考,AI 正變得越來越聰明。模型性能更好的模型可以去教那些基礎(chǔ)較弱的模型,超大參數(shù)模型可以去訓(xùn)練參數(shù)量較小的模型。這樣的搭配類似“老師”和“學(xué)生”,經(jīng)過蒸餾、數(shù)據(jù)標(biāo)注和合成數(shù)據(jù),未來模型性能的提升會進(jìn)一步加速。超大預(yù)訓(xùn)練模型的價值將進(jìn)一步體現(xiàn)在“教師模型”的角色中,其本質(zhì)也將更趨進(jìn)于大模型時代的基礎(chǔ)設(shè)施。

最近,社會各界都在討論 DeepSeek,我也來分享一下我對 DeepSeek 的四個觀察。

第一個觀察是,DeepSeek破解并開源推理模型的思考訓(xùn)練過程,進(jìn)一步縮小與美國的差距。

DeepSeek 很快讓模型具備了 Reasoning (推理)慢思考的能力。DeepSeek-R1 真正切實(shí)掌握了這一技術(shù),并且還公開了 DeepSeek-R1 的思維鏈。這是非常令人震驚的,因?yàn)?OpenAI o1 一直隱藏著思維鏈,就是防止友商復(fù)現(xiàn),結(jié)果 DeepSeek 還是從零起步做到了這一點(diǎn)。

第二個觀察是,DeepSeek 極其高效的工程效率,這走出了一條與OpenAI天量級融資的底層邏輯迥然不同的中國道路。在同樣標(biāo)準(zhǔn)下進(jìn)行比較,DeepSeek-R1 要比美國的類似模型更快,也更便宜了 5 到 10 倍,這背后是工程能力的巨大進(jìn)步。

第三個觀察,也是我認(rèn)為最重要的一點(diǎn),DeepSeek 證明了開源模型能力追趕上閉源模型,進(jìn)一步推進(jìn)SOTA模型的商品化。DeepSeek 證明了閉源的路徑是不可取的,開源才能有更好的發(fā)展。如果  DeepSeek 沒有開源,我大膽揣測,它的影響力會遠(yuǎn)遠(yuǎn)不如今天。在美國的開源社區(qū)和社交媒體,大部分人都在熱情擁抱 DeepSeek,過往很少有中國軟件在海外收獲如此廣泛的歡迎。這很大程度上就來自于,與閉源的 OpenAI 相比,DeepSeek 更為開放。

第四個觀察,中國迎來了屬于自己的“DeepSeek Moment”,將大幅加速大模型在中國的全面落地。大概 9 個月前,我曾經(jīng)沮喪地說,中國還沒有“ChatGPT moment”,雖然過去也有表現(xiàn)不錯的模型出現(xiàn),但是卻始終缺少一個一枝獨(dú)秀的模型,能夠支撐 ToB、ToC 應(yīng)用百花齊放,能夠讓每個企業(yè) CEO 都在追問 IT 部門“什么時候能在企業(yè)里接入大模型?”現(xiàn)在企業(yè)和用戶已經(jīng)經(jīng)過“DeepSeek Moment”的市場教育,中國市場真正覺醒了,這也為 中國AI-First 應(yīng)用的爆發(fā)掃清了一大障礙。

因?yàn)檫^去做大模型應(yīng)用最大的瓶頸之一,就是需要教育市場。如果一個初創(chuàng)公司需要教育市場,那它幾乎沒有成功的可能,因?yàn)榻逃袌鲂枰臅r間太長,前景未卜。今天 DeepSeek 完成了對中國 ToB、ToC市場的市場教育, AI-First 應(yīng)用爆發(fā)又多了一個強(qiáng)有力的支撐。

DeepSeek 的基座模型很優(yōu)秀,但是如果要落地企業(yè)生產(chǎn)力場景,還有一些卡點(diǎn)需要克服。很多企業(yè) CEO 希望能夠本地部署、安全部署,因?yàn)椴糠?CEO 處于數(shù)據(jù)安全的考慮不希望公司數(shù)據(jù)上網(wǎng),所以不能直接用 API。在應(yīng)用實(shí)踐方面,很多公司需要有更好的聯(lián)網(wǎng)搜索、Deep Research(深度研究) 等功能,也需要用 RAG技術(shù)(檢索增強(qiáng)生成,Retrieval-augmented Generation) 鏈接企業(yè)數(shù)據(jù)庫,如ERP、CRM等系統(tǒng)。此外還有企業(yè)希望能夠在基座模型基礎(chǔ)上開發(fā)應(yīng)用、打造企業(yè)專屬智能體。最后還有很多企業(yè)需要基于 DeepSeek 模型進(jìn)行模型微調(diào),甚至需要繼續(xù)預(yù)訓(xùn)練,從而讓DeepSeek 等基座模型持續(xù)進(jìn)化,最終成為能在企業(yè)專屬的“行業(yè)大腦”。

基于上述考量,零一萬物在過去幾個月也做出了戰(zhàn)略調(diào)整,我們已經(jīng)全面擁抱 DeepSeek,并且把大部分力量用于把 DeepSeek 優(yōu)質(zhì)基座模型轉(zhuǎn)變?yōu)槠髽I(yè)級企業(yè)級 DeepSeek 部署定制解決方案——可以類比為零一萬物在打造AI 2.0時代的Windows系統(tǒng),而DeepSeek就是驅(qū)動Windows的內(nèi)核。區(qū)別于普通軟件公司或系統(tǒng)集成商提供的淺層方案,零一萬物2年來在安全部署、應(yīng)用實(shí)踐、行業(yè)定制已經(jīng)具備成熟且全鏈條的技術(shù)棧能力——只有真正做過頂尖大模型訓(xùn)練、模型微調(diào)到應(yīng)用的大模型公司才能夠提供專業(yè)成熟的、一站式的深度服務(wù)。

最后我想說的這點(diǎn)大家此前或許沒有過多關(guān)注。隨著全世界開始擁抱 ChatGPT、DeepSeek,一個很大的問題開始浮現(xiàn)。對于小語種而言,很多基座模型的表現(xiàn)并不好。以俄語為例,在 Llama 的訓(xùn)練語料中俄語占比僅 0.13%,因此 Llama 在俄語上的表現(xiàn)并不好,在東南亞、中東、中亞、非洲等國家和地區(qū)的小語種表現(xiàn)上更是表現(xiàn)不佳。我一個朋友是斯坦福語言學(xué)教授,他認(rèn)為目前大模型基本忽視了 7000 多個小語種,可能會加速這些語言的滅絕。康奈爾大學(xué)的研究也顯示,每個國家和地區(qū)之間的價值觀是存在不小的偏差。所以讓每個國家和地區(qū)都有機(jī)會訓(xùn)練自己語言的模型、訓(xùn)練出符合自身價值觀的模型,不僅必要而且是這些國家和地區(qū)的剛需。

我們很幸運(yùn)的是,中國很多大模型公司在訓(xùn)練中文大模型,但是很多小語種的國家并沒有。這也是零一萬物推出小語種模型的初衷,零一萬基于每個國家可優(yōu)化出不同的模型對齊策略,我們也積極響應(yīng)“一帶一路”倡議實(shí)現(xiàn)共贏發(fā)展,期待與“一帶一路”國家攜手合作,讓更多國家能夠擁有自主可控的大模型。

今年開源模型的勝利是一件大事,“DeepSeek Moment”的出現(xiàn)也是一件大事。今年可以預(yù)見的是, AI-First 應(yīng)用將會迎來爆發(fā)。AI需要市場,市場也需要AI。各家模型公司也必須要回歸商業(yè)本質(zhì),想清楚公司如何利用技術(shù)真正為客戶創(chuàng)造價值。零一萬物認(rèn)為,今年的一個焦點(diǎn)問題應(yīng)該是:Make AI Work,讓大模型真正賦能千行百業(yè),謝謝大家。
 

模型 DeepSeek 訓(xùn)練 AI 應(yīng)用
分享到:

1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會明確標(biāo)注作者和來源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請轉(zhuǎn)載時務(wù)必注明文章作者和"來源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會經(jīng)TMT觀察網(wǎng)編輯修改或補(bǔ)充。


主站蜘蛛池模板: 吲哚菁绿衍生物-酶底物法大肠菌群检测试剂-北京和信同通科技发展有限公司 | 安规电容|薄膜电容|陶瓷电容|智旭JEC安规电容厂家 | 车间除尘设备,VOCs废气处理,工业涂装流水线,伸缩式喷漆房,自动喷砂房,沸石转轮浓缩吸附,机器人喷粉线-山东创杰智慧 | 山东活动策划|济南活动公司|济南公关活动策划-济南锐嘉广告有限公司 | 安平县鑫川金属丝网制品有限公司,声屏障,高速声屏障,百叶孔声屏障,大弧形声屏障,凹凸穿孔声屏障,铁路声屏障,顶部弧形声屏障,玻璃钢吸音板 | 金刚网,金刚网窗纱,不锈钢网,金刚网厂家- 河北萨邦丝网制品有限公司 | 气力输送_输送机械_自动化配料系统_负压吸送_制造主力军江苏高达智能装备有限公司! | 东莞动力锂电池保护板_BMS智能软件保护板_锂电池主动均衡保护板-东莞市倡芯电子科技有限公司 | 纸张环压仪-纸张平滑度仪-杭州纸邦自动化技术有限公司 | 磁棒电感生产厂家-电感器厂家-电感定制-贴片功率电感供应商-棒形电感生产厂家-苏州谷景电子有限公司 | 标策网-专注公司商业知识服务、助力企业发展 | 罐体电伴热工程-消防管道电伴热带厂家-山东沃安电气 | 南京兰江泵业有限公司-水解酸化池潜水搅拌机-絮凝反应池搅拌机-好氧区潜水推进器 | 蚂蚁分类信息系统 - PHP同城分类信息系统 - MayiCMS | 河北中仪伟创试验仪器有限公司是专业生产沥青,土工,水泥,混凝土等试验仪器的厂家,咨询电话:13373070969 | 陕西安玻璃自动感应门-自动重叠门-磁悬浮平开门厂家【捷申达门业】 | 洁净化验室净化工程_成都实验室装修设计施工_四川华锐净化公司 | 车充外壳,车载充电器外壳,车载点烟器外壳,点烟器连接头,旅行充充电器外壳,手机充电器外壳,深圳市华科达塑胶五金有限公司 | 武汉刮刮奖_刮刮卡印刷厂_为企业提供门票印刷_武汉合格证印刷_现金劵代金券印刷制作 - 武汉泽雅印刷有限公司 | 风信子发稿-专注为企业提供全球新闻稿发布服务 | 济南侦探调查-济南调查取证-山东私家侦探-山东白豹调查咨询公司 密集架|电动密集架|移动密集架|黑龙江档案密集架-大量现货厂家销售 | 申江储气罐厂家,储气罐批发价格,储气罐规格-上海申江压力容器有限公司(厂) | 创富网-B2B网站|供求信息网|b2b平台|专业电子商务网站 | 全自动翻转振荡器-浸出式水平振荡器厂家-土壤干燥箱价格-常州普天仪器 | 气象监测系统_气象传感器_微型气象仪_气象环境监测仪-山东风途物联网 | 座椅式升降机_无障碍升降平台_残疾人升降平台-南京明顺机械设备有限公司 | 辐射仪|辐射检测仪|辐射巡测仪|个人剂量报警仪|表面污染检测仪|辐射报警仪|辐射防护网 | 酒吧霸屏软件_酒吧霸屏系统,酒吧微上墙,夜场霸屏软件,酒吧点歌软件,酒吧互动游戏,酒吧大屏幕软件系统下载 | 炭黑吸油计_测试仪,单颗粒子硬度仪_ASTM标准炭黑自销-上海贺纳斯仪器仪表有限公司(HITEC中国办事处) | 氧化锆陶瓷_氧化锆陶瓷加工_氧化锆陶瓷生产厂家-康柏工业陶瓷有限公司 | 铝机箱_铝外壳加工_铝外壳厂家_CNC散热器加工-惠州市铂源五金制品有限公司 | 泰国专线_泰国物流专线_广州到泰国物流公司-泰廊曼国际 | China plate rolling machine manufacturer,cone rolling machine-Saint Fighter | 耐高温风管_耐高温软管_食品级软管_吸尘管_钢丝软管_卫生级软管_塑料波纹管-东莞市鑫翔宇软管有限公司 | 中药超微粉碎机(中药细胞级微粉碎)-百科 | 番茄畅听邀请码怎么输入 - Dianw8.com | 蒸汽吸附分析仪-进口水分活度仪|康宝百科| 丹佛斯压力传感器,WISE温度传感器,WISE压力开关,丹佛斯温度开关-上海力笙工业设备有限公司 | 废水处理-废气处理-工业废水处理-工业废气处理工程-深圳丰绿环保废气处理公司 | 临海涌泉蜜桔官网|涌泉蜜桔微商批发代理|涌泉蜜桔供应链|涌泉蜜桔一件代发 | 湖南教师资格网-湖南教师资格证考试网|