国产精品久久久久久久久久免费看,日本高清视频一区,国产精品美女久久久久av超清

李開復(fù)：分享對DeepSeek的四個觀察快訊

TechWeb.com.cn 2025-03-31 13:22

分享到：

導(dǎo)讀

最后還有很多企業(yè)需要基于 DeepSeek 模型進(jìn)行模型微調(diào)，DeepSeek破解并開源推理模型的思考訓(xùn)練過程，DeepSeek破解并開源推理模型的思考訓(xùn)練過程。

【TechWeb】3月31日消息，在2025中關(guān)村論壇年會人工智能主題日上，零一萬物 CEO、創(chuàng)新工場董事長李開復(fù)發(fā)表演講，其中提到對DeepSeek的四點(diǎn)觀察：

第一個觀察是，DeepSeek破解并開源推理模型的思考訓(xùn)練過程，進(jìn)一步縮小與美國的差距。

第二個觀察是，DeepSeek 極其高效的工程效率，這走出了一條與OpenAI天量級融資的底層邏輯迥然不同的中國道路。

第三個觀察，也是最重要的一點(diǎn)，DeepSeek 證明了開源模型能力追趕上閉源模型，進(jìn)一步推進(jìn)SOTA模型的商品化。

第四個觀察，中國迎來了屬于自己的“DeepSeek Moment”，將大幅加速大模型在中國的全面落地。

以下為李開復(fù)演講全文記錄：

非常高興又有機(jī)會來中關(guān)村論壇分享我對過去這幾個月 AI 領(lǐng)域所發(fā)生的一些重大事件的觀察，以及我眼中的 AI 行業(yè)藍(lán)圖。

AI 2.0 是有史以來最偉大的科技革命與平臺革命，大模型走出實(shí)驗(yàn)室，穿透各行各業(yè)成為驅(qū)動實(shí)體經(jīng)濟(jì)的新質(zhì)生產(chǎn)力。在過去兩年間，從 ChatGPT 推出之后，大模型智力在不斷地提升，而且目前看起來遠(yuǎn)沒有觸及天花板。與此同時，大模型的推理成本在以每年降低十倍的速度快速下降，這為AI-First應(yīng)用爆發(fā)提供了非常重要的條件。兩年前模型性能不夠好的模型，現(xiàn)在已經(jīng)夠好了；兩年前推理成本太貴的模型，現(xiàn)在已經(jīng)是“白菜價”了。所以在我看來， AI-First 應(yīng)用很快將井噴，2025 年將會是 AI-First 應(yīng)用爆發(fā)、大模型“落地為王”的元年。

幾個月前，前 OpenAI 聯(lián)合創(chuàng)始人 Ilya 公開表示，預(yù)訓(xùn)練階段的 Scaling Law 已經(jīng)放緩。因?yàn)槟Ｐ陀?xùn)練所用的數(shù)據(jù)量已經(jīng)觸及瓶頸，算力方面也存在著客觀制約因素——超大 GPU 集群效益降低，隨著 GPU 數(shù)量增加容錯問題等導(dǎo)致邊際效益降低。即便訓(xùn)練出超大參數(shù)量的大模型，比如 OpenAI 所發(fā)布的 GPT-4.5，模型性能確實(shí)有提升，但是 GPT-4.5 的價格是 DeepSeek-V3 的 500 倍。在絕大多數(shù)生產(chǎn)力場景里，超大參數(shù)量的模型價格昂貴速度緩慢，性價比并不突出。

好在行業(yè)內(nèi)已經(jīng)出現(xiàn)了新的曙光，Scaling Law 正從預(yù)訓(xùn)練階段轉(zhuǎn)向推理階段，也就是慢思考模式。過往預(yù)訓(xùn)練階段的 Scaling Law 是指：有更多的 GPU、更多的數(shù)據(jù)，模型就可以變得更聰明，但目前看其增長趨勢放緩了。新的慢思考 Scaling Law 是指：模型思考的時間更長，就會得出有更優(yōu)質(zhì)的結(jié)果。目前看來，慢思考 Scaling Law 下，模型性能的成長速度非常快，而且還有很大的增長空間。
結(jié)合這些新的技術(shù)創(chuàng)新，現(xiàn)在模型訓(xùn)練的過程變得非常有意思。先訓(xùn)練一個“文科生”，讓模型閱讀所有的書籍，然后再向理科方向訓(xùn)練，讓模型能夠證明數(shù)學(xué)題、會寫代碼，最終得到的“文理雙全”的模型會非常厲害。

另外一個值得關(guān)注的點(diǎn)在于，模型性能的提升其實(shí)在加速，而不是在放緩。從 GPT-2 到 GPT-3、從 GPT-3 到 GPT-4.5，每一次升級都花了大約兩年的時間，為什么呢？本質(zhì)上還是人在訓(xùn)練模型，是人來規(guī)劃新的算法、新的模型架構(gòu)、再搭配更多 GPU、再投入更多數(shù)據(jù)，最終推動模型性能的提升。
但今天，我們進(jìn)入了一個非常有意思的“AI 教 AI”的時代。從 OpenAI 發(fā)布 o1 到發(fā)布 o3，中間只隔了三個月。 DeepSeek-R1 也是在 OpenAI o1 發(fā)布的兩個月之后就正式發(fā)布，并且可能很快就會發(fā)布 R2。無論是從 o1 到 o3，還是從 R1 到 R2，模型迭代的速度縮短到了三個月。一個重要的原因就是現(xiàn)在很大程度上已經(jīng)不再單單依靠人來發(fā)明新算法、發(fā)明模型架構(gòu)，而是 AI 借由慢思考具備了反思的能力，能夠自我迭代、自我進(jìn)步，也就是“AI 教 AI”，AI進(jìn)入到自我演進(jìn)范式。

經(jīng)過慢思考，AI 正變得越來越聰明。模型性能更好的模型可以去教那些基礎(chǔ)較弱的模型，超大參數(shù)模型可以去訓(xùn)練參數(shù)量較小的模型。這樣的搭配類似“老師”和“學(xué)生”，經(jīng)過蒸餾、數(shù)據(jù)標(biāo)注和合成數(shù)據(jù)，未來模型性能的提升會進(jìn)一步加速。超大預(yù)訓(xùn)練模型的價值將進(jìn)一步體現(xiàn)在“教師模型”的角色中，其本質(zhì)也將更趨進(jìn)于大模型時代的基礎(chǔ)設(shè)施。

最近，社會各界都在討論 DeepSeek，我也來分享一下我對 DeepSeek 的四個觀察。

第一個觀察是，DeepSeek破解并開源推理模型的思考訓(xùn)練過程，進(jìn)一步縮小與美國的差距。

DeepSeek 很快讓模型具備了 Reasoning （推理）慢思考的能力。DeepSeek-R1 真正切實(shí)掌握了這一技術(shù)，并且還公開了 DeepSeek-R1 的思維鏈。這是非常令人震驚的，因?yàn)?OpenAI o1 一直隱藏著思維鏈，就是防止友商復(fù)現(xiàn)，結(jié)果 DeepSeek 還是從零起步做到了這一點(diǎn)。

第二個觀察是，DeepSeek 極其高效的工程效率，這走出了一條與OpenAI天量級融資的底層邏輯迥然不同的中國道路。在同樣標(biāo)準(zhǔn)下進(jìn)行比較，DeepSeek-R1 要比美國的類似模型更快，也更便宜了 5 到 10 倍，這背后是工程能力的巨大進(jìn)步。

第三個觀察，也是我認(rèn)為最重要的一點(diǎn)，DeepSeek 證明了開源模型能力追趕上閉源模型，進(jìn)一步推進(jìn)SOTA模型的商品化。DeepSeek 證明了閉源的路徑是不可取的，開源才能有更好的發(fā)展。如果 DeepSeek 沒有開源，我大膽揣測，它的影響力會遠(yuǎn)遠(yuǎn)不如今天。在美國的開源社區(qū)和社交媒體，大部分人都在熱情擁抱 DeepSeek，過往很少有中國軟件在海外收獲如此廣泛的歡迎。這很大程度上就來自于，與閉源的 OpenAI 相比，DeepSeek 更為開放。

第四個觀察，中國迎來了屬于自己的“DeepSeek Moment”，將大幅加速大模型在中國的全面落地。大概 9 個月前，我曾經(jīng)沮喪地說，中國還沒有“ChatGPT moment”，雖然過去也有表現(xiàn)不錯的模型出現(xiàn)，但是卻始終缺少一個一枝獨(dú)秀的模型，能夠支撐 ToB、ToC 應(yīng)用百花齊放，能夠讓每個企業(yè) CEO 都在追問 IT 部門“什么時候能在企業(yè)里接入大模型？”現(xiàn)在企業(yè)和用戶已經(jīng)經(jīng)過“DeepSeek Moment”的市場教育，中國市場真正覺醒了，這也為中國AI-First 應(yīng)用的爆發(fā)掃清了一大障礙。

因?yàn)檫^去做大模型應(yīng)用最大的瓶頸之一，就是需要教育市場。如果一個初創(chuàng)公司需要教育市場，那它幾乎沒有成功的可能，因?yàn)榻逃袌鲂枰臅r間太長，前景未卜。今天 DeepSeek 完成了對中國 ToB、ToC市場的市場教育， AI-First 應(yīng)用爆發(fā)又多了一個強(qiáng)有力的支撐。

DeepSeek 的基座模型很優(yōu)秀，但是如果要落地企業(yè)生產(chǎn)力場景，還有一些卡點(diǎn)需要克服。很多企業(yè) CEO 希望能夠本地部署、安全部署，因?yàn)椴糠?CEO 處于數(shù)據(jù)安全的考慮不希望公司數(shù)據(jù)上網(wǎng)，所以不能直接用 API。在應(yīng)用實(shí)踐方面，很多公司需要有更好的聯(lián)網(wǎng)搜索、Deep Research（深度研究）等功能，也需要用 RAG技術(shù)（檢索增強(qiáng)生成，Retrieval-augmented Generation）鏈接企業(yè)數(shù)據(jù)庫，如ERP、CRM等系統(tǒng)。此外還有企業(yè)希望能夠在基座模型基礎(chǔ)上開發(fā)應(yīng)用、打造企業(yè)專屬智能體。最后還有很多企業(yè)需要基于 DeepSeek 模型進(jìn)行模型微調(diào)，甚至需要繼續(xù)預(yù)訓(xùn)練，從而讓DeepSeek 等基座模型持續(xù)進(jìn)化，最終成為能在企業(yè)專屬的“行業(yè)大腦”。

基于上述考量，零一萬物在過去幾個月也做出了戰(zhàn)略調(diào)整，我們已經(jīng)全面擁抱 DeepSeek，并且把大部分力量用于把 DeepSeek 優(yōu)質(zhì)基座模型轉(zhuǎn)變?yōu)槠髽I(yè)級企業(yè)級 DeepSeek 部署定制解決方案——可以類比為零一萬物在打造AI 2.0時代的Windows系統(tǒng)，而DeepSeek就是驅(qū)動Windows的內(nèi)核。區(qū)別于普通軟件公司或系統(tǒng)集成商提供的淺層方案，零一萬物2年來在安全部署、應(yīng)用實(shí)踐、行業(yè)定制已經(jīng)具備成熟且全鏈條的技術(shù)棧能力——只有真正做過頂尖大模型訓(xùn)練、模型微調(diào)到應(yīng)用的大模型公司才能夠提供專業(yè)成熟的、一站式的深度服務(wù)。

最后我想說的這點(diǎn)大家此前或許沒有過多關(guān)注。隨著全世界開始擁抱 ChatGPT、DeepSeek，一個很大的問題開始浮現(xiàn)。對于小語種而言，很多基座模型的表現(xiàn)并不好。以俄語為例，在 Llama 的訓(xùn)練語料中俄語占比僅 0.13%，因此 Llama 在俄語上的表現(xiàn)并不好，在東南亞、中東、中亞、非洲等國家和地區(qū)的小語種表現(xiàn)上更是表現(xiàn)不佳。我一個朋友是斯坦福語言學(xué)教授，他認(rèn)為目前大模型基本忽視了 7000 多個小語種，可能會加速這些語言的滅絕。康奈爾大學(xué)的研究也顯示，每個國家和地區(qū)之間的價值觀是存在不小的偏差。所以讓每個國家和地區(qū)都有機(jī)會訓(xùn)練自己語言的模型、訓(xùn)練出符合自身價值觀的模型，不僅必要而且是這些國家和地區(qū)的剛需。

我們很幸運(yùn)的是，中國很多大模型公司在訓(xùn)練中文大模型，但是很多小語種的國家并沒有。這也是零一萬物推出小語種模型的初衷，零一萬基于每個國家可優(yōu)化出不同的模型對齊策略，我們也積極響應(yīng)“一帶一路”倡議實(shí)現(xiàn)共贏發(fā)展，期待與“一帶一路”國家攜手合作，讓更多國家能夠擁有自主可控的大模型。

今年開源模型的勝利是一件大事，“DeepSeek Moment”的出現(xiàn)也是一件大事。今年可以預(yù)見的是， AI-First 應(yīng)用將會迎來爆發(fā)。AI需要市場，市場也需要AI。各家模型公司也必須要回歸商業(yè)本質(zhì)，想清楚公司如何利用技術(shù)真正為客戶創(chuàng)造價值。零一萬物認(rèn)為，今年的一個焦點(diǎn)問題應(yīng)該是：Make AI Work，讓大模型真正賦能千行百業(yè)，謝謝大家。

模型 DeepSeek 訓(xùn)練 AI 應(yīng)用

分享到：

1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范，任何轉(zhuǎn)載的稿件都會明確標(biāo)注作者和來源；
2.TMT觀察網(wǎng)的原創(chuàng)文章，請轉(zhuǎn)載時務(wù)必注明文章作者和"來源：TMT觀察網(wǎng)"，不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任；
3.作者投稿可能會經(jīng)TMT觀察網(wǎng)編輯修改或補(bǔ)充。

TMT观察网_独特视角观察TMT行业

李開復(fù)：分享對DeepSeek的四個觀察快訊