韩国毛片,欧美成人免费,日韩欧美国产一区二区

Llama 4大模型跌落神壇：作弊刷榜、代碼能力極差、和DeepSeek比就是偽開源快訊

TechWeb.com.cn 2025-04-08 15:33

分享到：

導讀

大模型開源屆的旗幟Meta發布了最新的大模型Llama 4，開源社區的用戶還發現Meta提供的Llama 4榜單版本與開源版本不同，進一步加劇了大模型開源社區用戶對Llama 4能力的質疑。

【TechWeb】4月8日消息，被寄予厚望的美國Meta公司的最新開源大模型Llama 4發布不到2天時間，口碑急轉直下，被質疑為刷榜作弊實際效果差、開源條件多部署門檻高是偽開源等。

今天，大模型評測平臺LM Arena親自下場發文，打臉Meta提供給平臺的Llama 4是“特供版”。

據知情人士爆料稱，Meta因面臨DeepSeek、Gemini等競品的快速迭代壓力，選擇“倉促發布未完成優化的模型”，犧牲技術嚴謹性以追趕進度。

Llama 4亮相，LMSYS榜單排名第二

在周日，大模型開源屆的旗幟Meta發布了最新的大模型Llama 4，包含Scout、Maverick和Behemoth三個版本。

Llama 4以全系列首次采用混合專家（MoE）架構、高效推理和長上下文處理為亮點。

根據Meta公開的信息和數據，在基準測試中，Llama 4三大版本均有優異表現：

Llama-4-Maverick在LMSYS排行榜（也被稱為Chatbot Arena或LM Arena）中排名第二，僅次于Gemini 2.5 Pro。

在圖像推理任務（MMMU、MathVista）中得分超越GPT-4o和Gemini 2.0，但編程和科學推理能力落后于DeepSeek V3和Claude 3.7。

Llama-4-Scout通用任務得分較低（如Intelligence Index僅36），與GPT-4o mini相當，但在長文本處理和小規模部署中具備實用性，支持1000萬token上下文窗口（相當于15000頁文本），適用于長文檔分析、代碼庫推理等場景，為行業領先水平。

Llama-4-Behemoth目前仍在訓練中，但已公布的STEM測試成績（如MATH-500 95.0）超越GPT-4.5和Gemini 2.0 Pro。

另外，Maverick的推理成本為每百萬token輸入0.19-0.49美元，遠低于GPT-4o（約4.38美元），且支持多模態輸入，性價比突出。

看到Llama 4性能強大，業內一時之間熱情澎湃，盛贊大模型開源屆再迎來強力軍。

但是，試用后，開發者們發現事情沒那么簡單。

實測水準拉垮

Meta CEO 扎克伯格在Llama 4發布時曾宣稱其“AI編程水平將達中級工程師”，但用戶在對Llama 4進行實測時卻發現巨大反差。

在多項基準測試中，Llama 4的表現遠低于預期。Maverick在aider polyglot多語言編碼測試中僅得16%，遠低于Qwen-32B等競品，甚至被用戶稱為“糟糕透頂的編程模型”。

Maverick在基礎編程任務（HumanEval）得分僅接近GPT-4o mini，遠低于DeepSeek V3。

盡管Llama-4-Scout支持1000萬token上下文窗口，但實際測試顯示其召回率在16K token時僅22%。有用戶將《哈利?波特》全書輸入后Scout回答問題的正確率，遠低于Gemini 2.5 Pro等對手。

此外，還有用戶測試發現，Llama 4生成的物理動畫違背基本規律，如小球彈跳軌跡錯誤，并且需多次嘗試才能完成復雜邏輯鏈任務，而DeepSeek和Gemini等都可一次成功。

獨立評測機構Artificial Analysis指出，Llama 4在綜合推理、科學任務和編碼中與頂級模型存在系統性差距。Maverick的Intelligence Index得分僅49，遠低于Gemini 2.5 Pro（68）和DeepSeek R1（66）。

Llama 4的實際表現如此一般，引發用戶對其夸大宣傳的強烈質疑。

被曝作弊刷榜

與此同時，Meta前員工在論壇“一畝三分地”匿名發帖等多個消息源指出，Llama 4在訓練后期階段將基準測試的測試集數據混入訓練數據，以此提升模型在評測榜單上的表現。

這種做法使模型在特定測試中過擬合，短期可以提升排名，但實際應用表現遠低于預期，因此也被業內認為是作弊來刷榜單排名。

不過，很快，Meta研究科學家主管Licheng Yu實名辟謠，團隊根本沒有針對測試集過擬合訓練。Meta首席AI科學家的Yann LeCun也發帖力挺。

但是，開源社區的用戶還發現Meta提供的Llama 4榜單版本與開源版本不同。

也就是，Meta提交給評測平臺LM Arena的Llama-4-Maverick是一個實驗性聊天優化版本，其行為與公開發布的基礎版存在顯著差異，如回答風格更冗長、使用表情符號等。

這被質疑為“針對榜單優化的特供版”，誤導開發者對模型真實能力的判斷。

進一步加劇了大模型開源社區用戶對Llama 4能力的質疑。

在經過2天發酵后，今天，Chatbot Arena官方發文確認了用戶的上述質疑，公開表示Meta提供給他們的是“特供版”，并考慮更新排行榜。

Chatbot Arena官方發文：

“我們已經看到社區對Llama-4在Arena上的最新發布提出了問題。為了確保完全透明，我們正在發布2000多個一對一模型對戰結果供公眾審查。這包括用戶提示、模型響應和用戶偏好。

初步分析顯示，模型回復風格和語氣是重要影響因素，我們正在進行更深入的分析以了解更多!

此外，我們還將 Llama-4-Maverick的 HF（HuggingFace）版本添加到 Arena中，排行榜結果將很快公布。

Meta 對我們政策的解釋與我們對模型提供者的期望不符。Meta應該更清楚地說明“Llama-4-Maverick-03-26-Experimental”是一個經過人類偏好優化的定制模型。

因此我們正在更新我們的排行榜政策，以加強我們對公平、可重復評估的承諾，從而避免未來出現這種混淆。”

“偽開源”，比DeepSeek差遠了

一直以來，Meta都以大模型開源路線領路人自居，有了DeepSeek珠玉在前，這次Llama 4的開源方式，反而動搖了Meta作為開源標桿的地位。

Llama 4執行的非標準開源許可，而是采用Meta自定義的許可條款，對商業使用和分發設置了多重限制。例如，月活躍用戶超過7億的公司需向Meta單獨申請授權，且Meta可自行決定是否批準。競爭對手員工被禁止接觸模型，要求所有衍生模型名稱必須以“Llama”開頭，并在界面、文檔中突出顯示“Made with Llama”水印等。

開放源代碼促進會（OSI）定義的“開源”需允許自由修改和分發，而Meta的條款明顯違背這一原則。僅從開源許可方面來看，和DeepSeek R1相比，Llama 4的開放性差遠了。

Llama 4開源僅提供模型參數，缺乏對訓練流程、數據清洗策略的披露，未公開完整的訓練數據集和超參數優化細節，如MetaP方法的核心邏輯，開發者無法復現或改進模型。此舉被社區用戶質疑為“黑箱式共享”。

另外，Llama 4還設置了諸多限制，比如，繁瑣的申請流程，用戶需登錄Hugging Face賬號并填寫包含個人身份、公司信息、稅務標識等詳細資料的申請表，稍有錯漏可能被永久拉黑且無申訴渠道。

相比之下，國內開源模型如DeepSeek、通義千問等都無需復雜流程即可直接使用。

此外，Llama-4-Scout和Maverick雖宣稱支持單卡運行，但需要NVIDIA H100等高端GPU（單卡成本超3萬美元），普通開發者難以負擔。用戶認為，真正的開源應兼顧不同硬件環境。

總之，Meta針對Llama 4開源的一系列騷操作，被開發者批評“背離開源精神”，是“既要開源流量，又防社區威脅”的雙標策略，進一步加劇Llama 4的信任危機。

Meta的Llama 4本被寄予厚望，卻在短短兩天內因作弊刷榜、代碼能力拉垮、偽開源爭議跌落神壇。Meta若繼續在商業控制與技術開放之間搖擺，恐將在AI競賽中進一步失去開發者支持。

Llama Meta 模型開源用戶

分享到：

1.TMT觀察網遵循行業規范，任何轉載的稿件都會明確標注作者和來源；
2.TMT觀察網的原創文章，請轉載時務必注明文章作者和"來源：TMT觀察網"，不尊重原創的行為TMT觀察網或將追究責任；
3.作者投稿可能會經TMT觀察網編輯修改或補充。

TMT观察网_独特视角观察TMT行业

Llama 4大模型跌落神壇：作弊刷榜、代碼能力極差、和DeepSeek比就是偽開源快訊