TMT观察网_独特视角观察TMT行业

Llama 4大模型跌落神壇:作弊刷榜、代碼能力極差、和DeepSeek比就是偽開源快訊

TechWeb.com.cn 2025-04-08 15:33
分享到:
導讀

大模型開源屆的旗幟Meta發布了最新的大模型Llama 4,開源社區的用戶還發現Meta提供的Llama 4榜單版本與開源版本不同,進一步加劇了大模型開源社區用戶對Llama 4能力的質疑。

【TechWeb】4月8日消息,被寄予厚望的美國Meta公司的最新開源大模型Llama 4發布不到2天時間,口碑急轉直下,被質疑為刷榜作弊實際效果差、開源條件多部署門檻高是偽開源等。

今天,大模型評測平臺LM Arena親自下場發文,打臉Meta提供給平臺的Llama 4是“特供版”。

據知情人士爆料稱,Meta因面臨DeepSeek、Gemini等競品的快速迭代壓力,選擇“倉促發布未完成優化的模型”,犧牲技術嚴謹性以追趕進度。

Llama 4亮相,LMSYS榜單排名第二

在周日,大模型開源屆的旗幟Meta發布了最新的大模型Llama 4,包含Scout、Maverick和Behemoth三個版本。

Llama 4以全系列首次采用混合專家(MoE)架構、高效推理和長上下文處理為亮點。

根據Meta公開的信息和數據,在基準測試中,Llama 4三大版本均有優異表現:

Llama-4-Maverick在LMSYS排行榜(也被稱為Chatbot Arena或LM Arena)中排名第二,僅次于Gemini 2.5 Pro。

在圖像推理任務(MMMU、MathVista)中得分超越GPT-4o和Gemini 2.0,但編程和科學推理能力落后于DeepSeek V3和Claude 3.7。

Llama-4-Scout通用任務得分較低(如Intelligence Index僅36),與GPT-4o mini相當,但在長文本處理和小規模部署中具備實用性,支持1000萬token上下文窗口(相當于15000頁文本),適用于長文檔分析、代碼庫推理等場景,為行業領先水平。

Llama-4-Behemoth目前仍在訓練中,但已公布的STEM測試成績(如MATH-500 95.0)超越GPT-4.5和Gemini 2.0 Pro。

另外,Maverick的推理成本為每百萬token輸入0.19-0.49美元,遠低于GPT-4o(約4.38美元),且支持多模態輸入,性價比突出。

看到Llama 4性能強大,業內一時之間熱情澎湃,盛贊大模型開源屆再迎來強力軍。

但是,試用后,開發者們發現事情沒那么簡單。

實測水準拉垮

Meta CEO 扎克伯格在Llama 4發布時曾宣稱其“AI編程水平將達中級工程師”,但用戶在對Llama 4進行實測時卻發現巨大反差。

在多項基準測試中,Llama 4的表現遠低于預期。Maverick在aider polyglot多語言編碼測試中僅得16%,遠低于Qwen-32B等競品,甚至被用戶稱為“糟糕透頂的編程模型”。

Maverick在基礎編程任務(HumanEval)得分僅接近GPT-4o mini,遠低于DeepSeek V3。

盡管Llama-4-Scout支持1000萬token上下文窗口,但實際測試顯示其召回率在16K token時僅22%。有用戶將《哈利?波特》全書輸入后Scout回答問題的正確率,遠低于Gemini 2.5 Pro等對手。

此外,還有用戶測試發現,Llama 4生成的物理動畫違背基本規律,如小球彈跳軌跡錯誤,并且需多次嘗試才能完成復雜邏輯鏈任務,而DeepSeek和Gemini等都可一次成功。

獨立評測機構Artificial Analysis指出,Llama 4在綜合推理、科學任務和編碼中與頂級模型存在系統性差距。Maverick的Intelligence Index得分僅49,遠低于Gemini 2.5 Pro(68)和DeepSeek R1(66)。

Llama 4的實際表現如此一般,引發用戶對其夸大宣傳的強烈質疑。

被曝作弊刷榜

與此同時,Meta前員工在論壇“一畝三分地”匿名發帖等多個消息源指出,Llama 4在訓練后期階段將基準測試的測試集數據混入訓練數據,以此提升模型在評測榜單上的表現。

這種做法使模型在特定測試中過擬合,短期可以提升排名,但實際應用表現遠低于預期,因此也被業內認為是作弊來刷榜單排名。

不過,很快,Meta研究科學家主管Licheng Yu實名辟謠,團隊根本沒有針對測試集過擬合訓練。Meta首席AI科學家的Yann LeCun也發帖力挺。

但是,開源社區的用戶還發現Meta提供的Llama 4榜單版本與開源版本不同。

也就是,Meta提交給評測平臺LM Arena的Llama-4-Maverick是一個實驗性聊天優化版本,其行為與公開發布的基礎版存在顯著差異,如回答風格更冗長、使用表情符號等。

這被質疑為“針對榜單優化的特供版”,誤導開發者對模型真實能力的判斷。

進一步加劇了大模型開源社區用戶對Llama 4能力的質疑。

在經過2天發酵后,今天,Chatbot Arena官方發文確認了用戶的上述質疑,公開表示Meta提供給他們的是“特供版”,并考慮更新排行榜。

Chatbot Arena官方發文:

“我們已經看到社區對Llama-4在Arena上的最新發布提出了問題。為了確保完全透明,我們正在發布2000多個一對一模型對戰結果供公眾審查。這包括用戶提示、模型響應和用戶偏好。

初步分析顯示,模型回復風格和語氣是重要影響因素,我們正在進行更深入的分析以了解更多!

此外,我們還將 Llama-4-Maverick的 HF(HuggingFace) 版本添加到 Arena中,排行榜結果將很快公布。

Meta 對我們政策的解釋與我們對模型提供者的期望不符。Meta應該更清楚地說明“Llama-4-Maverick-03-26-Experimental”是一個經過人類偏好優化的定制模型。

因此我們正在更新我們的排行榜政策,以加強我們對公平、可重復評估的承諾,從而避免未來出現這種混淆。”

“偽開源”,比DeepSeek差遠了

一直以來,Meta都以大模型開源路線領路人自居,有了DeepSeek珠玉在前,這次Llama 4的開源方式,反而動搖了Meta作為開源標桿的地位。

Llama 4執行的非標準開源許可,而是采用Meta自定義的許可條款,對商業使用和分發設置了多重限制。例如,月活躍用戶超過7億的公司需向Meta單獨申請授權,且Meta可自行決定是否批準。競爭對手員工被禁止接觸模型,要求所有衍生模型名稱必須以“Llama”開頭,并在界面、文檔中突出顯示“Made with Llama”水印等。

而DeepSeek R1遵循標準的開源協議MIT許可協議,允許自由使用、修改、分發及商業化,僅需保留原始版權聲明和許可聲明。無商業限制,企業對模型的使用無需額外授權,且可基于MIT許可開發閉源商業產品。

開放源代碼促進會(OSI)定義的“開源”需允許自由修改和分發,而Meta的條款明顯違背這一原則。僅從開源許可方面來看,和DeepSeek R1相比,Llama 4的開放性差遠了。

Llama 4開源僅提供模型參數,缺乏對訓練流程、數據清洗策略的披露,未公開完整的訓練數據集和超參數優化細節,如MetaP方法的核心邏輯,開發者無法復現或改進模型。此舉被社區用戶質疑為“黑箱式共享”。

另外,Llama 4還設置了諸多限制,比如,繁瑣的申請流程,用戶需登錄Hugging Face賬號并填寫包含個人身份、公司信息、稅務標識等詳細資料的申請表,稍有錯漏可能被永久拉黑且無申訴渠道。

相比之下,國內開源模型如DeepSeek、通義千問等都無需復雜流程即可直接使用。

此外,Llama-4-Scout和Maverick雖宣稱支持單卡運行,但需要NVIDIA H100等高端GPU(單卡成本超3萬美元),普通開發者難以負擔。用戶認為,真正的開源應兼顧不同硬件環境。

總之,Meta針對Llama 4開源的一系列騷操作,被開發者批評“背離開源精神”,是“既要開源流量,又防社區威脅”的雙標策略,進一步加劇Llama 4的信任危機。

Meta的Llama 4本被寄予厚望,卻在短短兩天內因作弊刷榜、代碼能力拉垮、偽開源爭議跌落神壇。Meta若繼續在商業控制與技術開放之間搖擺,恐將在AI競賽中進一步失去開發者支持。

Llama Meta 模型 開源 用戶
分享到:

1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。


主站蜘蛛池模板: 天津热油泵_管道泵_天津高温热油泵-天津市金丰泰机械泵业有限公司【官方网站】 | hdpe土工膜-防渗膜-复合土工膜-长丝土工布价格-厂家直销「恒阳新材料」-山东恒阳新材料有限公司 ETFE膜结构_PTFE膜结构_空间钢结构_膜结构_张拉膜_浙江萬豪空间结构集团有限公司 | 复合肥,化肥厂,复合肥批发,化肥代理,复合肥品牌-红四方 | 温室大棚建设|水肥一体化|物联网系统 | 面粉仓_储酒罐_不锈钢储酒罐厂家-泰安鑫佳机械制造有限公司 | 物流之家新闻网-最新物流新闻|物流资讯|物流政策|物流网-匡匡奈斯物流科技 | 垃圾处理设备_餐厨垃圾处理设备_厨余垃圾处理设备_果蔬垃圾处理设备-深圳市三盛环保科技有限公司 | 臭氧实验装置_实验室臭氧发生器-北京同林臭氧装置网 | 馋嘴餐饮网_餐饮加盟店火爆好项目_餐饮连锁品牌加盟指南创业平台 | 塑料造粒机「厂家直销」-莱州鑫瑞迪机械有限公司 | 铁盒_铁罐_马口铁盒_马口铁罐_铁盒生产厂家-广州博新制罐 | 垃圾处理设备_餐厨垃圾处理设备_厨余垃圾处理设备_果蔬垃圾处理设备-深圳市三盛环保科技有限公司 | PCB厂|线路板厂|深圳线路板厂|软硬结合板厂|电路板生产厂家|线路板|深圳电路板厂家|铝基板厂家|深联电路-专业生产PCB研发制造 | 色油机-色母机-失重|称重式混料机-称重机-米重机-拌料机-[东莞同锐机械]精密计量科技制造商 | 成都亚克力制品,PVC板,双色板雕刻加工,亚克力门牌,亚克力标牌,水晶字雕刻制作-零贰捌广告 | FFU_空气初效|中效|高效过滤器_空调过滤网-广州梓净净化设备有限公司 | 吲哚菁绿衍生物-酶底物法大肠菌群检测试剂-北京和信同通科技发展有限公司 | 河南不锈钢水箱_地埋水箱_镀锌板水箱_消防水箱厂家-河南联固供水设备有限公司 | 海水晶,海水素,海水晶价格-潍坊滨海经济开发区强隆海水晶厂 | 马尔表面粗糙度仪-MAHR-T500Hommel-Mitutoyo粗糙度仪-笃挚仪器 | 不干胶标签,不干胶标签纸_厂家-山东同力胶粘制品 | 机房监控|动环监控|动力环境监控系统方案产品定制厂家 - 迈世OMARA | 盐水蒸发器,水洗盐设备,冷凝结晶切片机,转鼓切片机,絮凝剂加药系统-无锡瑞司恩机械有限公司 | 户外-组合-幼儿园-不锈钢-儿童-滑滑梯-床-玩具-淘气堡-厂家-价格 | 丁基胶边来料加工,医用活塞边角料加工,异戊二烯橡胶边来料加工-河北盛唐橡胶制品有限公司 | 辐射仪|辐射检测仪|辐射巡测仪|个人剂量报警仪|表面污染检测仪|辐射报警仪|辐射防护网 | 深圳公司注册-工商注册代理-注册公司流程和费用_护航财税 | 武汉不干胶印刷_标签设计印刷_不干胶标签印刷厂 - 武汉不干胶标签印刷厂家 | 超高频感应加热设备_高频感应电源厂家_CCD视觉检测设备_振动盘视觉检测设备_深圳雨滴科技-深圳市雨滴科技有限公司 | 软瓷_柔性面砖_软瓷砖_柔性石材_MCM软瓷厂家_湖北博悦佳软瓷 | 面粉仓_储酒罐_不锈钢储酒罐厂家-泰安鑫佳机械制造有限公司 | 电杆荷载挠度测试仪-电杆荷载位移-管桩测试仪-北京绿野创能机电设备有限公司 | 北京网站建设公司_北京网站制作公司_北京网站设计公司-北京爱品特网站建站公司 | 能量回馈_制动单元_电梯节能_能耗制动_深圳市合兴加能科技有限公司 | 复合肥,化肥厂,复合肥批发,化肥代理,复合肥品牌-红四方 | 常州减速机_减速机厂家_常州市减速机厂有限公司 | 苏州工作服定做-工作服定制-工作服厂家网站-尺品服饰科技(苏州)有限公司 | 最新电影-好看的电视剧大全-朝夕电影网| 三氯异氰尿酸-二氯-三氯-二氯异氰尿酸钠-优氯净-强氯精-消毒片-济南中北_优氯净厂家 | 南京和瑞包装有限公司| 「安徽双凯」自动售货机-无人售货机-成人用品-自动饮料食品零食售货机 |