TMT观察网_独特视角观察TMT行业

AI“推理”模型基準(zhǔn)測(cè)試成本飆升 為什么?快訊

IT之家 2025-04-13 14:32
分享到:
導(dǎo)讀

為什么推理模型的測(cè)試成本如此之高呢,推理模型的成本為 1485.35 美元(現(xiàn)匯率約合 10839 元人民幣),已經(jīng)花費(fèi)了約 5200 美元(現(xiàn)匯率約合 37945 元人民幣)來(lái)評(píng)估大約十幾種推理模型。

IT之家 4 月 13 日消息,隨著人工智能(AI)技術(shù)的不斷發(fā)展,所謂的“推理”AI 模型成為了研究熱點(diǎn)。這些模型能夠像人類一樣逐步思考問(wèn)題,在特定領(lǐng)域,如物理學(xué)中,被認(rèn)為比非推理模型能力更強(qiáng)。然而,這種優(yōu)勢(shì)卻伴隨著高昂的測(cè)試成本,使得獨(dú)立驗(yàn)證這些模型的能力變得困難重重。

據(jù)第三方 AI 測(cè)試機(jī)構(gòu)“人工智能分析”(Artificial Analysis)提供的數(shù)據(jù)顯示,評(píng)估 OpenAI 的 o1 推理模型在七個(gè)流行的 AI 基準(zhǔn)測(cè)試(包括 MMLU-Pro、GPQA Diamond、Humanity's Last Exam、LiveCodeBench、SciCode、AIME 2024 和 MATH-500)中的表現(xiàn),需要花費(fèi) 2767.05 美元(IT之家注:現(xiàn)匯率約合 20191 元人民幣)。而評(píng)估 Anthropic 的 Claude 3.7 Sonnet 這一“混合”推理模型的成本為 1485.35 美元(現(xiàn)匯率約合 10839 元人民幣),相比之下,測(cè)試 OpenAI 的 o3-mini-high 則只需 344.59 美元(現(xiàn)匯率約合 2514 元人民幣)。盡管有些推理模型的測(cè)試成本相對(duì)較低,例如評(píng)估 OpenAI 的 o1-mini 只需 141.22 美元(現(xiàn)匯率約合 1030 元人民幣),但從整體來(lái)看,推理模型的測(cè)試成本仍然比較高昂。截至目前,“人工智能分析”已經(jīng)花費(fèi)了約 5200 美元(現(xiàn)匯率約合 37945 元人民幣)來(lái)評(píng)估大約十幾種推理模型,這一金額接近該公司分析超過(guò) 80 種非推理模型所花費(fèi)的 2400 美元的兩倍。

OpenAI 在 2024 年 5 月發(fā)布的非推理 GPT-4o 模型,其評(píng)估成本僅為 108.85 美元,而 Claude 3.6 Sonnet(Claude 3.7 Sonnet 的非推理前身)的評(píng)估成本為 81.41 美元。“人工智能分析”聯(lián)合創(chuàng)始人喬治?卡梅倫(George Cameron)向 TechCrunch 表示,隨著越來(lái)越多的 AI 實(shí)驗(yàn)室開(kāi)發(fā)推理模型,該組織計(jì)劃增加其測(cè)試預(yù)算。“在‘人工智能分析’,我們每月進(jìn)行數(shù)百次評(píng)估,并為此投入了相當(dāng)可觀的預(yù)算,”卡梅倫說(shuō),“我們預(yù)計(jì)隨著模型的頻繁發(fā)布,這一支出將會(huì)增加。”

“人工智能分析”并非唯一面臨 AI 測(cè)試成本上升的機(jī)構(gòu)。AI 初創(chuàng)公司“通用推理”(General Reasoning)的首席執(zhí)行官羅斯?泰勒(Ross Taylor)表示,他最近花費(fèi)了 580 美元用大約 3700 個(gè)獨(dú)特的提示詞評(píng)估了 Claude 3.7 Sonnet。泰勒估計(jì),僅對(duì) MMLU Pro(一套旨在評(píng)估模型語(yǔ)言理解能力的問(wèn)題集)進(jìn)行一次完整的測(cè)試,成本就會(huì)超過(guò) 1800 美元。“我們正在邁向一個(gè)世界,在這個(gè)世界里,一個(gè)實(shí)驗(yàn)室在一項(xiàng)基準(zhǔn)測(cè)試中報(bào)告 x% 的結(jié)果,而他們?cè)谄渲谢ㄙM(fèi)了 y 數(shù)量的計(jì)算資源,但學(xué)者們的資源遠(yuǎn)遠(yuǎn)小于 y,”泰勒在 X 上最近的一篇帖子中寫道,“沒(méi)有人能夠復(fù)制這些結(jié)果。”

那么,為什么推理模型的測(cè)試成本如此之高呢?主要原因在于它們生成了大量的 token。token 代表原始文本的片段,例如將單詞“fantastic”拆分為音節(jié)“fan”、“tas”和“tic”。據(jù)“人工智能分析”稱,在該公司的基準(zhǔn)測(cè)試中,OpenAI 的 o1 生成了超過(guò) 4400 萬(wàn)個(gè) token,大約是 GPT-4o 生成量的八倍。大多數(shù) AI 公司都是按 token 收費(fèi)的,因此成本很容易就會(huì)累積起來(lái)。

此外,現(xiàn)代基準(zhǔn)測(cè)試通常會(huì)從模型中引出大量 token,因?yàn)樗鼈儼婕皬?fù)雜、多步驟任務(wù)的問(wèn)題。Epoch AI 的高級(jí)研究員讓-斯坦尼斯拉斯?德內(nèi)恩(Jean-Stanislas Denain)表示,這是因?yàn)榻裉斓幕鶞?zhǔn)測(cè)試更加復(fù)雜,盡管每個(gè)基準(zhǔn)測(cè)試的問(wèn)題數(shù)量總體有所減少。“它們通常試圖評(píng)估模型執(zhí)行現(xiàn)實(shí)世界任務(wù)的能力,例如編寫和執(zhí)行代碼、瀏覽互聯(lián)網(wǎng)以及使用計(jì)算機(jī),”德內(nèi)恩稱。德內(nèi)恩還指出,最昂貴的模型隨著時(shí)間的推移,每個(gè) token 的成本也在增加。例如,Anthropic 在 2024 年 5 月發(fā)布的 Claude 3 Opus 是當(dāng)時(shí)最昂貴的模型,每百萬(wàn)輸出 token 的成本為 75 美元。而 OpenAI 今年早些時(shí)候推出的 GPT-4.5 和 o1-pro,每百萬(wàn)輸出 token 的成本分別為 150 美元和 600 美元。

“盡管隨著時(shí)間的推移,模型的性能有所提高,達(dá)到給定性能水平的成本也確實(shí)大幅下降,但如果你想在任何特定時(shí)間評(píng)估最大最好的模型,你仍然需要支付更多,”德內(nèi)恩說(shuō)。許多 AI 實(shí)驗(yàn)室,包括 OpenAI,為測(cè)試目的向基準(zhǔn)測(cè)試組織提供免費(fèi)或補(bǔ)貼的模型訪問(wèn)權(quán)限。但一些專家表示,這會(huì)影響測(cè)試結(jié)果的公正性 —— 即使沒(méi)有操縱的證據(jù),AI 實(shí)驗(yàn)室的參與本身就可能損害評(píng)估評(píng)分的完整性。

模型 成本 評(píng)估 AI 推理
分享到:

1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會(huì)明確標(biāo)注作者和來(lái)源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請(qǐng)轉(zhuǎn)載時(shí)務(wù)必注明文章作者和"來(lái)源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會(huì)經(jīng)TMT觀察網(wǎng)編輯修改或補(bǔ)充。


主站蜘蛛池模板: 磁力链接搜索神器_BT磁力狗_CILIMAO磁力猫_高效磁力搜索引擎2024 | 插针变压器-家用电器变压器-工业空调变压器-CD型电抗器-余姚市中驰电器有限公司 | 飞利浦LED体育场灯具-吸顶式油站灯-飞利浦LED罩棚灯-佛山嘉耀照明有限公司 | loft装修,上海嘉定酒店式公寓装修公司—曼城装饰 | 盘扣式脚手架-附着式升降脚手架-移动脚手架,专ye承包服务商 - 苏州安踏脚手架工程有限公司 | 商秀—企业短视频代运营_抖音企业号托管 | 电动车头盔厂家_赠品头盔_安全帽批发_山东摩托车头盔—临沂承福头盔 | 盘煤仪,盘料仪,盘点仪,堆料测量仪,便携式激光盘煤仪-中科航宇(北京)自动化工程技术有限公司 | 气力输送_输送机械_自动化配料系统_负压吸送_制造主力军江苏高达智能装备有限公司! | 山东包装,山东印刷厂,济南印刷厂-济南富丽彩印刷有限公司 | 仿古瓦,仿古金属瓦,铝瓦,铜瓦,铝合金瓦-西安东申景观艺术工程有限公司 | 粉末冶金注射成型厂家|MIM厂家|粉末冶金齿轮|MIM零件-深圳市新泰兴精密科技 | 二手注塑机回收_旧注塑机回收_二手注塑机买卖 - 大鑫二手注塑机 二手光谱仪维修-德国OBLF光谱仪|进口斯派克光谱仪-热电ARL光谱仪-意大利GNR光谱仪-永晖检测 | 房车价格_依维柯/大通/东风御风/福特全顺/江铃图片_云梯搬家车厂家-程力专用汽车股份有限公司 | 阜阳成人高考_阜阳成考报名时间_安徽省成人高考网 | 不锈钢轴流风机,不锈钢电机-许昌光维防爆电机有限公司(原许昌光维特种电机技术有限公司) | 气体热式流量计-定量控制流量计(空气流量计厂家)-湖北南控仪表科技有限公司 | 布袋除尘器|除尘器设备|除尘布袋|除尘设备_诺和环保设备 | 磁力链接搜索神器_BT磁力狗_CILIMAO磁力猫_高效磁力搜索引擎2024 | 罐体电伴热工程-消防管道电伴热带厂家-山东沃安电气 | 双吸泵,双吸泵厂家,OS双吸泵-山东博二泵业有限公司 | 阁楼货架_阁楼平台_仓库仓储设备_重型货架_广州金铁牛货架厂 | 深圳激光打标机_激光打标机_激光焊接机_激光切割机_同体激光打标机-深圳市创想激光科技有限公司 深圳快餐店设计-餐饮设计公司-餐饮空间品牌全案设计-深圳市勤蜂装饰工程 | 青岛球场围网,青岛车间隔离网,青岛机器人围栏,青岛水源地围网,青岛围网,青岛隔离栅-青岛晟腾金属制品有限公司 | BAUER减速机|ROSSI-MERSEN熔断器-APTECH调压阀-上海爱泽工业设备有限公司 | 高压绝缘垫-红色配电房绝缘垫-绿色高压绝缘地毯-上海苏海电气 | 自动螺旋上料机厂家价格-斗式提升机定制-螺杆绞龙输送机-杰凯上料机 | 广州冷却塔维修厂家_冷却塔修理_凉水塔风机电机填料抢修-广东康明节能空调有限公司 | 环讯传媒,永康网络公司,永康网站建设,永康小程序开发制作,永康网站制作,武义网页设计,金华地区网站SEO优化推广 - 永康市环讯电子商务有限公司 | 广州网站建设_小程序开发_番禺网站建设_佛山网站建设_粤联网络 | 泰州物流公司_泰州货运公司_泰州物流专线-东鑫物流公司 | Honsberg流量计-Greisinger真空表-气压计-上海欧臻机电设备有限公司 | 济南品牌包装设计公司_济南VI标志设计公司_山东锐尚文化传播 | 滑板场地施工_极限运动场地设计_滑板公园建造_盐城天人极限运动场地建设有限公司 | 应急灯_消防应急灯_应急照明灯_应急灯厂家-大成智慧官网 | 宽带办理,电信宽带,移动宽带,联通宽带,电信宽带办理,移动宽带办理,联通宽带办理 | 菏泽商标注册_菏泽版权登记_商标申请代理_菏泽商标注册去哪里 | 合肥制氮机_合肥空压机厂家_安徽真空泵-凯圣精机 | 太平洋亲子网_健康育儿 品质生活| 西安标准厂房_陕西工业厂房_西咸新区独栋厂房_长信科技产业园官方网站 | 开业庆典_舞龙舞狮_乔迁奠基仪式_开工仪式-神挚龙狮鼓乐文化传媒 |