亚洲激情在线视频,激情欧美一区,精品三级在线观看

OpenAI一員工公開指責xAI 稱Grok 3基準測試結果具有誤導性快訊

IT之家 2025-02-23 10:31

分享到：

導讀

Grok 3 Reasoning Beta 的表現也略低于 OpenAI 的 o1 模型在，Grok 3 的兩個版本 ——Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning—— 在 AIME 2025 上的表現超過了 OpenAI 當前最強的可用模型 o3-mini-high，稱其發布的最新 AI 模型 Grok 3 的基準測試結果具有誤導性。

IT之家 2 月 23 日消息，本周，OpenAI 的一名員工公開指責埃隆?馬斯克旗下的 xAI 公司，稱其發布的最新 AI 模型 Grok 3 的基準測試結果具有誤導性。對此，xAI 的聯合創始人伊戈爾?巴布什金（Igor Babushkin）則堅稱公司并無不當。

xAI 在其博客上發布了一張圖表，展示了 Grok 3 在 AIME 2025（一項近期邀請制數學考試中的高難度數學題集）上的表現。盡管一些專家質疑 AIME 作為 AI 基準的有效性，但 AIME 2025 及其早期版本仍被廣泛用于評估模型的數學能力。

IT之家注意到，xAI 的圖表顯示，Grok 3 的兩個版本 ——Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning—— 在 AIME 2025 上的表現超過了 OpenAI 當前最強的可用模型 o3-mini-high。然而，OpenAI 的員工很快在 X 平臺上指出，xAI 的圖表并未包含 o3-mini-high 在“cons@64”條件下的 AIME 2025 得分。

“cons@64”是指“consensus@64”，即允許模型在基準測試中對每個問題嘗試 64 次，并將出現頻率最高的答案作為最終答案。可想而知，這種方式往往會顯著提升模型的基準測試分數，如果圖表中省略這一數據，就可能讓人誤以為某個模型的表現優于另一模型，而實際情況未必如此。

在 AIME 2025 的“@1”條件下（即模型首次嘗試的得分），Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning 的得分低于 o3-mini-high。Grok 3 Reasoning Beta 的表現也略低于 OpenAI 的 o1 模型在“中等計算”設置下的得分。然而，xAI 仍在宣傳 Grok 3 為“世界上最聰明的 AI”。

巴布什金在 X 平臺上辯稱，OpenAI 過去也曾發布過類似的誤導性基準測試圖表。盡管這些圖表是用于比較其自身模型的表現。

在這場爭議中，一位中立的第三方重新繪制了一張更為“準確”的圖表：

但正如 AI 研究員內森?蘭伯特（Nathan Lambert）在一篇文章中指出的，或許最重要的指標仍然未知：每個模型達到最佳分數所需的計算（和金錢）成本。這恰恰表明，大多數 AI 基準測試在傳達模型的局限性和優勢方面仍然存在很大的不足。

模型 xAI 圖表 AI AIME

分享到：

1.TMT觀察網遵循行業規范，任何轉載的稿件都會明確標注作者和來源；
2.TMT觀察網的原創文章，請轉載時務必注明文章作者和"來源：TMT觀察網"，不尊重原創的行為TMT觀察網或將追究責任；
3.作者投稿可能會經TMT觀察網編輯修改或補充。

TMT观察网_独特视角观察TMT行业

OpenAI一員工公開指責xAI 稱Grok 3基準測試結果具有誤導性快訊