谷歌聯合研究:合成數據讓大模型數學推理能力飆升八倍快訊
經過正向和負向合成數據預訓練的大模型,而低優勢步驟可能意味著模型推理存在問題,發布了一項關于合成數據在大型模型訓練中應用的重要研究成果。
【TechWeb】近期,由谷歌、卡內基梅隆大學和MultiOn組成的聯合研究團隊,發布了一項關于合成數據在大型模型訓練中應用的重要研究成果。
專注于人工智能發展的研究機構Epoch AI報告指出,當前全球約有300萬億個公開可用的高質量文本訓練標記。但隨著像ChatGPT這類大模型的快速發展,對訓練數據的需求呈指數級增長,預計在2026年之前,這些現有數據將被耗盡。在此背景下,合成數據成為了關鍵的替代方案。
研究人員著重探索了兩種合成數據類型,即正向數據和負向數據。正向數據是由高性能大模型,如GPT - 4和Gemini 1.5 Pro生成的正確問題解決方案,為模型提供解決數學問題的范例。然而,單純依靠正向數據進行訓練存在明顯局限。其一,這種方式可能無法讓模型真正理解問題解決背后的邏輯,只是通過模式匹配來學習;其二,隨著訓練數據量的增加,模型可能會學到虛假的相關性,導致在處理新問題時泛化能力降低。
有鑒于此,研究人員引入了負向數據,也就是經過驗證為錯誤的問題解決步驟。這能幫助模型識別并避免錯誤,從而增強其邏輯推理能力。盡管使用負向數據存在挑戰,因為錯誤步驟可能包含誤導性信息,但研究人員借助直接偏好優化(DPO)方法,成功讓模型從錯誤中學習,并強調每個問題解決步驟的重要性。
DPO方法會為每個問題解決步驟分配一個優勢值,以反映其相對于理想解決方案的價值。研究發現,高優勢步驟是正確解決問題的關鍵,而低優勢步驟可能意味著模型推理存在問題。基于這些優勢值,模型能夠在強化學習框架內動態調整策略,更高效地從合成數據中學習和改進。
為驗證合成數據的有效性,研究團隊選用DeepSeek - Math - 7B和LLaMa2 - 7B等模型,在GSM8K和MATH數據集上開展了全面測試。結果令人驚喜,經過正向和負向合成數據預訓練的大模型,在數學推理任務上的性能提升了八倍。這一研究充分彰顯了合成數據在增強大模型邏輯推理能力方面的巨大潛力,為大模型的發展開辟了新的方向。(Suky)
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。