AlphaZero問世:8小時完爆圍棋、國際象棋、日本將棋智能
導讀
日前,DeepMind團隊發表了最新論文,提出了全新的強化學習算法AlphaZero,它是一種可以從零開始,通過自我對弈強化學習在多種任務上達到超越人類水平的新算法,堪稱“通用棋類AI”。
日前,DeepMind團隊發表了最新論文,提出了全新的強化學習算法AlphaZero,它是一種可以從零開始,通過自我對弈強化學習在多種任務上達到超越人類水平的新算法,堪稱“通用棋類AI”。
據了解,AlphaZero算法可以再8個小時訓練擊敗李世石版本AlphaGo;12小時訓練擊敗世界頂級的國際象棋程序Stockfish;14小時訓練擊敗世界頂級將棋程序Elmo。這是DeepMind團隊繼AlphaGo Zero的研究問世之后,帶給我們的又一全新算法,它是“更通用的版本”。
此外,我們看到這次的AlphaZero與AlphaGo Zero有幾點不同,首先AlphaGo Zero是在假設結果為贏/輸二元的情況下,對獲勝概率進行估計和優化。而AlphaZero會將平局或其他潛在結果納入考慮,對結果進行估計和優化。其次,AlphaGo和AlphaGo Zero會轉變棋盤位置進行數據增強,而AlphaZero不會。第三,AlphaZero只維護單一的一個神經網絡,這個神經網絡不斷更新,而不是等待迭代,四,AlphaZero中,所有對弈都重復使用相同的超參數,因此無需進行針對特定某種游戲的調整。
來源:網易智能
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。