圍棋與星際爭(zhēng)霸誰更難對(duì)付?AlphaGo Zero創(chuàng)造者說…金融
從技術(shù)上講,我認(rèn)為兩者最大的區(qū)別之一在于圍棋是一種完美信息博弈,而星際爭(zhēng)霸因?yàn)橛袘?zhàn)爭(zhēng)迷霧,屬于不完美信息博弈。
、
昨日,DeepMind 在《自然》雜志上發(fā)表了一篇論文,正式推出人工智能圍棋程序 AlphaGo 的最新版本 AlphaGo Zero。同時(shí),在 DeepMind 發(fā)布的官方博客中,DeepMind 強(qiáng)化學(xué)習(xí)團(tuán)隊(duì)負(fù)責(zé)人、AlphaGo 項(xiàng)目負(fù)責(zé)人 David Silver 視頻介紹了最新的 AlphaGo Zero。今天,David Silver 與團(tuán)隊(duì)另一成員 Julian Schrittwieser 代表 AlphaGo 創(chuàng)造者在 Reddit 上回答了讀者的一系列問題。本文對(duì)這些問答作了編譯介紹。
以下為 David Silver 與 Julian Schrittwieser 代表 AlphaGo 創(chuàng)造團(tuán)隊(duì)在 Reddit 上的問答:
1. 為什么 AlphaGo Zero 的訓(xùn)練如此穩(wěn)定?深度強(qiáng)化學(xué)習(xí)極其不穩(wěn)定且易于遺忘,自我對(duì)弈(self-play)也是,兩者的結(jié)合如果沒有很好的(基于模仿的)初始化和大量人類棋譜將是一個(gè)災(zāi)難。但是 AlphaGo Zero 從零開始,并且沒有借助人類棋譜來防止遺忘或死循環(huán)。論文對(duì)于這點(diǎn)沒有涉及,因此你們是如何做到的?
David Silver:相較于典型的(無模型)算法,如策略梯度或者 Q 學(xué)習(xí),AlphaGo Zero 采用了一種相當(dāng)不同的深度強(qiáng)化學(xué)習(xí)方法。借助 AlphaGo 搜索,我們顯著提升了策略和自我對(duì)弈的結(jié)果,接著我們使用簡(jiǎn)單的基于梯度的更新訓(xùn)練下一個(gè)策略+價(jià)值網(wǎng)絡(luò)。這要比累加的、基于梯度的策略提升更加穩(wěn)定,并且不會(huì)遺忘先前的成果。
2. 你認(rèn)為 AlphaGo 能解決 Igo Hatsuyoron 120 這個(gè)「史上最難死活題」嗎?即贏取一個(gè)給定的中局或者確定一個(gè)現(xiàn)有解決方案(如 http://igohatsuyoron120.de/2015/0039.htm)?
David Silver:我們剛剛請(qǐng)教了樊麾,他認(rèn)為 AlphaGo 會(huì)解決這個(gè)問題,但更為有趣的是 AlphaGo 能否找到書中的答案,或者我們想不到的方案。而這正是我們?cè)?AlphaGo 的訓(xùn)練中多次目睹的事情。
3. 你們認(rèn)為圍棋與星際爭(zhēng)霸 2 哪個(gè)更有難度?面臨的最大潛在技術(shù)障礙是什么?正式更新什么時(shí)候出來?
Julian Schrittwieser:我們宣布開放星際爭(zhēng)霸 2 環(huán)境剛過去幾個(gè)星期,所以現(xiàn)在還處于早期階段。星際爭(zhēng)霸的行動(dòng)空間確實(shí)要比圍棋更具挑戰(zhàn)性,因?yàn)槠溆^察空間要遠(yuǎn)大于圍棋。從技術(shù)上講,我認(rèn)為兩者最大的區(qū)別之一在于圍棋是一種完美信息博弈,而星際爭(zhēng)霸因?yàn)橛袘?zhàn)爭(zhēng)迷霧,屬于不完美信息博弈。
4. 你覺得數(shù)據(jù)比算法更重要嗎?不過你關(guān)于 AlphaGo Zero 的新論文卻暗示了另外的含義。
Julian Schrittwieser:我覺得目前算法仍然比數(shù)據(jù)更重要,只要看看 AlphaGo Zero 比之前幾個(gè)版本的訓(xùn)練效率高出那么多就能理解。而且我認(rèn)為在未來,數(shù)據(jù)在訓(xùn)練效率上的重要性也會(huì)大有提升。
5. 由于整個(gè)管道只在模型的最新最好版本上展開自我對(duì)弈,你們認(rèn)為模型在使用具體的 SGD 算法更新參數(shù)空間時(shí)存在過擬合風(fēng)險(xiǎn)嗎?看起來最后的模型游戲過程中,模型會(huì)稍微依賴于隨機(jī)初始化權(quán)重以及實(shí)際面對(duì)的游戲狀態(tài)(作為隨機(jī)行動(dòng)采樣的結(jié)果)。
David Silver:實(shí)際上,表征也很可能在其他選擇上表現(xiàn)良好。但是我們有 3 個(gè)理由使用堆疊的觀測(cè)歷史:(1)它在其它領(lǐng)域(比如 Atari)的常用輸入表征是一致的;(2)我們需要一些歷史來表征 ko;(3)了解對(duì)手最近輸入位置的歷史很有用,這可充當(dāng)一種注意力機(jī)制(即注意對(duì)手的想法很重要)。
6. 這會(huì)是 AlphaGo 的最終迭代版本嗎?
David Silver:我們已經(jīng)停止了強(qiáng)化 AlphaGo 的積極研究,但仍保留了研究試驗(yàn)臺(tái),以供 DeepMind 人員驗(yàn)證新思路和新算法。
7. DeepMind 和 Facebook 都在大力研究強(qiáng)化學(xué)習(xí),你認(rèn)為是什么令 AlphaGo 的表現(xiàn)能如此快速地提升? 此外對(duì)于機(jī)器學(xué)習(xí)前沿,特別是強(qiáng)化學(xué)習(xí),其發(fā)展趨勢(shì)如何?
David Silver:Facebook 更關(guān)注監(jiān)督學(xué)習(xí),它能產(chǎn)生當(dāng)時(shí)性能最優(yōu)的模型;而我們更關(guān)注強(qiáng)化學(xué)習(xí),因?yàn)槲覀兿嘈潘罱K會(huì)超越人類已有的知識(shí)而進(jìn)一步取得提升。我們最近的結(jié)果實(shí)際上表明,只有監(jiān)督學(xué)習(xí)確實(shí)可實(shí)現(xiàn)令人驚嘆的表現(xiàn),但強(qiáng)化學(xué)習(xí)絕對(duì)是超越人類水平的關(guān)鍵。
8. 有開源 AlphaGo 的計(jì)劃嗎?
David Silver:我們之前已經(jīng)開源了大量的代碼,但過程一直非常復(fù)雜。不幸的是,AlphaGo 項(xiàng)目的代碼庫更加復(fù)雜,甚至有點(diǎn)過分。
9. 我們現(xiàn)在可以通過強(qiáng)大的國際象棋引擎給棋手做內(nèi)部評(píng)級(jí),一步一步地分析棋手的下棋過程進(jìn)而評(píng)定 Elo 等級(jí)分。這可以使我們更有條理的做事,比如比較不同時(shí)代的棋手,而且還有可能提供研究人類認(rèn)知的平臺(tái)。這對(duì) AlphaGo 也有效嗎?我猜測(cè)這對(duì)圍棋來說會(huì)更加復(fù)雜,因?yàn)樵趪H象棋中不需要考慮 margin of victory。
Julian Schrittwieser:這確實(shí)是個(gè)很棒的主意!我覺得我們完全可以在圍棋中做同樣的事情,可能會(huì)以比較最佳落子和每一步落子的價(jià)值的方式,或者使用決策網(wǎng)絡(luò)為每一步落子分配的概率。如果有時(shí)間的話,我很樂意嘗試。
10. 你們?cè)?AlphaGo Zero 中首先嘗試自我對(duì)弈訓(xùn)練而不是整合人類比賽數(shù)據(jù)。為什么 AlphaGo 之前的版本沒有使用自我對(duì)弈訓(xùn)練呢,還是已經(jīng)嘗試過,但效果沒有這么好,為什么?我很好奇這一塊的發(fā)展和進(jìn)步。和現(xiàn)在相比,兩年前在 AlphaGo 訓(xùn)練過程中使用自我對(duì)弈有什么瓶頸嗎?從最終成就自我對(duì)弈系統(tǒng)的所有迭代中收獲了什么「機(jī)器學(xué)習(xí)知覺」(machine learning intuition)?
David Silver:創(chuàng)建利用自我對(duì)弈來學(xué)習(xí)的系統(tǒng)在強(qiáng)化學(xué)習(xí)領(lǐng)域一直是一個(gè)開放性問題。我們最初嘗試了文章提到的很多類似算法,發(fā)現(xiàn)都不穩(wěn)定。我們進(jìn)行了很多次實(shí)驗(yàn),最終發(fā)現(xiàn) AlphaGo Zero 的算法是最高效的,而且應(yīng)該解決了這個(gè)問題。
11. 據(jù)說 AlphaGo 柯潔版本僅需李世乭版本處理能力的 1/10。你對(duì)此做了哪些優(yōu)化?也就是說 AlphaGo 柯潔版本的能力是李世乭版本的 10 倍嗎?
Julian Schrittwieser:這主要是因?yàn)閮r(jià)值/策略網(wǎng)絡(luò)的改善,訓(xùn)練和架構(gòu)都變得更好。這篇論文的圖 4 對(duì)比了不同網(wǎng)絡(luò)架構(gòu)。
12. 有考慮過使用生成對(duì)抗網(wǎng)絡(luò)嗎?
David Silver:在某種意義上,自我對(duì)弈(self-play)訓(xùn)練已經(jīng)是對(duì)抗性質(zhì)的:每次迭代都試圖找到對(duì)抗上一版本的「anti-strategy」。
13. 在設(shè)計(jì) AlphaGo 系統(tǒng)架構(gòu)時(shí),最困難的部分是什么?
David Silver:我們遇到的一個(gè)重大挑戰(zhàn)是在與李世乭比賽期間出現(xiàn)的,當(dāng)時(shí),我們意識(shí)到 AlphaGo 偶爾會(huì)受到我們稱之為「錯(cuò)覺(delusion)」的影響,即對(duì)弈中智能體會(huì)持續(xù)多次系統(tǒng)地誤解當(dāng)前的棋局,并嘗試了很多方法來解決它,如給智能體灌輸更多的圍棋知識(shí)或人類元知識(shí)。我們的解決方法是使智能體變得更加條理化,使用更少的知識(shí),更多地依賴強(qiáng)化學(xué)習(xí)來生成更高質(zhì)量的解決方案;最終我們?nèi)〉昧顺晒Γ?AlphaGo 中消除了這些問題。
來源:品途商業(yè)評(píng)論
1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會(huì)明確標(biāo)注作者和來源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請(qǐng)轉(zhuǎn)載時(shí)務(wù)必注明文章作者和"來源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會(huì)經(jīng)TMT觀察網(wǎng)編輯修改或補(bǔ)充。