AlphaGo人肉臂黃士杰: 阿爾法狗項目結(jié)束, 我的使命完成智能
據(jù)了解,AlphaZero算法可以在8個小時訓(xùn)練擊敗李世石版本AlphaGo;再用4小時訓(xùn)練擊敗世界頂級的國際象棋程序Stockfish;再用2小時訓(xùn)練擊敗世界頂級將棋程序Elmo。這是DeepMind團(tuán)隊繼AlphaGo Zero…
(黃士杰在DeepMind辦公室)
凌晨,AlphaGo曾經(jīng)的“代言人/人肉臂”、谷歌DeepMind科學(xué)家黃士杰(Aja Huang)博士今天凌晨在Facebook上發(fā)帖宣布,他本人將正式從AlphaGo團(tuán)隊離開,轉(zhuǎn)到DeepMind其他項目的研究中去。
(黃士杰Facebook發(fā)帖)
據(jù)了解,早在今年5月戰(zhàn)勝世界圍棋第一人柯潔后,DeepMind就曾宣布,從今往后AlphaGo項目將不會再繼續(xù)開發(fā),AlphaGo也不會再參加競技比賽了。與此同時,DeepMind也初步披露了AlphaGo團(tuán)隊的下一步計劃——研發(fā)出應(yīng)用領(lǐng)域更廣泛的算法,包括找到新的疾病治療方法、顯著降低能源消耗、發(fā)明革命性的新材料等。
11月27日,黃士杰在Facebook轉(zhuǎn)發(fā)了一則關(guān)于DeepMind將與一些頂尖的研究機(jī)構(gòu)共同投入診斷乳腺癌的AI研究消息。DeepMind將利用最新的機(jī)器學(xué)習(xí)技術(shù),希望能夠快速、準(zhǔn)確地檢測出癌癥的跡象,幫助醫(yī)生盡早發(fā)現(xiàn)癌癥,以便更早的有效治療,所以,他之后投身醫(yī)療研究的可能性非常大。
對于著名的AlphaGo、人機(jī)大戰(zhàn)、柯潔,大家可能非常熟知了,但黃士杰是誰大家可能并不熟悉。
(黃士杰博士代為執(zhí)子)
黃士杰博士是一名臺灣工程師,AlphaGo的幕后推手,黃士杰從小熱愛圍棋,在臺灣師大讀書時就曾經(jīng)創(chuàng)辦了學(xué)校的圍棋社,還曾獲得大專杯圍棋賽冠軍,是個業(yè)余六段圍棋選手,在校取得了輝煌成績的黃士杰通過博士論文口試之后就被加拿大一所大學(xué)挖走,擔(dān)任電腦圍棋程序研究員,1年后被英國一家專門研究人工智能的公司DeepMind招攬,2014年,DeepMind公司被谷歌并購,黃士杰已經(jīng)是公司內(nèi)兩位首席工程師之一。
(從左至右,哈薩比斯、柯潔、席爾瓦)
黃士杰至此開啟了DeepMind生涯,有一天,席爾瓦走到黃士杰面前說:“Aja,我們準(zhǔn)備啟動一個圍棋項目,最開始只有你和我”。2014年2月,AlphaGo項目正式啟動,團(tuán)隊三個人:哈薩比斯、席爾瓦、黃士杰,哈薩比斯是整個公司的老板,席爾瓦是黃士杰的經(jīng)理。所以,這個團(tuán)隊真正干活的只有黃士杰一個人。AlphaGo項目想搞出一個強(qiáng)大的圍棋程序,并且沿著深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的方向探索。
兩年之后的2016年3月9日至15日,他們帶著AlphaGo驚艷世人,從此所向披靡,戰(zhàn)無不勝。
我們期待黃士杰的新征程,他不僅僅是人手臂,人工智能時代的大幕才剛剛開始!
所以,DeepMind團(tuán)隊帶著新的使命,發(fā)表了全新的強(qiáng)化學(xué)習(xí)算法AlphaZero。
AlphaZero
它是一種可以從零開始,通過自我對弈強(qiáng)化學(xué)習(xí)在多種任務(wù)上達(dá)到超越人類水平的新算法,堪稱“通用棋類AI”。
AlphaZero
據(jù)了解,AlphaZero算法可以在8個小時訓(xùn)練擊敗李世石版本AlphaGo;再用4小時訓(xùn)練擊敗世界頂級的國際象棋程序Stockfish;再用2小時訓(xùn)練擊敗世界頂級將棋程序Elmo。這是DeepMind團(tuán)隊繼AlphaGo Zero的研究問世之后,帶給我們的又一全新算法,它是“更通用的版本”。
此外,我們看到這次的AlphaZero與AlphaGo Zero有幾點不同。
首先AlphaGo Zero是在假設(shè)結(jié)果為贏/輸二元的情況下,對獲勝概率進(jìn)行估計和優(yōu)化。而AlphaZero會將平局或其他潛在結(jié)果納入考慮,對結(jié)果進(jìn)行估計和優(yōu)化。
其次,AlphaGo和AlphaGo Zero會轉(zhuǎn)變棋盤位置進(jìn)行數(shù)據(jù)增強(qiáng),而AlphaZero不會。
第三,AlphaZero只維護(hù)單一的一個神經(jīng)網(wǎng)絡(luò),這個神經(jīng)網(wǎng)絡(luò)不斷更新,而不是等待迭代。
第四,AlphaZero中,所有對弈都重復(fù)使用相同的超參數(shù),因此無需進(jìn)行針對特定某種游戲的調(diào)整。
來源:網(wǎng)易智能
1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會明確標(biāo)注作者和來源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請轉(zhuǎn)載時務(wù)必注明文章作者和"來源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會經(jīng)TMT觀察網(wǎng)編輯修改或補充。