極客號(Daydx.com)8月25日 消息:谷歌DeepMind開發(fā)了一個集成系統(tǒng)AZdb,將多個AlphaZero AI系統(tǒng)組合成一個“聯(lián)盟”,以增強(qiáng)AI國際象棋能力并提高泛化能力。
DeepMind使用“行為多樣性”和“響應(yīng)多樣性”技術(shù),AZdb 的AI系統(tǒng)被訓(xùn)練以不同的方式下棋。根據(jù)Google Deepmind 的說法,行為多樣性最大化了AI系統(tǒng)之間平均棋子位置的差異,而響應(yīng)多樣性則使AI系統(tǒng)面臨針對不同對手的游戲。在實(shí)踐中,這也意味著 AZdb 的AI系統(tǒng)將看到更多不同的位置,擴(kuò)大分布數(shù)據(jù)的范圍,這應(yīng)該允許系統(tǒng)更好地泛化到看不見的位置。
研究人員讓AZdb與舊版AlphaZero下棋,結(jié)果顯示AlphaZero Db的ELO評分提高了50分,在解決困難的國際象棋謎題時成功解題數(shù)是AlphaZero的兩倍。
這證明了多AI集成的優(yōu)勢,AZdb可以考慮更多可能性,更好地推廣到未知棋局。
AlphaZero Db展現(xiàn)了更高的國際象棋水平和泛化能力,這是深度強(qiáng)化學(xué)習(xí)在游戲領(lǐng)域應(yīng)用的一個重要進(jìn)展。多樣性的集成為AI的發(fā)展提供了新的思路。