科技改變生活 · 科技引領未來
專注于推進人工智能研究的谷歌部門DeepMind今天發(fā)布了一個新版本的AlphaGo程序,它只通過玩自己來學習游戲。
該系統(tǒng)被稱為AlphaGoZero,通過學習其自我游戲的結(jié)果,使用一種稱為強化學習的機器學習技術來工作。 隨著零的不斷訓練,該系統(tǒng)開始學習先進的概念,在游戲中,自己去挑選某些有利的位置和序列。
經(jīng)過三天的訓練,該系統(tǒng)能夠擊敗AlphaGoLee,DeepMind的軟件,去年擊敗了韓國頂級球員LeeSedol,100場比賽為零。 經(jīng)過大約40天的訓練-這意味著2900萬場自我游戲-阿爾法戈零能夠擊敗阿爾法戈大師(今年早些時候擊敗了世界冠軍克杰)89場比賽到11場。
結(jié)果表明,當涉及到不同技術的有效性時,在人工智能領域還有很多需要學習的東西。 阿爾法圍棋大師是使用許多類似的方法,阿爾法圍棋零是,但它開始訓練人類數(shù)據(jù),首先開始自我游戲。
一個有趣的注意是,雖然AlphaGoZero在幾周的訓練中學習了幾個關鍵概念,但該系統(tǒng)的學習方式不同于許多接近圍棋游戲的人類玩家。 連續(xù)的“拉粉”石頭,以一個樓梯一樣的模式在棋盤上玩,是人類在練習游戲時學到的第一件事之一。 《自然》雜志發(fā)表的論文《深度心靈》(Deep Mind)指出,Zero在后來的訓練中才理解這一概念。
此外,AlphaGoZero比它的許多前輩更有效率。 阿爾法·戈·李需要使用幾臺機器和48臺谷歌的張量處理單元機器學習加速器芯片。 系統(tǒng)的早期版本AlphaGo Fan需要176個GPU。 阿爾法圍棋零,連同阿爾法圍棋大師,每個只需要一個單一的機器與四個TPU。
高同東
版權所有 未經(jīng)許可不得轉(zhuǎn)載
增值電信業(yè)務經(jīng)營許可證備案號:遼ICP備14006349號
網(wǎng)站介紹 商務合作 免責聲明 - html - txt - xml