全球专业中文经管百科,由121,994位网友共同编写而成,共计436,015个条目

AlphaGo

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

目錄

什麼是AlphaGo

  AlphaGo是一款圍棋人工智慧程式,由位於英國倫敦的谷歌(Google)旗下DeepMind公司的戴維·西爾弗、艾佳·黃和戴密斯·哈薩比斯與他們的團隊開發,這個程式利用“價值網路”去計算局面,用“策略網路”去選擇下子。2015年10月阿爾法圍棋以5:0完勝歐洲圍棋冠軍、職業二段選手樊麾;2016年3月對戰世界圍棋冠軍、職業九段選手李世石。

  • 2016年3月9日,谷歌阿爾法圍棋與李世石的人機大戰五番棋第一局在南韓首爾四季酒店開幕,最後,李世石投子認輸。[1]
  • 2016年3月10日,谷歌阿爾法圍棋與李世石的人機大戰五番棋第二局在南韓首爾四季酒店戰罷,阿爾法執黑中盤獲勝,2比0領先李世石。[2]
  • 2016年3月15日,“人機大戰”第5局也是最後一局,人類棋手代表李世石最終還是輸了,這場“人機大戰”最終的比分定格為“阿爾法圍棋”以4比1大勝。[3]

AlphaGo的程式原理

  深度學習

  阿爾法圍棋(AlphaGo)的主要工作原理是“深度學習”。“深度學習”是指多層的人工神經網路和訓練它的方法。一層神經網路會把大量矩陣數字作為輸入,通過非線性激活方法取權重,再產生另一個數據集合作為輸出。這就像生物神經大腦的工作機理一樣,通過合適的矩陣數量,多層組織鏈接一起,形成神經網路“大腦”進行精準複雜的處理,就像人們識別物體標註圖片一樣。 

  兩個大腦

  阿爾法圍棋(AlphaGo)是通過兩個不同神經網路“大腦”合作來改進下棋。這些大腦是多層神經網路跟那些Google圖片搜索引擎識別圖片在結構上是相似的。它們從多層啟髮式二維過濾器開始,去處理圍棋棋盤的定位,就像圖片分類器網路處理圖片一樣。經過過濾,13 個完全連接的神經網路層產生對它們看到的局面判斷。這些層能夠做分類和邏輯推理

  這些網路通過反覆訓練來檢查結果,再去校對調整參數,去讓下次執行更好。這個處理器有大量的隨機性元素,所以人們是不可能精確知道網路是如何“思考”的,但更多的訓練後能讓它進化到更好。

  第一大腦:落子選擇器 (Move Picker)

  阿爾法圍棋(AlphaGo)的第一個神經網路大腦是“監督學習的策略網路(Policy Network)” ,觀察棋盤佈局企圖找到最佳的下一步。事實上,它預測每一個合法下一步的最佳概率,那麼最前面猜測的就是那個概率最高的。這可以理解成“落子選擇器”。

  第二大腦:棋局評估器 (Position Evaluator)

  阿爾法圍棋(AlphaGo)的第二個大腦相對於落子選擇器是回答另一個問題。不是去猜測具體下一步,它預測每一個棋手贏棋的可能,在給定棋子位置情況下。這“局面評估器”就是“價值網路(Value Network)”,通過整體局面判斷來輔助落子選擇器。這個判斷僅僅是大概的,但對於閱讀速度提高很有幫助。通過分類潛在的未來局面的“好”與“壞”,AlphaGo能夠決定是否通過特殊變種去深入閱讀。如果局面評估器說這個特殊變種不行,那麼AI就跳過閱讀在這一條線上的任何更多落子。

主要成績

  據國際頂尖期刊《自然》封面文章報道,谷歌研究者開發的名為“阿爾法圍棋”(Alpha Go)的人工智慧機器人,在沒有任何讓子的情況下,以5:0完勝歐洲圍棋冠軍、職業二段選手樊麾。在圍棋人工智慧領域,實現了一次史無前例的突破。電腦程式能在不讓子的情況下,在完整的圍棋游戲中擊敗專業選手,這是第一次。此前,研究者也讓“阿爾法圍棋”和其他的圍棋人工智慧機器人進行了較量,在總計495局中只輸了一局,勝率是99.8%。它甚至嘗試了讓4子對陣CrazyStone、Zen和Pachi三個先進的人工智慧機器人,勝率分別是77%、86%和99%。

參考文獻

本條目對我有幫助15
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您認為本條目還有待完善,需要補充新內容或修改錯誤內容,請編輯條目投訴舉報

本条目由以下用户参与贡献

Mis铭,寒曦,刘维燎.

評論(共1條)

提示:評論內容為網友針對條目"AlphaGo"展開的討論,與本站觀點立場無關。
LightUnicorn (討論 | 貢獻) 在 2016年3月17日 11:22 發表

人機大戰已經完結了。。。4:1

回複評論

發表評論請文明上網,理性發言並遵守有關規定。

打开APP

以上内容根据网友推荐自动排序生成

下载APP

闽公网安备 35020302032707号