下載客戶端

登錄

李世石最后一戰被AI擊敗，唯一勝過AlphaGo的人退役了

2019-12-23 08:35

來源：澎湃新聞·澎湃號·湃客

原創： Synced 機器之心

機器之心報道

參與：蛋醬、張倩、李澤南

退役賽的最后一局，李世石回到了自己的家鄉。對戰之地距離李世石的出生地飛禽島 40 多公里，他曾在飛禽島度過了他的童年時光，也是在這里決定成為職業圍棋選手。

12 月 21 日，全羅道新安郡曾島 EI dorado 度假村，李世石在第 181 手投子認輸。這是與 Handol 退役賽對戰的最后一局，前兩局，李世石一勝一負。最后一盤棋，還是惜敗于 AI。

12 歲入段，36 歲正式退役，24 年攬獲 14 項國際項冠軍和 32 項國內冠軍，從此以后，「李世石九段」不會再以職業棋手的身份出現在眾人面前。

最后一戰，他還是選擇了 AI

11 月 19 日，李世石向韓國棋院正式遞交辭呈，宣告了自己 24 年職業圍棋生涯的結束。

在接受韓聯社采訪時，他表示自己之所以選擇退役，是因為「AI 不可戰勝」：「在圍棋 AI 出現以后，我發覺即使自己成為第一名，也永遠需要面對一個不可戰勝的實體?！?/p>

李世石曾經的對手，曾經「絕代雙驕」的另一人——中國圍棋職業選手古力九段在得知這一消息之后，在社交平臺上公開表示：「此刻只想給他一個大大的擁抱。」

圖源：新浪微博 @ 古力

當很多人都以為李世石的最后一戰會選擇與古力對決時，李世石卻選了韓國圍棋 AI「Handol」，理由是擔心「最后和他下棋的人會有負擔」。

這是他自從 2016 年負于 AlphaGo 之后，再一次對戰圍棋 AI，也是人類棋手第一次與 AI 下升降三番棋。

一直以來，人們都認為頂尖人類棋手與 AI 之間的差距在二子到三子之間，但由于從來沒有進行過正式比賽的對局，所以真正差距無從得知。李世石提到，自己最終選擇下升降棋，也是想確認人類和人工智能之間的差距到底有多少。在對戰 Handol 之前，李世石說自己已經有大概 5 個月的時間沒有參加過比賽，也幾乎沒有進行過圍棋訓練。

北京時間 12 月 18 日 12 時，李世石與 Handol 開始第一局對弈。李世石執黑被讓兩子，按 7 目半還子。前半盤黑棋先拿到右上角實地，勝率一直保持在 80% 以上。隨后白棋開始反擊，直到第 78 手之前，勝率一直處于上升階段。

轉折點出現在李世石的第 78 手（值得一提的是，李世石當年對戰 AlphaGo 獲勝的唯一一局，勝負手同樣是第 78 手）。黑棋吃掉白棋棋筋，加之 Handol 在第 84 手征子失誤，只得在第 92 手時投子認輸。

第 78 手，李世石再現「神之一手」。

這場比賽僅用兩小時就分出了勝負, 在 100 手以內即告結束。盡管李世石表示賽前曾連續練習了十天的被讓兩子棋，「幾乎醒著的時候都在練棋」，但他也表示未能料到自己會在與 AI 的對決中獲勝。

第一局的最終棋局。

12 月 19 日，第二局。由于李世石在第一局比賽中獲勝，第二局 Handol 不再讓子，李世石仍然執黑先行。

這一局，李世石在第 31 手出現誤判，而后白棋的勝率預測一直保持在 90% 以上，到了第 40 手以后，勝負已經基本明朗。

第 31 手。

第二局的最終棋局。

最終李世石在第 122 步認輸。這一局時長 3 小時 20 分鐘，至此，李世石與 Handol1:1 戰平，而剩下的最后一局尤為關鍵。

人類再次在圍棋「人機大戰」中取得了一場勝利。谷歌 DeepMind 資深研究員、ALphaGo 主要程序開發者黃士杰曾在看完前兩盤對決之后表示，如果再有兩年的算法更新和優化，AlphaGo Master 將會是最強的棋手。但 AI 要做到萬無一失，仍需要解決 bug 問題。

12 月 21 日，最后一局的賽場轉移到了李世石的家鄉全羅道新安郡。這一場李世石依然受兩子執黑挑戰 AI，黑棋貼目 7 目半。人類與 AI 在棋盤右下角展開激戰。

在最后一局中，Handol 解除了大部分限制，在每一步上花費了更多「思考」時間。AI 執白在右下角存活之后，逐漸將勝率從 20% 扳至五五開，李世石的思考時間則逐漸用盡。

弈至 111 手，李世石勝率降到 57.5%。圖源：新浪棋牌微博。

下午 2 時 50 分左右，李世石進入讀秒，此時白棋已在右側和左上成活，李世石試圖通過打劫尋找 AI 的破綻。

但李世石的努力并沒有扭轉頹勢，在弈至 159 手時，AI 判斷李世石的勝率降到 5%。

弈至 159 手，李世石勝率降到 5%。圖源：新浪棋牌微博。

最終，在行至 181 手時，李世石投子認負。

這是三局之中最漫長的一局，雙方對弈超過四小時。

第三局最終棋局。

賽后，李世石在接受采訪時表示：「這場比賽中，Handol 的表現與前幾場類似，如果自己能夠再謹慎一點，或許比賽的結果會有所不同?！箤τ谕艘酆蟮墓ぷ?，李世石還沒有做出選擇。

棋壇再無「李世石九段」

李世石的退役消息來得突然，但也算早有苗頭。今年 3 月份，李世石在「三一運動一百周年紀念對局」中敗于柯潔之后，即透露過自身想要「在一年之內」退役的想法。

除了沒有信心戰勝 AI，李世石的退役似乎也和自己與韓國棋院之間的矛盾分不開。在韓國棋院的 24 年中，李世石曾提交過休職申請，也強行退出過棋士會，特立獨行的處事方式與其在棋盤上的風格如出一轍。

李世石 1983 年出生在距離全羅南道新安郡的飛禽島，愛好圍棋的父親是李世石的第一任導師。6 歲開始接觸圍棋的李世石是兄弟姐妹中年齡最小的一個，但也是天賦最高的一個。9 歲時，因大哥李相勛成功入段，父親終于也下定決心將李世石送到有「韓國圍棋山脈」之稱的首爾權甲龍圍棋道場學棋。

圖源：https://imgur.com/a/dHz3V

3 年零 6 個月后，年僅 12 歲的李世石成功入段，從此在韓國棋院開始了職業圍棋生涯。24 年來，李世石已經獲得了 14 個國際比賽冠軍，32 次國內比賽冠軍，皆僅次于李昌鎬，高居歷史第二。

2000 年，當時的「李世石三段」在巴斯卡杯天元戰和倍達王戰中擊敗柳才馨九段和劉昌赫九段，連獲兩個冠軍，成為圍棋史上成就最高的「三段」選手。但他卻拒絕參加升段賽，聲稱「段位并不能體現實力」。為此，韓國棋界不得不廢除了升段賽，改以成績定段位。2001 年，李世石在獲得第五屆 LG 杯世界棋王賽亞軍后升至七段，2003 年獲 LG 世界棋王戰冠軍，直升九段。

李世石的圍棋生涯中曾有一次「妥協」的退役風波，2009 年 6 月，李世石曾向韓國棋院提交過休職書，稱因「韓國棋院對棋手不合理的約束」而身心疲憊，計劃從當日起休職到 2010 年底。半年后，李世石復職，但桀驁不馴的性格并未改變。2016 年，李世石又與哥哥李相勛一起，因韓國棋院「克扣獎金」的原因退出了棋士會。

唯一打敗過 AlphaGo 的人類

盡管在圍棋上已經登峰造極，真正讓李世石名聲大噪的還是與 AlphaGo 的「人機大戰」。

李世石在 2016 年 3 月與 AlphaGo 的一番激戰，被認為是人工智能歷史上的一次里程碑事件——雖然李世石以 1：4 的比分落敗，但在比賽的第四局，李世石的驚天翻盤卻讓他成為了迄今為止唯一一個戰勝過 AlphaGo 的棋手。他在第 78 手出人預料的一擠，讓 AlphaGo 后續的反應出現失常，徹底改變了戰局——這與此次在第一局中戰勝 Handol 的場面何其相似。

李世石面對 AlphaGo 的那一次勝利，曾經為人類戰勝人工智能帶來了一線希望，但后來李世石將勝利歸功于 AlphaGo 程序的缺陷?！肝业牡?78 手并不應該用直接的方式應對。」

當然，這樣的 bug 不止存在于 AlphaGo。李世石曾說：「在騰訊『絕藝』中，這樣的 bug 至今仍然會出現。即使現在的絕藝已經可以做到讓人類兩子勝利了，但它仍然會以奇怪的方式輸掉比賽，這是因為一個 bug 所致?！?/p>

在前三場比賽輸給 AlphaGo 之后，他曾感到相當沮喪?！肝液苌倏淳W上對我的評論，但是輸給了阿爾法狗以后，我很好奇大家怎么看我。意外的是，很少有人批評我。」

人類真的永遠不會再戰勝 AI？

這一次對戰 Handol，李世石賺了 2 億韓元（約合 121 萬元人民幣），包括 1 億 5000 萬韓元的基本出場費，每勝一局額外獲得 5000 萬韓元的獎金。

自從 2016 年 AlphaGo 大戰李世石之后，圍棋 AI 即被推上風口浪尖?；诮暌詠砩疃葘W習和強化學習的發展，AlphaGo 和各類圍棋 AI 的不斷升級，人們一度認為，人類再不可能戰勝 AI。

Handol 是韓國 NHN 娛樂公司推出的一款圍棋 AI，用以訓練的數據來自 1999 年以來 NHN 公司在游戲業務方面的大量積累。與 AlphaGo 的進化路線相似，2017 年 12 月，Handol1.0 出世，當時已擁有人類職業棋手 9 段棋力，可以實現在人類棋譜及既定模式的基礎上對棋局進行預測，到了 Handol 2.0 已經能夠脫離棋譜，自己與自己下棋。在 NHN 看來，Handol2.1 的實力已經超越了當初對戰李世石的 AlphaGo。

2019 年 1 月，Handol 連續戰勝了申旻埈九段、李東勛九段、金智碩九段、樸正煥九段和申真瑞九段五位韓國頂級圍棋選手，8 月在山東舉行的「中信證券杯」世界智能圍棋公開賽中，Handol 也捧回了季軍獎杯。

在「Handol」首局落敗之后，NHN 公司人工智能項目的負責人李昌律推測稱，「輸掉這一局的原因 kennel 在于「Handol」總體學習量尚且不足，缺少對開局讓兩子和讓三子等棋局的學習」。

圖源：https://pulsenews.co.kr/view.php?sc=30800024&year=2019&no=1065937

據「Handol」研發團隊估算，「Handol」的棋力水平相當于世界圍棋中的 4500 積分，而目前李世石的積分為 3414 分，柯潔、樸廷桓等人類頂尖棋手的積分接近 3700 分。

在圍棋 AI 領域，棋力最高的選手仍然是 DeepMind 公司的 AlphaGo，它也是第一個擊敗人類圍棋世界冠軍的人工智能程序。在 2017 年柯潔與 AlphaGo 對戰之后，David Silver、谷歌大腦負責人 Jeff Dean 等人曾在烏鎮圍棋峰會現場對 AlphaGo 背后的技術進行過解讀。

AlphaGo 最初主要是依靠大量學習人類棋手的棋譜來提高棋藝，之后進入到完全的自我深度學習階段，也就是完全摒棄人類棋手的思維方式，按照自己（左右互搏）的方式研究圍棋。結合監督學習與強化學習的優勢，AlphaGo 通過訓練形成一個策略網絡，將棋盤上的局勢作為輸入信息，并對有所可行的落子位置形成一個概率分布。然后訓練一個價值網絡對自我對弈進行預測，以-1（對手的絕對勝利）到 1（AlphaGo 的絕對勝利）的標準，預測所有可行落子位置的結果。

AlphaGo 真正的優勢來源于將策略網絡和價值網絡整合進基于概率的蒙特卡羅樹搜索（MCTS）中。在獲取棋局信息后，AlphaGo 會根據策略網絡探索哪個位置同時具備高潛在價值和高可能性，進而決定最佳落子位置。在分配的搜索時間結束時，模擬過程中被系統最繁瑣考察的位置將成為 AlphaGo 的最終選擇。經過先期的全盤探索和過程中對最佳落子的不斷揣摩，AlphaGo 的探索算法就能在其計算能力之上加入近似人類的直覺判斷。2016 年 1 月 28 日，擊敗李世石的 AlphaGo 版本登上《Nature》封面，隨后在 3 月即 4:1 擊敗李世石，名聲大振。

和人類不同，AlphaGo 沒有先入為主的概念，這恰恰也是所有圍棋 AI 的優勢所在：盡管有時 AI 的落子顯得違反直覺，但確實是最合理的。

烏鎮之后，DeepMind 宣布 AlphaGo 從此不會再參與比賽，但在幾個月后推出了更強版本的圍棋 AI「AlphaGo Zero」。如果說 AlphaGo 版本最初還需要觀察數千場人類圍棋比賽來訓練如何學習圍棋，AlphaGo Zero 則直接跳過這一步，從自己完全隨機的下圍棋開始來學習圍棋，幾天之內即超越人類棋手的水平，并且以 100:0 的比分打敗了之前戰勝世界冠軍的 AlphaGo。

早期的 AlphaGo 使用「決策網絡」選擇下一步棋的位置，使用「價值網絡」預測每一個位置上決定的勝者。這兩個網絡在 AlphaGo Zero 中被結合起來，從而使其更高效地訓練和評估賽況。并且，AlphaGo Zero 版本只需 4 塊 TPU 即可運行。

上個月，DeepMind 又推出了名為 MuZero 的「通用版」AlphaGo，在國際象棋、日本將棋和圍棋的精確規劃任務中可以匹敵 Alpha Zero，在圍棋中甚至超過了 Alpha Zero。但與前輩不同的是，MuZero 不需要提前獲知規則。

在圍棋 AI 領域，國內研究機構和企業也在發力，其中最有代表性的要數上文中李世石提到的騰訊圍棋 AI「絕藝」?！附^藝」誕生于 2016 年，實力或僅次于 AlphaGo。

「絕藝」的訓練主要包括人類棋譜數據庫和機器自對弈，它的算法基于策略網絡與價值網絡兩大核心，并創新性地大幅提升了價值網絡的精度，使其大局觀表現更好。在 2018 騰訊世界人工智能圍棋大賽中，「絕藝」在決賽中 7：0 大勝另一款圍棋 AI「星陣」奪冠，半決賽五番棋和決賽七番棋不失一局，賽后「星陣」研發團隊亦稱贊「絕藝」已經「達到了 AlphaGo 的水準」。

雖然在圍棋的算力上，人類已經難以與機器相比，但棋手們可以通過與 AI 的對弈不斷提升自己的水平，甚至發展出更為先進的戰術。據古力此前透露，「絕藝」已經成為中國國家圍棋隊訓練專用 AI。

參考鏈接：

https://en.yna.co.kr/view/AEN20191218004052315?section=search

https://en.yna.co.kr/view/AEN20191219007151315?section=sports/index

http://www.hani.co.kr/arti/sports/baduk/921125.html

https://www.nhn.com/ko/pr/pressReleaseDetail.nhn

https://pulsenews.co.kr/view.php?year=2019&no=1014122

本文為機器之心和騰訊科技聯合獨家首發，未經授權，請勿轉載

機器之心「SOTA模型」：22大領域、127個任務，機器學習 SOTA 研究一網打盡。