AI打麻將出道！AI“絕藝”成新一代雀神

2023-07-14 18:07

來源：澎湃新聞·澎湃號·湃客

麻將起源于中國，是國粹。雖然各地的麻將玩法各不相同，比如云貴川地區(qū)的缺一門打法；廣東麻將流行“雞平和”和“推倒胡”，東北麻將則一門都不能缺......但無論什么玩法都飽受大眾喜愛。

要論一個地道的四川人對麻將的喜愛，不能說有癮，畢竟“競技場上的事情，怎能說是癮呢？”

逢年過節(jié)不是在牌桌子上，就是在去打牌的路上。

上學“多動癥”，打牌“坐如鐘”，坐個通宵都是灑灑水。

“我真的不知道為什么打麻將會有癮，我天天打，也不見得有癮啊”

“人生最大憾事不過三缺一”

（無非就是以上所描述的此類程度罷了）

在四川要是有人罵你“你打麻將永遠三缺一”，大家都會覺得這人罵的是真毒啊！

但是，你或許不知道AI也能打麻將，要是人人都能和AI在牌桌子上一決高下，不僅“三缺一”魔咒不復存在，社恐麻將愛好者也或許能迎來福音，“我社恐，一缺三，來三個AI”（這不是幻想）。

鵝廠AI“絕藝”成新一代雀神

7月11日，騰訊最新消息，旗下棋牌類AI“絕藝”LuckyJ在知名日本麻將平臺“天鳳”上，刷新AI在麻將領域最好成績（達穩(wěn)定段位10.68段）

10.68段是什么概念？天鳳則按照1段—11段來進行排位，利用科學的段位和 Elo Rating 體系，根據參與的局數和不斷累積的積分，來判定段位。（越是和高水平牌手對局，獲勝后 Rate 增加越多，失敗后 Rate 減少越少: 越是和低水平牌手對局，獲勝后 Rate 增加越少，失敗后 Rate 減少越多。）最終段位和 Rate 值的穩(wěn)定值就代表了牌手的真實實力。

目前，在平臺上，7段以上3037人，約占百分之一，而能達到 10 段的只有 27 人（含AI），只占不到萬分之一。

（天鳳穩(wěn)定段位bootstrap的分布，絕藝LuckyJ顯著強于之前最強的兩個日本麻將AI（Suphx，NAGA）LuckyJ vs Suphx p value=0.02883；LuckyJ vs NAGA p value=3e-05）

絕藝LuckyJ不僅達到日本麻將天鳳十段，而且之前還在國標麻將線下邀請賽中戰(zhàn)勝了6位國標麻將職業(yè)選手。成為首個戰(zhàn)勝國標麻將頂尖職業(yè)選手的麻將AI。

騰訊AI進軍麻將

棋牌游戲AI其實早已經不是什么新鮮事了，繼象棋，跳棋，圍棋之后，AI麻將又一次進入大眾視野，但其實AI麻將早在2015年就有發(fā)跡。

2015年，東京大學開發(fā)的“爆打”，9 月，爆打達到天鳳麻雀“四段，12 月一度沖進天鳳七段，穩(wěn)定段位均6段左右。

2018年，Dwango 公司于開發(fā)的基于深度學習模型的“NAGA25”，天鳳穩(wěn)定段位均6.5左右。

2019年，微軟開發(fā)的Suphx于3月登陸天鳳，短短幾個月內，Suphx在該平臺上與人類選手展開了5000余場四人麻將對局，達到了十段，超越了99%人類玩家，這是世界上第一個達到天鳳10段水平的人工智能。

至于騰訊的AI“絕藝”，它的開發(fā)始于2016年，最早是從圍棋起步。那么問題來了，為什么這么長時間，騰訊AI才進軍麻將？

一個字——難。

首先，麻將是一個“不完美信息博弈”，共有 136 張牌，除了對手打出來的牌之外，對手的手牌、游戲的底牌、以及對手的牌型組合都是未知的，而圍棋、象棋雙方在每一次決策前后都能看到全局信息，是“完美信息博弈”。

其次，對戰(zhàn)過程中也涉及了大量的決策，麻將的隨機性很高，發(fā)牌的結果、玩家行為都是隨機的，除了正常的摸牌、打牌之外，還要決定是否吃牌、碰牌、杠牌、立直以及是否胡牌，任意一位玩家的吃碰杠都會改變摸牌的順序。

此外，麻將的牌型非常多，同時每個牌型還有不同的組合方式，還有許多復雜的規(guī)則和策略，需要建立一個大規(guī)模的知識庫。棋牌游戲一直以來都是 AI 技術的優(yōu)質試驗場，而“非完美信息” 游戲存在著大量的隱藏信息，給游戲帶來了更高的不確定性，對 AI 的博弈能力提出更高要求，所以麻將AI需要更強大的決策能力。

更大規(guī)模的“非完美信息博弈”

麻將相較于圍棋、象棋、橋牌以及德州撲克來說是一類更大規(guī)模的非完美信息博弈問題。對AI來說具有更大的挑戰(zhàn)性，如果說圍棋的可觀測狀態(tài)信息是10的172次方，隱藏的不確定信息為0，那么，麻將的可觀測狀態(tài)信息則是10的121次方，隱藏的不確定信息（信息集的平均數）則為10的48次方。

鑒于傳統(tǒng)的強化學習針對非完美信息游戲沒有收斂到最強策略的理論保證，而有理論保證的遺憾值最小化算法（表格型）計算復雜度太高。騰訊 AI Lab 的研究員提出了一種新型的策略優(yōu)化算法—ACH（actor critic hedge）采用了基于強化學習和遺憾值最小化的自我博弈技術，使得AI能從零開始自我學習和提高，最終收斂到一個最強的混合策略。同時基于“樂觀價值估計的思想”，提出了一種高效的“非完美搜索方法”，使深度強化學習結合非完美信息搜索成為可能。