百家乐官网 (中国)有限公司官网

澎湃Logo
下載客戶端

登錄

  • +1

AI打麻將出道!AI“絕藝”成新一代雀神

2023-07-14 18:07
來源:澎湃新聞·澎湃號·湃客
字號

麻將起源于中國,是國粹。雖然各地的麻將玩法各不相同,比如云貴川地區(qū)的缺一門打法;廣東麻將流行“雞平和”和“推倒胡”,東北麻將則一門都不能缺......但無論什么玩法都飽受大眾喜愛。

要論一個地道的四川人對麻將的喜愛,不能說有癮,畢竟“競技場上的事情,怎能說是癮呢?”

逢年過節(jié)不是在牌桌子上,就是在去打牌的路上。

上學“多動癥”,打牌“坐如鐘”,坐個通宵都是灑灑水。

“我真的不知道為什么打麻將會有癮,我天天打,也不見得有癮啊”

“人生最大憾事不過三缺一”

(無非就是以上所描述的此類程度罷了)

在四川要是有人罵你“你打麻將永遠三缺一”,大家都會覺得這人罵的是真毒啊!

但是,你或許不知道AI也能打麻將,要是人人都能和AI在牌桌子上一決高下,不僅“三缺一”魔咒不復存在,社恐麻將愛好者也或許能迎來福音,“我社恐,一缺三,來三個AI”(這不是幻想)。

鵝廠AI“絕藝”成新一代雀神

7月11日,騰訊最新消息,旗下棋牌類AI“絕藝”LuckyJ在知名日本麻將平臺“天鳳”上,刷新AI在麻將領域最好成績(達穩(wěn)定段位10.68段)

10.68段是什么概念?天鳳則按照1段—11段來進行排位,利用科學的段位和 Elo Rating 體系,根據參與的局數和不斷累積的積分,來判定段位。(越是和高水平牌手對局,獲勝后 Rate 增加越多,失敗后 Rate 減少越少: 越是和低水平牌手對局,獲勝后 Rate 增加越少,失敗后 Rate 減少越多。)最終段位和 Rate 值的穩(wěn)定值就代表了牌手的真實實力。

目前,在平臺上,7段以上3037人,約占百分之一,而能達到 10 段的只有 27 人(含AI),只占不到萬分之一。

(天鳳穩(wěn)定段位bootstrap的分布,絕藝LuckyJ顯著強于之前最強的兩個日本麻將AI(Suphx,NAGA)LuckyJ vs Suphx p value=0.02883;LuckyJ vs NAGA p value=3e-05)

絕藝LuckyJ不僅達到日本麻將天鳳十段,而且之前還在國標麻將線下邀請賽中戰(zhàn)勝了6位國標麻將職業(yè)選手。成為首個戰(zhàn)勝國標麻將頂尖職業(yè)選手的麻將AI。

騰訊AI進軍麻將

棋牌游戲AI其實早已經不是什么新鮮事了,繼象棋,跳棋,圍棋之后,AI麻將又一次進入大眾視野,但其實AI麻將早在2015年就有發(fā)跡。

2015年,東京大學開發(fā)的“爆打”,9 月,爆打達到天鳳麻雀“四段,12 月一度沖進天鳳七段,穩(wěn)定段位均6段左右。

2018年,Dwango 公司于開發(fā)的基于深度學習模型的“NAGA25”,天鳳穩(wěn)定段位均6.5左右。

2019年,微軟開發(fā)的Suphx于3月登陸天鳳,短短幾個月內,Suphx在該平臺上與人類選手展開了5000余場四人麻將對局,達到了十段,超越了99%人類玩家,這是世界上第一個達到天鳳10段水平的人工智能。

至于騰訊的AI“絕藝”,它的開發(fā)始于2016年,最早是從圍棋起步。那么問題來了,為什么這么長時間,騰訊AI才進軍麻將?

一個字——難。

首先,麻將是一個“不完美信息博弈”,共有 136 張牌,除了對手打出來的牌之外,對手的手牌、游戲的底牌、以及對手的牌型組合都是未知的,而圍棋、象棋雙方在每一次決策前后都能看到全局信息,是“完美信息博弈”。

其次,對戰(zhàn)過程中也涉及了大量的決策,麻將的隨機性很高,發(fā)牌的結果、玩家行為都是隨機的,除了正常的摸牌、打牌之外,還要決定是否吃牌、碰牌、杠牌、立直以及是否胡牌,任意一位玩家的吃碰杠都會改變摸牌的順序。

此外,麻將的牌型非常多,同時每個牌型還有不同的組合方式,還有許多復雜的規(guī)則和策略,需要建立一個大規(guī)模的知識庫。棋牌游戲一直以來都是 AI 技術的優(yōu)質試驗場,而“非完美信息” 游戲存在著大量的隱藏信息,給游戲帶來了更高的不確定性,對 AI 的博弈能力提出更高要求,所以麻將AI需要更強大的決策能力。

更大規(guī)模的“非完美信息博弈”

麻將相較于圍棋、象棋、橋牌以及德州撲克來說是一類更大規(guī)模的非完美信息博弈問題。對AI來說具有更大的挑戰(zhàn)性,如果說圍棋的可觀測狀態(tài)信息是10的172次方,隱藏的不確定信息為0,那么,麻將的可觀測狀態(tài)信息則是10的121次方,隱藏的不確定信息(信息集的平均數)則為10的48次方。

鑒于傳統(tǒng)的強化學習針對非完美信息游戲沒有收斂到最強策略的理論保證,而有理論保證的遺憾值最小化算法(表格型)計算復雜度太高。騰訊 AI Lab 的研究員提出了一種新型的策略優(yōu)化算法—ACH(actor critic hedge)采用了基于強化學習和遺憾值最小化的自我博弈技術,使得AI能從零開始自我學習和提高,最終收斂到一個最強的混合策略。同時基于“樂觀價值估計的思想”,提出了一種高效的“非完美搜索方法”,使深度強化學習結合非完美信息搜索成為可能。

騰訊稱,訓練麻將 AI,其實就是在訓練 AI 更好地去認識人類的世界。 最終讓 AI 解決真實世界的復雜問題。

鵝廠絕藝LuckyJ達日本麻將天鳳十段,還戰(zhàn)勝了國標麻將職業(yè)選手,是目前最強的麻將AI。到這里,不可否認AI已經在麻將領域戰(zhàn)勝了人類,但還是有不少網友不買賬,

不一定,AI不會沒事去杠開,更不會沒事七對子。我們玩的不是牌,是信仰

AI讀不懂兩口子使眼色的牌和女婿急著輸給丈母娘的心

如果人類牌手作弊,麻將 AI 則無法戰(zhàn)勝人類。

游戲作為生成式 AI 首要試驗田,這些或許還只是開端,想要讓AI在牌桌子上讀懂人類選手的心思,還有很長的路要走,但要是真和AI一起打麻將,輸贏可能就不再是人類牌手的執(zhí)念了(除非你是發(fā)哥)畢竟我們玩的真不是牌,是信仰。

但值得思考的是,圍棋、麻將之后,下一個會是誰?

原標題:《AI打麻將出道!鵝廠AI“絕藝”成新一代雀神》

閱讀原文

    本文為澎湃號作者或機構在澎湃新聞上傳并發(fā)布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯(lián)網新聞信息服務許可證:31120170006

            增值電信業(yè)務經營許可證:滬B2-2017116

            ? 2014-2024 上海東方報業(yè)有限公司

            反饋
            百家乐官网美女视频| 东方太阳城三期琴湖湾| 太子百家乐娱乐城| 博彩乐百家乐官网平台| 百家乐开户优惠多的平台是哪家 | sz新全讯网网址112| 百家乐官网出租平台| 百家乐实战技术| 久胜线上娱乐| 百家乐虚拟视频| 百家乐官网21点游戏| 百家乐园太阳| 属猪的做生意门朝向| 百家乐官网游戏策略| 足彩大赢家| 百家乐网站赌博| 缅甸百家乐官网网络赌博解谜| 德州扑克计算器| 百家乐信誉博彩公司| 太阳城百家乐官网公司| 娱乐城送钱| 百家乐AG| 百家乐官网java| 六合彩网页| 一筒百家乐的玩法技巧和规则| 百家乐官网衬衣| 百家乐官网投注心态| 威尼斯人娱乐城代理开户| 黄金城百家乐官网下载| 葡京百家乐官网注码 | 百家乐博彩通| 真人百家乐官网888| 电投百家乐网站| 郑州百家乐官网的玩法技巧和规则 | 百家乐官网追号工具| 百家乐官网5式直缆打法| 大发888注册就送58| 百家乐怎样玩的| 百家乐玩法有技巧| 百家乐官网伴侣破解版| 云鼎娱乐城信誉|