騰訊AI Lab「絕藝」LuckyJ登頂國際麻將平台

7 月 11 日,騰訊 AI Lab 宣佈棋牌類 AI ‘絕藝’ LuckyJ 在國際知名麻將平台‘天鳳’上達到十段水平,刷新了 AI 在麻將領域的最好成績,體現了在非完美信息博弈遊戲中的優秀決策水平,進一步提升 AI 解決現實世界問題的能力。

麻將對戰中,因為無法看到對手的手牌,加上還有大量未揭開的牌,存在大量的隱藏信息,是典型的非完美信息博弈,涉及大量的決策點。同樣的,現實世界中也充滿了需要在非完美信息狀態下做決策的場景,比如金融交易、自動駕駛、交通物流、拍賣系統等,因而,在麻將對戰中訓練的 AI,在這類場景中有著巨大的應用前景。

‘天鳳’平台創建於 2006 年,擁有體系化的競技規則和專業段位規則,受到職業麻將界的廣泛認可。截至目前,天鳳平台活躍人數 23.8 萬,而能達到十段的僅 27 人(含 AI),不到萬分之一。

相比其他麻將 AI 和人類玩家,‘絕藝 LuckyJ’不僅穩定段位更高,從零開始達到十段所需的對戰局數也明顯更少,僅需要 1321 局。這體現了騰訊 AI Lab 在決策 AI 方向上世界領先的技術實力。

相比其他麻將 AI 和人類玩家,絕藝 LuckyJ 穩定段位更高,從零開始達到十段所需的對戰局數也明顯少,僅需要 1321 局

天鳳穩定段位 bootstrap 的分佈,絕藝 LuckyJ 顯著強於之前最強的兩個日本麻將 AI(Suphx,NAGA)。LuckyJ vs Suphx  p value=0.02883;LuckyJ vs NAGA   p value=3e-05

值得一提的是,此前‘絕藝 LuckyJ’在國標麻將中也有亮眼表現,在線下職業選手邀請賽中,成功擊敗六位職業選手,成為首個戰勝國標麻將頂尖職業選手的麻將 AI。

對戰數據顯示,在近 2000 場對局中,絕藝 LuckyJ 的平均贏番達到 1.76 番。番為國標麻將的結算單位,數值越大,說明贏得越多。

非完美信息博弈

麻將AI需要更強大的決策能力

過去半個世紀以來,遊戲在人工智能的技術演變中一直都扮演了重要的角色,其多樣化的情境為 AI 的訓練和學習提供了便利的研究場景。從國際象棋到圍棋,再到德州撲克、王者榮耀等遊戲,AI 不斷在遊戲場景中拓展能力邊界。騰訊 AI Lab 自研的‘絕藝’、‘絕悟’兩款決策 AI,借助棋牌、MOBA 等多類遊戲場景,探索用 AI 解決現實中的複雜問題。

不同的遊戲對 AI 的能力要求也不一樣,競技類遊戲 AI 項目,體現的是 AI 的博弈能力,即通過所掌握的信息來形成決策,進而戰勝對手的智能。簡單來看,這種博弈能力又可以分為完美信息博弈和非完美信息博弈。

圍棋、象棋等遊戲中,參與競技的雙方的每次決策,都可以看到全局的信息,這種情況就是完美信息博弈。AI 可以通過強大的計算力來枚舉各種可能性,從而找到致勝策略。而麻將等遊戲中,因為無法看到對手的手牌,加上還有大量未揭開的牌,存在大量的隱藏信息,是典型的非完美信息博弈。

麻將一共有 136 張牌,每一位玩家只能看到很少的牌,包括自己的 13 張手牌和所有人打出來的牌。牌局開始時,另外三位玩家的手牌以及牆牌都是看不到的,面對如此多的隱藏未知信息,麻將玩家的每一個決策都需要兼顧進攻和防守。

此外,在麻將的對戰中,除了正常的摸牌、打牌之外,還要決定是否吃牌、碰牌、杠牌、立直以及是否胡牌。任意一位玩家的吃碰杠都會改變摸牌的順序,這一過程也涉及了大量的決策。

如上圖所示,橫坐標信息集數目表示可觀察狀態的多少,即牌面的信息。縱坐標信息集平均大小表示隱藏信息多少,即其他所有對手的手牌的可能性。麻將對戰中所包含的隱藏信息要遠遠大於德州撲克和圍棋。

騰訊 AI Lab 在遊戲環境中推進決策 AI 的能力,最終是希望AI能從虛擬走向現實,解決真實世界的複雜問題,在現實世界中也充滿了需要在非完美信息狀態下做決策的場景,比如金融交易、自動駕駛、交通物流、拍賣系統等。

算法創新,拓展決策AI能力邊界

過去曾戰勝人類的棋牌類 AI,比如圍棋和撲克,包含兩大核心技術要素——離線訓練和在線搜索。離線訓練的目的在於得到一個固定的較優的遊戲策略(什麼狀態下做什麼動作),在線搜索的目的在於根據當前實際的遊戲狀態,通過往前搜索很多步的方式來更精確地評價當前遊戲狀態下各個動作的得失,從而改善離線訓練的固定遊戲策略。例如,圍棋 AI AlphaGo 採用的就是強化學習+蒙地卡羅樹搜索;德州撲克 AI ‘冷撲大師’ 採用的就是遺憾值最小化算法 +安全子博弈搜索(一種針對非完美信息遊戲搜索算法)。值得一提的是,由於德州撲克是非完美信息遊戲,訓練 AlphaGo 採用的算法框架完全不適用,因為蒙地卡羅樹搜索要求知道對手的當前狀態,而這在撲克裡面是不成立的,因為對手的手牌不可見。

麻將是一類更大規模的非完美信息博弈問題。鑒於傳統的強化學習針對非完美信息遊戲沒有收斂到最強策略的理論保證,而有理論保證的遺憾值最小化算法(表格型)計算複雜度太高。騰訊 AI Lab 的研究員提出了一種新型的策略優化算法,該算法具備傳統強化學習可擴展性好的優點,又部分繼承了遺憾值最小化算法的一些理論性質。相比傳統的強化學習方法,該策略優化算法在非完美信息遊戲中訓練得到的策略更平衡(攻守兼備),也更魯棒。結合深度學習,在不使用任何人類數據的情況下,研究人員採用該策略優化算法訓練得到了絕藝 LuckyJ 的離線策略。

另一方面,目前的 AI 在圍棋和德州撲克上的成功很大程度依賴於搜索算法,因為搜索可以最大程度地發揮計算機的計算優勢。但是由於麻將巨大的隱藏信息存在,環境不確定性較大,傳統非完美信息搜索算法在麻將面前很難發揮同樣的功效。

具體來說,過去一系列非完美信息搜索算法的算法複雜度是隱藏信息數量的平方,這對於德州撲克來說可以承受(因為對手只有 2 張不可見手牌),但是對於有海量隱藏信息的麻將來說太高。

基於以上考慮,研究員引入了一種高效的非完美信息搜索技術。該技術有兩大特徵,一是對搜索樹做了高效的變換和剪枝,避免了 AI 大量的無效搜索,極大提高了搜索效率;另一方面,區別於過去搜索與離線策略的結合方式,騰訊 AI Lab 將搜索返回的結果作為一種‘特徵’輸入到自研的策略神經網絡。這種方式的巧妙之處在於,它既能同時在離線訓練和在線決策上提供有用的信息,又不會對 AI 的效果上限造成影響。這種搜索方式解決了非完美信息搜索複雜度高難以應用於大規模博弈的問題,使深度強化學習高效結合非完美信息搜索成為可能。

應用展望:解決真實世界問題,走向通用人工智能

騰訊 AI Lab 從 2017 年開始投入遊戲 AI 研究,在決策 AI 及生成式 AI 兩大方向取得多項領先成果。‘絕藝 LuckyJ’ 在專業領域獲得的成果,體現了騰訊 AI Lab 的深度強化學習智能體通過步步進化,正逐漸向解決更複雜更多樣化的問題遷移,每一次進展,都讓 AI 朝解決真實世界問題的目標更近一步。

‘AI+遊戲’是攻克 AI 終極研究難題——通用人工智能(AGI)的關鍵應用場景。在模擬真實世界的虛擬遊戲中,AI 學會快速分析、決策與行動,就能執行更困難複雜的任務併發揮更大作用。由於現實生活中存在大量的隱藏信息和不確定的因素,對非完美信息遊戲的研究,將有助於我們開發出適用於真實生活場景的更加‘智能’的 AI 系統。

附:專家點評

這是麻將 AI 的又一次突破,絕藝 LuckyJ 進一步拓寬了麻將 AI 的能力邊界。令人感到興奮的是,在特上房對戰1000局以上的所有玩家中,絕藝 Lucky 的穩定段位排名第一。

—— 角田真吾,C-EGG(天鳳平台開發公司)CEO。

‘完全沒有漏洞’這是絕藝 LuckyJ 給我的第一印象。它有兩個劃時代的特徵:

● 事故率低:人類特別喜歡打掉字牌,而絕藝 LuckyJ 在手氣不好時會保留字牌等安全牌,在手氣好時會直線做牌。到了中盤,它選擇攻擊還是防守會逐漸清晰,7 圈以後很少中途放銃,給人的印像是在每張牌上看到‘攻擊、防守的參數’。

● 即使是複雜的分支也能正確地決斷:絕藝 LuckyJ 熟練地運用了會留下各種和牌的可能性並根據實際情況尋找最高牌效的‘6 block’打法,並將其做到極致。我認為人類有必要從絕藝 LuckyJ 的打法中學習高水平的分支選擇。

將不幸運最小化,用技術取得勝利。今天這個時候,我覺得這樣一個實力超群的 AI 命名為‘LuckyJ’,也許是對玩家最大限度的謙虛吧。

—— yousei(天鳳ID:黒貓@ぺろぺろ☆),日本麻將戰術研究家。

‘麻將AI?!不就是和普通的單機麻將一樣嗎,隨便菜。’這是我對麻將AI 的第一印象。但是隨著大量的對局,AI 的不斷更新,從一開始菜 AI,到中間的僵持,最後面對 AI 出現的無力感,不能不感歎 AI 的強大。

在絕藝 LuckyJ 和我們正式的 1800 多局對戰中,AI 的勝率達到了 27%。更重要的是,AI 點炮率只有 20%。我的勝率是 27%,跟絕藝  LuckyJ 差不多,但是我的點炮率是 26%,比它足足高了 6 個百分點,完全被 AI 碾壓。在數據中可以看出,絕藝 LuckyJ 在攻防兩端都表現得都十分出色,充分體現了計算上的優勢,讓我刮目相看,祝賀騰訊在麻將 AI 上取得的成績!

—— 成海華,國標麻將職業選手。最好成績:‘雀友杯’2014年世界麻將大師邀請賽冠軍。騰訊麻將麻將錦標賽年度總決賽(2018,2019)冠軍。

經過數月與絕藝 LuckyJ 的對抗測試,通過分析 AI 對局,AI 無論在進攻還是防守都讓我印象深刻。在進攻端,絕藝 LuckyJ 可以呈現出快速成型、保持變化、根據場況做出最佳選擇;在防守端,從初期的控制節奏和方向,到後期可以精準調整、果斷變張,可謂做到了違害就利、大破大立。我們通常所謂的妙手、靈光一現,甚至基於經驗和感覺做出的置之死地而後生的選擇,對於 AI 來說可能算是常規操作。

—— 楊磊,國標麻將職業選手,標榜麻將運動協會會長,最好成績:2007年中國牌王賽牌王,2007年王中王比賽冠軍。

在與絕藝 LuckyJ 的上千戰當中,我一直驚歎於它強大的牌效和精準的讀牌。我們知道圍棋和麻將運動的不同點在於對局信息的不確定性。即使是這樣AI在國標麻將仍然在攻防兩端都做到了極致。同時AI最近在日麻上也達到了天鳳十段,不得不讓人驚歎:麻將運動似乎也被AI攻克了。 

—— 黃林,國標及日本麻將職業選手。最好成績:2018 中日麻將對抗賽團隊冠軍,2017北京麻將聯賽冠軍,2016世界麻將運動會隊式賽亞軍。