微軟麻將AI來了，第一波人類高手已經被打爆

36氪

2019年8月30日上午9:44

今年6月，由微軟亞洲研究院開發的麻將AI系統Suphx成為首個在國際專業麻將平台“天鳳”上榮升十段的AI系統，這是目前AI系統在麻將領域取得的最好成績，其實力超越該平台公開房間頂級人類選手的平均水平。

今天，微軟首次對外正式披露了該項目的詳細進展，這個項目由微軟亞洲研究院副院長劉鐵岩帶隊的四人團隊組成，用時一年，成績顯著。

大家可能有很多疑問，麻將AI和我們熟知的圍棋AI有哪些不同？都是人工智能那誰更厲害？麻將AI又能做什麼？網易智能同微軟團隊進行了深入的交流。

01 他們為什麼選擇麻將

實際上，打造麻將AI要比打造已經壓制人類的谷歌圍棋AI難度更大。因為如果是圍棋，棋局信息是公開的，但對於麻將而言，有太多的隱藏信息，並且有更多的隨機性。

換句話講，麻將這類非完美信息遊戲，與圍棋、象棋等完美信息遊戲相比，對人工智能來說具有更大的挑戰性，如果說圍棋的可觀測狀態信息是10的172次方，隱藏的不確定信息為0，那麼，麻將的可觀測狀態信息則是10的121次方，可怕的是隱藏的不確定信息達到了10的48次方。

劉鐵岩向網易智能表示，我們生活的世界是由許許多多的隨機事件構成的，而且在很多情況下，無法知曉的信息也許遠多於我們能夠掌握的信息，而我們仍然要在這樣信息不完全的條件下做出大大小小的決策。

“AI在非完美信息遊戲中的突破，將有助於協助人類應對更多高度複雜的現實問題，尤其是在智能交通、金融投資等容易受到隨機突發狀況影響的場景中“。他談到。

02 AI如何在天鳳“打怪升級”

據介紹，由於長期在民間廣為流傳，不同地區的麻將玩法非常多樣，缺乏統一的規則標準和評價體系。日本在線麻將竟技平台“天鳳”，因其完善的竟技規則、專業的段位體系，成為專業麻將平台，受到職業麻將界的廣泛承認。

劉鐵岩介紹，天鳳平台為高水平麻將玩家提供兩種竟技房間：“特上房”對四段以上所有玩家免費開放，允許AI參與遊戲，目前所有玩家在此房間的最高段位是十段；

“鳳凰房”僅對七段以上的人類付費玩家開放，目前不允許AI參與遊戲，在該房間能夠達到的最高段位是十一段，稱為“天鳳位”。自天鳳平台在2006年推出以來，全平台達到四人麻將天鳳位的麻將高手僅有13位[JL1]，曾經達到過十段的選手約有180位，而現役十段的人類選手也僅有十幾位。

而微軟亞洲研究院開發的麻將AI系統Suphx於3月登陸天鳳平台，在AI能夠參與的公開竟技房“特上房”，Suphx與人類選手展開了5000余場四人麻將對局，在這5000余場對局中，Suphx的穩定段位超過了8.7。

劉鐵岩透露，他們也在和天鳳平台探討，以怎樣的方式讓Suphx進入還不允許AI參與的鳳凰房。

03 麻將AI到底難在哪？

與象棋、圍棋、德州撲克等棋牌類遊戲相比，麻將具有更複雜的隱藏信息和更高的難度。

總體而言，微軟亞洲研究院將麻將AI面臨的挑戰總結為以下三點：

首先，巨大的狀態空間：與只有52張牌的德州撲克相比，136張麻將牌的排列組合可能性更多。同時，麻將中同一個玩家兩次出牌之間，夾雜了其他三個玩家的出牌和自己摸的底牌，可能出現的不同局面數目非常巨大。

值得特別指出的是，在麻將中，4位玩家的出牌順序是不固定的，任意一位玩家的“吃碰杠”都可能使出牌順序突然改變，導致遊戲樹不規則、且動態變化。這些特點使麻將很難直接利用AlphaGo等棋盤遊戲AI常用的蒙特卡洛樹搜索算法。

其次，非完美信息博弈：象棋和圍棋屬於完美信息遊戲，玩家可以看到棋局中對方玩家的落子。麻將則存在大量的隱藏信息。具體而言，麻將中每個玩家可以有13張手牌，另外還有84張底牌。對於一個玩家而言，他只知道自己手裡的13張牌和之前已經打出來的牌，卻無法知道別人的手牌和沒有翻出來的底牌，所以最多可以有超過120張未知的牌[JL2]。

這麼多的未知信息使得麻將的難度非常高。一方面，由於隨機性太大，玩家即便在出牌決策中估計對方玩家手牌、底牌等不可見的牌，也無法避免不確定性對於遊戲走向的影響。

這將對AI模型的訓練帶來很大挑戰：AI模型很難發現已知牌面信息和最優打法之間的邏輯鏈路。另一方面，豐富的隱藏信息導致遊戲樹的寬度非常大，對樹搜索算法的可行性提出了進一步的挑戰。

其三，複雜的獎勵機制：日本麻將的規則是“無役不能和牌”，多樣的特殊牌面構成了複雜的“役種”和番數計算規則。一輪遊戲共包含8局，單局得分與役種和番數相關，最後根據8局的得分總和進行排名，來形成最終影響段位的點數獎懲。

因此有時麻將高手會策略性輸牌，例如，在第8輪時如果A玩家已經大比分領先第二名，他可能會故意放炮給排名第四的玩家，來防止總分被排名第二的玩家反超，保證自己在最終結算時獲得最大的點數獎勵。這為構建高超的麻將AI策略帶來了額外的挑戰，AI需要審時度勢，把握進攻與防守的時機。

04 三大技術見招拆招

“面對麻將遊戲的巨大挑戰，AI僅靠強大的計算力無法從根本上解決問題，而需要更強的直覺、預測、推理和模糊決策能力，“微軟亞洲研究院副院長、機器學習領域負責人劉鐵岩博士表示。他們的主要技術應用可以概況為先知教練、全盤預測、自適應決策。

據瞭解，微軟亞洲研究院針對麻將的特點與難點嘗試了一系列基於強化學習的新算法，比如，為了應對巨大的狀態空間，研究團隊引入了全新的機制對探索過程的多樣性進行動態調控，讓Suphx可以比傳統算法更加充分地試探牌局狀態的不同可能；

另一方面，一旦某一輪的底牌給定，其狀態子空間會大幅縮小；所以研究團隊讓Suphx在推理階段根據本輪的牌局來動態調整策略，對縮小了的狀態子空間進行更有針對性的探索，從而更好地根據本輪牌局的演進做出自適應的決策。

其次，針對非完美信息博弈的挑戰，Suphx嘗試了先知教練技術來提升強化學習的效果。

其基本思想是在自我博弈的訓練階段利用不可見的一些隱藏信息來引導AI模型的訓練方向，使其學習路徑更加清晰、更加接近完美信息意義下的最優路徑，從而倒逼AI模型更加深入地理解可見信息，從中找到有效的決策依據。

另外，對於麻將複雜的牌面表達和計分機制，研究團隊還利用全盤預測技術搭建起每輪比賽和8輪過後的終盤結果之間的橋樑。可以讓AI理解每輪比賽對終盤的不同貢獻，從而將終盤的獎勵信號合理地分配回每一輪比賽之中，以便對自我博弈的過程進行更加直接而有效的指導，並使得Suphx可以學會一些具有大局觀的高級技巧。

本文經授權發布，不代表36氪立場。

如若轉載請註明出處。來源出處：36氪

新聞專題
AI PC世代來臨！各家筆電新品點燃戰火

中天新聞網·11 小時前
6秒繳械！餐廳座位上驚見「人體交疊」直接來　當旁人是空氣
「性致」來了也不能亂選地方！近日有對青年男女，情到濃時想來一下，卻直接在公共場所「扭動」，還選在餐廳座位上，「6秒完事」的超扯舉動也讓民眾通通看傻眼。
Reactions242
TVBS新聞網·19 小時前
全台「一片紫白」大雨橫掃！連6天下雨　這2區雨最猛
今（21）日好天氣，可得好好把握了！因明（22）週一上班、上課天氣更慘，鋒面襲來大變天、雨區擴大，週二（23）起「全台下雨」，而且一連7天，這2區雨最大，可能致災！另外，最新歐洲模式總降雨分布圖曝光，只見「一片紫白」！
Reactions25
TVBS新聞網·1 天前
韓國A咖也買不下手！　朴信惠逛士林夜市驚呼「這東西」太貴了
韓國演員朴信惠今（20）晚在台北舉行出道20週年年紀念粉絲見面會「2024 Park Shin Hye Asia Tour in TAIPEI〈Memory of Angel〉」，她以一襲粉色碎花洋裝亮相，宛如精靈女神般開場。時隔7年再次來到台灣，朴信惠特地選唱個人第一首單曲〈胳膊枕〉，來表達好久不見的思念之情。粉絲特地以花朵氣球應援，朴信惠在台上看到應援表示因為太感動差點哭出來，覺得真的太驚喜也很幸福。
Reactions190
三立新聞網 setn.com·16 小時前
被問「藍營大咖是誰」　鄭弘儀鬆口了！7字私訊曝光
記者鍾智凱／綜合報導週刊近日報導，藍營某政治人物對妻子有不良行為，引發議論，對此鄭弘儀日前在節目上討論此議題，也坦言好多人私下傳訊詢問他，這到底在講誰？對此他在節目
Reactions307
三立新聞網 setn.com·1 天前
最強鋒面大爆發？鄭明典秀一圖：下週雨勢「可能要打點折」
生活中心／鄭餘蓉報導下週預計有2道鋒面陸續影響台灣，前氣象局長鄭明典今（20）日指出「中南半島的午後對流不發展，台灣這邊的強對流也不容易發展。預報中提到的下周『雨勢』，可能
Reactions27
今日新聞NOWnews·16 小時前
美通過950億軍援！以烏反應曝　俄羅斯急了
[NOWnews今日新聞]美國聯邦眾議院20日通過總價約950億美元(約3兆台幣)的立法計畫，將向以色列、烏克蘭和台灣提供安全與軍事援助。以色列與烏克蘭紛紛表示感謝，烏克蘭總統澤倫斯基更公開表示「謝謝...
Reactions276
三立新聞網 setn.com·2 天前
今年最強鋒面襲！這天「大爆發」挾雷雨　專家：至少持續6天
生活中心／彭淇昀報導今、明2天（20、21日）環境轉為西南風，水氣偏少，各地為多雲到晴，僅午後宜蘭地區及各地山區有局部短暫陣雨，不過下週一（22日）北方鋒面再度建立
Reactions87
三立新聞網 setn.com·21 小時前
2挾雨鋒面要來了！全台「雷雨狂轟6天」氣象署示警了
生活中心／張家寧報導氣象署表示，今（21）日各地仍為多雲到晴，午後東北部地區有局部短暫陣雨，其他山區也有零星短暫陣雨；白天偏熱紫外線強，各地高溫可達30到35度，雲林以南近
Reactions14
TSNA·7 小時前
全中運》國一神童林芷妍50仰摘金未能再破紀錄　自責落淚
113年全國中等學校運動會游泳今天結束第2天賽程，昨天打破女子100公尺仰式全國紀錄、新北市新泰高中一年級神童林芷妍，今晚50公尺仰式以29秒46摘下個人第2金，未能打破大會29秒38紀錄，結束後她也難過落淚。
Reactions11
FTNN新聞網·15 小時前
再被翻早餐店照片質疑未開發票　徐巧芯嗆「都記下來了，不會寬宏大量」
[FTNN新聞網]記者孫偉倫／台北報導國民黨立委徐巧芯在大姑家涉犯詐欺洗錢案後，又被質疑經常穿戴各種名牌精品，與收入不符。徐巧芯強調自家父母過去經營早餐...
Reactions743
三立新聞網 setn.com·2 小時前
花蓮深夜又在地牛翻身！「極淺層地震」規模5.3　最大震度4級
生活中心／梁雪婷報導根據中央氣象署地震觀測網即時地震資料，22日凌晨12時35分，花蓮縣政府北北東方24.1公里處發生規模5.3地震，地震深度為23.1公里。災防告警系統預估將發送
Reactions6
三立新聞網 setn.com·2 天前
李多慧搭機回韓畫面曝！濾鏡太強「真面目流出」網嚇傻：認不出！
娛樂中心／賴佳怡報導南韓「啦啦隊女神」李多慧今年（2024）從樂天桃猿啦啦隊轉隊到味全龍啦啦隊「小龍女」擔任隊長的職位，3月底發行了第一首單曲，這個月（4）初還舉辦
Reactions42
三立新聞網 setn.com·2 天前
本來不是金智媛！《淚之女王》「原訂女主角是她」　網驚：無法想像
記者楊雅芸／台北報導由金秀賢和金智媛主演的韓劇《淚之女王》，從播出後就好評不斷，最新播出的12集更是拿下23.072%收視率，打敗《愛的迫降》以及《孤單又燦爛的神&mdas
Reactions18
今日新聞NOWnews·12 小時前
徐巧芯、賴清德勞力士爭議　名嘴：民主失敗
[NOWnews今日新聞]國民黨立委徐巧芯大姑與其丈夫涉入詐騙洗錢案，引發外界對徐巧芯名牌行頭關注，遭指價值超過20萬元的勞力士未申報，而藍營也反擊賴清德過去配戴勞力士也未申報，政治評論員黃智賢今（2...
Reactions104
今日新聞NOWnews·4 小時前
啦啦隊嗨跳「炸裂汪小菲」！尷尬狂盯未婚妻
[NOWnews今日新聞]汪小菲前幾天在台北信義街頭大鬧前妻大S（徐熙媛）的豪宅後，又開直播辯稱是家務事壓力太大，導致情緒失控，「那天之後直接崩了4天，那4天是失憶的...忘了我做什麼了！」再次引發關...
Reactions9
CTWANT·6 小時前
美過林青霞！混血巨星一生保守「竟得愛滋病」41歲殞命　生前1句話惹淚崩
[周刊王CTWANT] 據了解，周天娜生於美國俄亥俄州，原名是Bettina Louise Lutz，父親Walter E. Lutz是德裔美國人，母親Mona Lutz是日本人，姊姊Adelle Lutz也是一名演員；15歲時，周天娜已出落得亭亭玉立，加上身材高挑，很快就被相中成為模特兒，且短短2年後就成了日本潮模始祖，拍攝過無數...
Reactions20
民視·4 小時前
楊謹華登《浪姐5》下台秒變蘇媽媽？現蹤機場46歲素顏被拍
娛樂中心／李汶臻報導女星楊謹華近日與謝金燕、郭書瑤等台灣女星登上中國實境秀《乘風2024》（浪姐5），跨界大秀歌喉及舞蹈，讓觀眾們眼前一亮，粉絲更是大讚她是「被演戲耽誤的歌手」；近日有網友接連在桃園機場和中國廈門機場捕獲楊謹華的身影，46歲的真實模樣全被0濾鏡鏡頭捕捉下來，網友還興奮大喊：「偶遇蘇媽媽」。
Reactions11
三立新聞網 setn.com·13 小時前
獨家／台中遊藝場掃射11槍　白河角頭「囂張直播」秀手榴彈！下場曝光
社會中心／台中報導台中市青海南街的「菲力國王」電子遊藝場2022年間遭控詐賭，詹姓槍手朝店對空鳴11槍，隨後開車南下，前往台南白河分局指名特定刑警投案。警方進一步追查發現幕後藏鏡人
Reactions33
TVBS新聞網·8 小時前
暴雨又要肆虐！一圖懂整週雨區3變化　「全台濕透」時間曝
今（21）日台灣持續受到暖平流的影響，氣溫高居不下，多地高溫超過30度，令人感受到夏日的酷熱，氣象署也發布高溫排行，台南玉井奪冠、高雄甲仙亞軍，台南曾文排行第三，而台中、嘉義及高雄等地更是突破歷史高溫紀錄，酷熱程度直逼極限。氣象粉專「天氣風險」提醒，下週鋒面接近台灣，天氣持續不穩定，可能有短時較大雨勢發生，須留意天氣的變化。
Reactions6
中天新聞網·1 天前
鄭華娟在德國的追思會曝光淚水與歡笑交織她說過的21個字逼哭50萬人
鄭華娟過世，消息震撼德國與華人世界。2024年4月2日與18日，分別在德國與陽明山舉行追思會。鄭華娟的哥哥鄭華偉與她口中的老公-老德先生，都在場分享鄭華娟生前的點點滴滴，有不捨、歡笑與更多的思念與淚水。寫歌之外，鄭華娟更是暢銷書作家，曾經說過：「不管你如何度過這一天，請相信，我是最思念你的人。」21個字，逼哭50萬人。
Reactions14

相關內容

其他人也在看