此类博弈中,ai 每次只需要根据当前盘面,搜索计算各种情况下自己的胜率。为了提高搜索效率,一般需要对搜索过程中产生的“博弈树”进行广度和深度剪枝。就是我们平常下棋时常说的算多远和算多准。
“非完全信息类”博弈包括德州扑克、桥牌、麻将等游戏。以德州扑克为例:每个玩家有 2 张牌作为“底牌”,同时还有 5 张公共牌。玩家选择 5 张公共牌里的 3 张,与手里的 2 张底牌组合,最后以期得到最好的 5 张牌的组合。按照“card ranking”决定最后的胜者。
由于游戏中每个人无法看到对手手里的牌,这要求参与者具备更复杂的推理能力,不仅要看对手打了什么牌,还要猜测对手手里有什么牌,并根据对手行动暗示出的信息,来计算自己的最优出牌法。这给 ai 带来了更严峻的挑战。ai 不仅要学会根据不完全信息进行复杂决策,还要应付对手的虚张声势、故意示弱等招数。游戏的人数的也将改变 ai 的应对难度。
实验中使用的扑克游戏界面。图片来源:facebook
在所有双人游戏里,“表现过人”的 ai 都是通过近似纳什均衡实现的。在纳什均衡里,只要另一位玩家的策略保持不变,任何人都不能从改变策略中获益。虽然 ai 的策略只能保证比赛结果不比平局更差,但如果 ai 的对手犯了错误而无法维持均衡时,ai 将取得胜利。
在两人以上的比赛中,采取纳什均衡将是一种失败的策略。因此 pluribus 摒弃了理论上成功的保证,采取了一种新的能一直击败对手的策略。
人类做不到的策略
“进行六人游戏,而不是一对一,这需要 ai 对游戏策略进行根本改变,” pluribus 开发者
own 表示,“我们为 pluribus 的表现感到高兴,并相信它的一些比赛策略甚至可能改变职业选手的比赛方式。”
pluribus 的算法在其策略中创造了一些令人惊讶的特征。例如,大多数人类选手会避免“反主动下注(donk betting)”——它通常被视为一种没有战略意义的弱势举动。但 pluribus 比被它击败的职业选手更频繁地使用这一策略。
“pluribus 的主要优势在于它能运用混合策略,”职业选手 elias 表示,“这与人类试图做的事情是一样的。对于人类,这是执行问题——以完全随机的方式做到这一点并且持续这样做。大多数人都做不到。”
曾在扑克职业生涯里获得了近 200 万美元的收入的 gagliano 在与 pluribus 比赛后说:“有些策略是人类根本就不会去做的,尤其包括它的投注规模。”
pluribus 在具有统计意义的情况下取得了稳固的胜利令 gagliano 尤