第571章AI“赌神”完胜人类扑克冠军以一敌五实现多人博弈里程碑

作者:蔡泽禹 加入书签推荐本书

其印象深刻:“机器人不只是和一些职业选手对垒。它已经成为世界上最好的选手之一。”

有限前瞻搜索算法

进一步剖析 pluribus 会了解到,它的各种策略是基于一种新的有限前瞻算法,这正是它能够打败多个人类扑克玩家的原因。这是完全信息博弈的标准方法,但在非完全信息博弈中却极具挑战性。

pluribus 首先通过和 6 个它自己的副本玩的场景来计算一个“蓝图”策略,这让它能在第一轮下注。之后,pluribus 将在更细粒度的博弈抽象中更详细地搜索可能的变动。这时,它会展望未来的几步,由于计算量的限制,它并不会推演到博弈的最后。

具体来说,在子博弈的叶子上,ai 考虑了每个对手和自己可能会在剩下的比赛中采用的五个可能的延续策略。可能的延续策略的数量很多,但研究人员发现他们的算法只需要考虑每个叶子的每个选手的五个延续策略来计算强大、平衡的整体策略。

pluribus 也试图变得不可预测。例如,如果人工智能拥有最好的一手牌,那么投注就有意义,但是如果人工智能只有在拥有最好的一手牌时才投注,那么对手就会很快赶上来。因此,pluribus 计算出各种可能,并在所有可能性中保持平衡的策略。

尽管德州扑克是一种极其复杂的游戏,但 pluribus 有效地利用了计算。最近在游戏中取得里程碑式进展的 ai 使用了大量服务器和 gpu;双人扑克 ai li

atus 需要大约 1500 万个小时来开发策略,在实时游戏中使用了 1400 个 cpu 核心小时。而 pluribus 仅使用了 12,400 个核心小时就计算出了蓝图策略,并且在现场游戏中仅使用了 28 个核心小时。

面对 ai 技术的不断突破,很多人会顾虑 ai 发展对人类的威胁,然而把握技术应用大门的钥匙仍掌握在人类自己手中,正如爱因斯坦所说:“科学,究竟是给人带来幸福还是带来灾难,全取决于人自己。”

上一章 返回目录 下一章