扑克机器人让人类见识到游戏 AI 的未来

编者按：如果 AI 不再死板，而是开始学会模仿人类的狡诈行为，比如「虚张声势」或「声东击西」，那么把这种程序应用到电子游戏里会产生什么样的效果呢？对未来的 AI 技术又将有什么样的推进作用呢？

无论是玩「大表哥 2」的迷你游戏还是牌类游戏，爱打牌的玩家经常会被游戏 AI 惹恼，因为他们深暗的那些「牌桌箴言」，比如抓牌技巧和如何弃牌等，用在 AI 身上都是徒劳无功。

有些机器人不论用什么样的牌都能唬住它，有的则从不上钩；有些机器人，你稍微激它一下，它就弃牌了，有的则比较倔强，哪怕手牌比你的还烂，依然坚持加注。所以玩家不仅看不到电脑对手的牌面，对它们的行为模式也是两眼一抹黑。

这周，Facebook 和卡耐基梅隆大学的那些攻坚能手们发布的一篇研究论文引起了我的注意。他们的 Pluribus 扑克 AI 非比寻常，因为工程师们再一次模拟出了一种被视为人类本性的行为，那就是「虚张声势」。

「其实模拟人性这一点在许多 AI 技术上都得以实现了。」Facebook 研究科学家暨该机器人的联合创始人诺姆·布朗在周四接受我的采访时说道，「许多事我们都假定只有人类才能做到，然而 AI也是可以实现的。」

「50 年代，人们认为国际象棋只有人能对局，电脑做不到。」布朗继续说道，「后来人们又觉得 AI 实现不了宗师段位的围棋水平。如今，大家又觉得 AI 做不到虚张声势。但我们认为，AI 甚至比人类更擅长虚张声势。」

六名选手正在一局游戏中测试 Pluribus 扑克 AI

布朗的这类科学研究项目最后取得成功的并不多，科学家们以前也曾用过扑克来研究 AI 的行为和学习能力。2015 年，阿尔伯塔大学的科学家们研制出一种在双人德州扑克上几乎无人能敌的扑克机器人。当然，这些机器人没少被用在电子游戏里，尤其是本世纪初扑克热潮正高的时候。

我所熟知的 AI 通常来说分析能力都不强，与其说智能，不如说它们是特定情况下触发某种行为，比如判断总胜率高低或是否先下小盲注等。多年以来，这些扑克模拟器都能让玩家自己选择它们的行为是激进还是保守，主要功能无非就是训练牌技，让人不论面对哪类对手都能保持高水平。

「虚张声势」这一牌桌技艺之所以被称为「人类的艺术」，是因为人类能主动表现出他们对手中的牌是否有信心。Coresoft 曾为 PS2 开发的《世界扑克锦标赛》也尝试模拟这种行为，并把这项技艺变成一种实用的 AI 策略。只可惜，玩家常常碰上各种奇葩状况，比如某回合的对手持续跟注，莫名其妙地加注，或明明拿着一手臭牌，还一副手握一对 J 的迷之自信等。这样玩游戏一点都不尽兴，大多玩家很快便没了耐心。

Pluribus 的不同之处在于，AI 会去试探虚张声势的效果（比如拿一手烂牌下注），而非单纯让对手相信自己拿了一手好牌。布朗表示:「机器人不会将这种行为看作是欺骗或说谎，而会把它客观分析为『能带来更多收益』的行为。」

如何定义「虚张声势」？究竟是行为更重要，还是结果更重要？

Pluribus 是布朗和卡耐基梅隆大学的同事图奥马斯·桑德赫尔一起捣鼓出来的，它有点像一个会计算结果，且会事先做出假设的棋类 AI。布朗和桑德赫尔打造的这款机器人只会提前两手或三手牌来考虑对策。这种偏向即时的算法让其他五位人类专业牌手毫无头绪，难以预判其行为，并屡战屡败。

这让我们不禁深思，究竟什么是「虚张声势」？是行为更重要，还是结果更重要？

不过，布朗并不打算就此陈述自己的观点。他的心思全在研究扑克上， 15 年前他还在罗格斯大学念本科的时候就开始了。「只要能找到这个游戏的数学逻辑，并熟练掌握这一完美的策略，你就能战无不胜。」布朗入神地描绘着自己的想法。

布朗从某些方面向大家证实了扑克游戏中稳赚不赔的策略（在测试的牌局里，该 AI 的赚钱速度快至每小时 1000 美元），但人类是不可能有如此快的计算能力的。

「这就是 AI 的有趣之处，它并不是在适应对手。」布朗说，「它有自己的策略，而且这个策略是设计好了的，不会因为人类的套路而改变。把特定策略用于扑克游戏的想法让我无比痴迷，也是我持续研究的动力。」

有一篇关于 Pluribus 的新闻稿还对其驱动来源进行大肆宣传，因为它的硬件基础可以说是车库实验室级别的：一台 64 核服务器，加上不到 512 GB 的内存，夜以继日地工作了八天将这个 AI 开发出来。研究人员保守估算，使用云服务器对它进行充分训练仅需 150 美元。

但不要指望 Pluribus 会被投入各种虚拟棋牌室去完虐人类，或用来训练出一代人类棋牌高手，以每小时 1000 美元的速度疯狂敛财。布朗表示他们不会将 Pluribus 投入任何形式的商业用途，它只是某个观点的有力证明罢了，而且可以在日后被用来处理更为复杂的计算机操作，比如用在自动驾驶领域。

此处不得不提到某个经典的电子游戏类型，想必各位玩家都很熟悉了：赛车游戏中的驾驶员。这里头 CPU 需要处理的东西就更为复杂了，不但要考虑速度，还要计算出最优线路，以及给其它驾驶员预留多少空间等等。

「赛车游戏是这类 AI 运用的绝佳范例之一，因为这类游戏实现了多主体之间的交互，有多个玩家以及多层面信息要处理。」布朗若有所思地说，「据我所知，现在许多游戏 AI 用的技术都不是基于理论层面的，更像是硬编码，与特定游戏类型直接相关。因为这样他们更容易调试，也方便弄清原理。」

「但现在我们开发出了这些关键的 AI 技术，我相信这些技术将会慢慢渗入电子游戏产业，并成为其中非常重要的一环，」他补充道，「其实这也没什么好惊讶的，毕竟这是 AI 被被广泛应用的产业之一。」

原创文章，作者：棋牌游戏，如若转载，请注明出处：https://www.qp49.com/2019/09/20/2554.html

扑克机器人让人类见识到游戏 AI 的未来

相关推荐

一篇AI打麻将的论文，理科生眼中的麻将是这样的

德州农工大学开源RLCard：帮你快速训练会斗地主的智能体

发表回复