谷歌新AI在《星际争霸2》首秀：10比1大胜职业选-香港商報

首页 > > 24

谷歌新AI在《星际争霸2》首秀：10比1大胜职业选手

2019-01-25

来源：新浪科技

　　北京时间1月25日早间消息，今日凌晨，DeepMind与暴雪进行了联合直播，在直播中公布了谷歌最新AI程序AlphaStar与《星际争霸2》职业选手此前的比赛结果，名为“AlphaStar”的人工智能在与两位人类职业选手“TLO”和“MaNa”的比赛中，均以5比0取胜。

　　最后直播的一场比赛中，DeepMind限制了AlphaStar的游戏视角，并在没有测试的前提下与MaNa进行比赛，让人类终于赢了一场。最终总成绩定格在10-1。

　　这次比赛是在去年12月进行的。在与TLO的对决中，因为目前AlphaStar的训练只针对神族，所以它选择的是虫族，而TLO只能选择神族。TLO在5次对决中竭尽全力，可惜还是完败给AlphaStar。

AlphaStar 5-0 TLO

　　接下来，另一个AlphaStar代理挑战神族玩家MaNa。在一些对决中，双方旗鼓相当，但是AlphaStar还是5战全胜，零封MaNa。

AlphaStar 5-0 MaNa

　　而在最后直播的一场比赛中，MaNa再次与新的AlphaStar代理对决，这次MaNa终于赢了一场。DeepMind限制了AlphaStar的游戏视角，并在没有测试的前提下与MaNa进行比赛，因此让人类终于赢了一场。最终总成绩定格在10-1。

　　赛后TLO评价说：“在我们看来，MaNa打得不好，相信我，与AlphaStar这样的对手对决是一件很头痛的事，因为AlphaStar与人类完全不同，你之前没有碰到过这样的对手。AlphaStar给人留下深刻印象，的确是空前强大的游戏AI。”

　　在对战中，AlphaStar展示了惊人的微操技艺。它可以让受伤单元快速后撤，让满血单元前移。不只如此，AlphaStar还通过前进来控制战斗节奏，只有在适当的时候才后退，避免造成过大伤害。美国科技网站ExtremeTech指出，AI之所以能做到这一点，靠的不是高APM（手速），事实上，与人类相比，AlphStar的APM低很多，只是AI的决策更明智。

AlphaStar和职业选手APM比较

　　AI制定的一些战略决策相当有趣。例如，AI经常命令部队在坡道上冲锋，这样做很危险，因为向上冲时视野受限，不过AI的做法似乎很管用。还有，AlphaStar会用一堆建筑封住坡道，这种策略人类也经常使用，非常实用，AI会用这种方法保护自己的基地。

　　直到最后的直播比赛，人类才找到代理的一个缺陷。当时，AlphaStar代理调集几乎所有部队攻打MaNa的基地，MaNa将几个战斗单元传送到AlphaStar基地的后方，每次传送之后，AlphaStar都会让军队回头营救，这样MaNa就有了足够的时间扩张部队，反击AI。

　　最终，AlphaStar赢了职业玩家10次，只输了1次。ExtremeTech认为，如果AlphaStar能从最后一局中汲取教训，下一次将会无敌。

　　AlphaGo的首席作者大卫席尔瓦（Dave Sliver）同时也是AlphaStar团队的核心人物，在直播中分享了AlphaStar技术上的一些细节。不过直播中并未公布AlphaStar后续的正式比赛计划。

　　AlphaStar是一种卷积神经网络。研发团队用职业玩家的录像训练网络，然后借助对战模式，研究人员训练AlphaStar，教它如何打败人类。随着时间的推移，研究人员挑选出5个最好的“代理”，让它们与世界上了些最棒的《星际争霸2》玩家对决。这样训练出来的AlphaStar积累了相当于200多年的实践经验。

　　11月份，在Blizzcon大会上，DeepMind就曾表示，机器学习算法在游戏进行到大约一半时，就击败了疯狂难度的游戏内置AI工具。

　　现代竞技游戏相当复杂，《星际争霸》正是这样一款游戏。玩家需要瞬间做出决策，比如应该关注哪个区域。一般来说，在决策过程中涉及到不完全信息，也就是说你无法完全知道对手正在做什么，也不知道接下来会面对什么。

　　OpenAI的工程师唐杰（Jie Tang，音译）说：“这类实时战略游戏非常有趣，它是测试现代AI研究的好标准。”为什么这样说呢？有几个原因。首先就是“长期视野”，也就是做出决定、看到结果之间有着很长的时间。如果是国际象棋或者围棋，通过分析棋盘上的变化就能马上判断效果。

　　但《星际争霸》不太一样。唐杰说：“在一个小时的时间内，每一秒你都要做十个决定，所以有成千上万的举动你要考虑进去。所以你要好好分配，为什么我能赢得游戏？是不是因为我早早制造了矿工？这可是一个很难的问题。”

　　从《星际争霸1》到《星际争霸2》，20年来有许多人在网上玩游戏，积累了大量数据。如果是象棋或者围棋，数据没有那么丰富。

　　美国媒体Vox指出，在对决演示中，有些比赛持续的时间长一些，有时短一些，不过没有一盘持续时间超过半小时，所以我们还无法看到AlphaStar在后期对决中的表现，这点也向我们证明，暂时还没有谁能将AlphaStar拖入后期对决。

　　实际上，AlphaStar不完美的地方还很多。例如，有时AlphaStar会建造一些无用单位，有时还会陷入困惑，在一场比赛中，AI围着一个点来回游荡，漫无目地，评论员看不懂。有些工具本可以使用，便是AI没有用。无论怎样，最终AI还是打败了人类。

　　与TLO对决之后，DeepMind又将AlphaStar回炉，再次训练。经过14天的实时训练之后，AlphaStar回归，这次用联赛模式对决，它积累了200年的游戏经验，表现更加出色。在战术上，AI没有明显失误。对于人类观察者来说，AI的决定并非总是有意义，但它没有犯下明显错误。这次对手换成MaNa，他也没有犯下明显错误，但是AI合兵散兵的能力仍然技高一筹，最终拿下比赛。

　　唐杰说：“非常有趣，非常引人注目。有一样东西是我非常期待的，那就是战略对决机制。”一方面，AI要为游戏制定宏观策略，另一方面，AI要通过执行一系列糟糕的策略而获胜，在这两方面，AlphaStar都做得不错。唐杰说：“AlphaStar制定的高级策略与顶级人类玩家非常相似，另外，它的机制也很完美。”

　　在10次对决中，AI告诉我们它有一个巨大优势，这个优势是人类欠缺的：凡是地图上能看到的地方，AI都能一览无余，而人类必须依赖摄像头。

　　DeepMind正在训练新AlphaStar，让它也操纵摄像头。虽然最后一场AlphaStar输给了MaNa，不过新AI只训练了7天。最终AlphaStar会回到战场，向人类“复仇”。

　　早期AlphaStar有许多缺陷，这些缺陷与最初的AlphaGo有些相似。开始时AlphaGo也能赢，但是经常犯下人类可以察觉的错误。随着优化的继续，目前的AlphaZero不会再犯下人类可谓察觉的错误了。

　　很明显，AlphaStar仍然有很大的改进空间。AlphaStar之所以能战胜人类，主要还是因为它的微操控制更棒。AI经常利用侧面包抄和机动作战打败人类，之所以做到，靠的是单位控制，它一次可以指控5个战斗单元，人类做不到。还有，从游戏看来，AI无法制定出可以在职业世界广泛流行的策略，换言之，在制定最佳策略时，人类仍然胜过机器算法，AI只是寻找最适合自己的策略，将优势发挥出来。虽然AI的APM和响应时间仍然处在人类触及的范围，但是AI的操作精准度更高，所以它在人类面前仍然有优势，人类与AI对决，并不是很公平。

　　还有一点要说的是，对战5盘之后，MaNa会根据AlphaStar制定新策略，这是AI做不到的。

　　Vox认为，不论怎样，AI已经向我们证明，它知道如何佯攻，知道如何发动早期攻击，知道如何应对伏击，知道如何利用地形。这些都向我们证明：AI进步神速。

　　而ExtremeTech指出，人类一直认为，对于我们自己创造的游戏，人类才是真正的主宰，不过计算机一次又一次证明，它才是高手。谷歌DeepMind开发的算法已经在围棋上击败人类，现在又在《星际争霸2》获得成功。

[责任编辑：肖靜文]

网友评论