ag亚游网站ag亚游网站

ag亚游平台
ag亚游国际

腾讯AI*国王荣耀“绝对启蒙”项目首相露面:KPL秋季决赛击败顶级团队杀手

    编者按:本文摘自机器之心(ID:almosthuman 2014),授权复制36个氪。据《机器之心》报道,这是腾讯人工智能实验室和王正红首次在KPL秋季决赛中亮相。他们由前职业KPL选手陈桂、零学位和专业口译贝利、九天和李仁(平均水平超过99%)进行测试。最后,AI队赢了。这是继围棋人工智能之后腾讯人工智能在强化学习和强化学习领域的又一个前沿性研究。事实上,腾讯人工智能实验室一直在研究如何使用人工智能来战胜国王的荣耀。我们可以从一些论文和演讲中学到一些东西。今年5月,他们和匹兹堡大学的研究人员向ICML 2018顶级人工智能会议提交了一篇论文,在该会议上,人们在AlphaGo Zero中尝试了蒙特卡罗树搜索(MCTS)技术,并取得了良好的效果。那时候,AI只能扮演狄仁杰的英雄角色。几个月后,他们组成了一个“五人”团队,与国王部门的人类玩家来回地玩耍。然后问题出现了:国王光荣的前1%的球员有多强?作为一款流行的手机游戏,King Glory已经在线3年了。一些顶尖球员很早就成为国王了,但是他们中的大多数仍然被困在钻石和白金的狭长位置上。今年10月,腾讯官方统计了国王荣誉球员的分配比例:似乎能够和AI一起玩的游戏者至少需要达到“最强的国王”级别。以下是腾讯人工智能实验室在arXiv上传的最新论文“MOBA游戏人工智能的层次宏观战略模型”的内容:AlphaGo击败世界冠军Li Shimin向我们展示了一般人工智能的曙光(Silver等。2016)。从那时起,游戏人工智能不仅吸引了研究者的注意,也吸引了许多公众的注意。人工智能游戏的目的不仅仅是玩游戏的机器人。游戏为模拟现实世界提供了一个理想的环境。人工智能研究人员可以在游戏中进行实验,并将优秀的人工智能能力应用于现实世界。虽然AlphaGo是通用人工智能的一个里程碑,但是与现实世界相比,它解决的问题仍然非常简单。因此,最近研究人员更加关注RTS,如Dota(OpenAI 2018a)和Vinyals等。田等人2017年,涉及更复杂的问题。Dota是一个著名的幻想5v5多人在线战术竞争游戏(MOBA)。每个玩家控制一个英雄,和其他四个队友一起保护防御塔,攻击敌人的防御塔,通过杀死小兵来收集资源。他们的目标是摧毁敌人的基地。作为一个MOBA游戏,国王光荣包含防御塔,荒野地区,设备和其他机制。与围棋相比,RTS游戏的难度主要体现在四个方面:1)计算复杂度。RTS游戏动作空间和状态空间的计算复杂度可以达到10^20000,而Go的计算复杂度只有10^250(OpenAI 2018b)。2)多代理。RTS游戏通常包含多个代理。多代理之间的协调与合作至关重要。3)不完整的信息。不同于围棋,许多RTS游戏使用战争迷雾(Vinyals等。2017)增加游戏的难度。4)奖励稀疏和延迟。在围棋中,基于游戏奖励的学习的挑战是稀疏和延迟。RTS游戏通常长于20000帧,Go的每个游戏通常不超过361步。围棋和MOBA的计算复杂度比较:为了掌握RTS游戏,玩家必须具有强大的宏观策略操作和微观执行能力。在最近的研究中,大多数关注和研究都集中在微观执行上(Vinyals等。田等人2017;Synnaeve and Bessiere 2011;Wender and Watson 2012)。到目前为止,OpenAI开发的Dota2 AI使用强化学习,OpenAI Five已经取得了最先进的结果(OpenAI 2018a)。OpenAI 5通过最近的策略优化算法和团队奖励直接在微动作空间中训练(Schulman等人。2017)。在DOTA2018国际比赛中,OpenAI表现出了与顶级专业Dota2团队相比较强的团队战斗能力和合作意识。OpenAI方法没有显式地模拟宏观策略,而是使用微观操作来学习整个游戏。然而,由于宏观战略管理薄弱,OpenAI Five无法击败专业团队(Vincent 2018;Simonite 2018)。关于明确的宏观战略运作已经做了大量的研究,其中大部分集中在导航上。导航的目的是为代理提供合理的目的地和有效的路径。大多数导航研究使用影响图或潜在领域(DeLoura 2001;Hagelb CK和Johansson 2008;Nascimento Silva和Chaimowicz 2015)。力试图使用手工公式来量化元素。然后,使用规则合并多个力以提供单值输出来导航代理。就宏观战略运作而言,为代理商提供目的地是最重要的导航目的。在正确的时间到达正确的地方很重要,这也是高级球员和其他球员的区别。规划也用于宏观战略操作。Onton等人。建议使用反分层任务网络(AHTN)规划(Ontann和Buro 2015)搜索RTS游戏中的分层任务。虽然AHTN在迷你RTS游戏中显示出一定的应用前景,但是它存在效率问题,这使得直接应用AHTN来完成MOBA游戏变得困难。虽然文献很多,但以往关于宏观战略的研究未能提供完整的解决方案。首先,从微观行动空间层面进行学习,可能难以隐含地推断宏观策略。OpenAI Five在微观执行和宏观战略运作方面的能力差距明显。显然,这个模型过于乐观,以至于不能简单地通过观察微观行动和回报来提出高层次的策略。笔者认为,有必要建立明确的宏观战略模型。其次,以往对显式宏观策略的研究大多依赖手绘公式来计算和整合力图/势场。在实践中,通常有数千个参数需要手动确定,因此几乎不可能实现良好的性能。另一方面,规划方法不能满足完整的MOBA游戏的效率要求。第三,RTS博弈宏观策略运行中最具挑战性的问题之一是多主体之间的协调。然而,据笔者所知,以往的研究并没有明确考虑这一点。尽管OpenAI 5在微观建模中采用团队激励来考虑多Agent的协调,但是每个Agent在独立决策时并不考虑其队友的宏观战略决策,因此OpenAI 5很难在宏观战略层面发挥其最佳协调能力。最后,作者发现建模策略的阶段对MOBA游戏中人工智能的性能至关重要。然而,据我们所知,以前的研究也未能考虑到这一点。然而,教学主体学习宏观策略操作是相当具有挑战性的。首先,很难从数学上定义宏观战略,如围城和划分路线。此外,在OpenAI Five的增强学习框架(OpenAI 2018a)中添加宏策略需要相应的实现来获得奖励,但是学习宏策略操作本身是一个非常复杂的过程。因此,笔者认为,监督学习是一种较好的解决方案,因为它可以充分利用高质量游戏的回放来学习宏观策略和相应的实现实例。值得注意的是,通过监督学习获得的宏观策略和实施,可以进一步用作强化学习的初始策略。图1:(a)国王荣耀游戏界面。玩家使用左下角的虚拟键控制移动,右下角的键控制技能。玩家可以通过屏幕和左上角的小地图查看环境。(b) MOBA样本图。每个队有九个防守塔和一个基地。四个字段分别标记为1、2、3和4。MOBA AI宏观战略框架MOBA AI宏观战略模型的设计灵感来源于玩家的战略决策模式。在MOBA游戏中,经验丰富的人类玩家完全了解游戏的每个阶段,如启动、在线、游戏中途和游戏后期(Silva和Chaimowicz 2017)。在每个阶段,玩家注意游戏地图,并根据情况决定把英雄送到哪里。例如,在网上阶段,玩家将更多地关注他们自己的线路,而不是支持他们的队友。但是在游戏的中后期,玩家会更加注意团内的位置,并会向敌人的基地推进。宏观战略运作过程可以概括为“阶段识别->注意力预测->实施”。为了对这一过程进行建模,作者提出了一个两级的宏观战略框架,如阶段级和关注级:阶段级设计用来识别游戏的当前阶段,以便关注级能够更清楚地知道应该将注意力集中在哪里。注意力层是用来预测地图上派遣英雄的最佳位置。阶段层次和注意力层次为宏观实施提供高层次指导。建模的细节描述如下。宏模型的网络结构与OpenAI Five1(OpenAI 2018a)中使用的网络结构基本相同,只是前者是采用监督学习的方式。经过一些小的修改,作者将其应用到《国王的荣耀》中,比如删除Teleport。图2:层次化宏观战略模型的网络体系结构图4:(a)在阶段层次上建模的主要资源(即图中环绕的防御塔、基地、龙和暴君)。(b)给出示例来说明阶段层中的标签提取。图5:学习不同英雄角色的开放策略之一。红圈内的地区是最受欢迎的地区。图7:t分布在相层输出上的随机邻居嵌入。嵌入式数据样本根据不同的时间段进行着色。论文:MOBA游戏AI纸链接的层次宏观策略模型:https://arxiv.org/abs/1812.07887摘要:游戏AI的下一个挑战是RTS。实时战略游戏提供了可观察的游戏环境的一部分,其中代理之间的交互空间比围棋大得多。掌握实时战略游戏需要强大的宏观战略和精细的微观执行操作。近年来,我国在微观层面的实施取得了很大进展,但宏观战略仍缺乏完整的解决方案。本文提出了一种新的基于学习的层次化宏观策略模型,用于掌握RTS游戏的子类型MOBA(Multiplayer Online Tactical..)。通过层次化宏观战略模型的训练,主体可以明确宏观战略决策,进一步指导微观实施。此外,虽然新的模拟跨代理通信机制将用于与队友同时通信,但是每个代理将做出独立的战略决策。该模型在流行的5V5MOBA游戏中进行了综合评价。在与人类玩家团队(在玩家排名系统中排名第一的1%)的竞争中,由五个人工智能代理组成的团队获得了48%的获胜率。

欢迎阅读本文章: 樊友星

环亚游戏娱乐

ag亚游平台