• 主页 > 体育问答
  • 腾讯AILab绝悟WeKick版本获谷歌足球竞赛冠军的新进化

    朱乌(Juewu):我与瓜迪奥拉(Guardiola)执教的曼城“进行了一些交流”。

    从扮演荣耀之王到踢足球,腾讯AI实验室的启蒙运动最近再次发展。

    12月30日,首次Google Football Kaggle比赛正式结束。 Tencent AI实验室的Juewu Wekick版本在与世界顶级技术团队的比赛中以1785.8的总成绩赢得了冠军。

    这是Tencent AI的另一种新尝试,因为Tencent AI实验室共同开发的战略合作AI和国王的荣誉在今年11月底被升级为完整的机构。

    在11月28日至30日开放的手机游戏荣誉的有限时间内,玩家和AI可以在当前版本的游戏中选择几乎所有英雄,并接受5名玩家的挑战。在MOBA Games中,自我游戏的AI已无限地接近成熟。

    踢足球的比赛规则正规视频_踢足球视频无水印_踢足球比赛视频教程

    据报道,Juewu Wekick版本的整体设计基于Juewu的全身转移,并对足球比赛的特征进行了一些有针对性的调整,这表明了Juewu AI背后的深钢筋学习方法的一般能力。

    Google Kaggle足球比赛排名前10名,来自

    数据竞赛平台Kaggle是机器学习社区中的人们熟悉的。该平台成立于2010年,一直是世界上最大的数据科学界和竞争平台。足球AI比赛由Google Research和英超曼彻斯特城俱乐部共同组织。

    这自然是因为它极具挑战性:足球队的策略一直是一个问题,困扰着世界顶级的AI研究团队,其复杂性,多样性和困难。曼彻斯特城和Google提出的比赛是Kaggle首次出现在足球AI领域,为深入强化学习多代理技术竞争和基准评估提供了新的阶段。

    “足球是一个极其复杂的环境,很难学习规则。学习通常是一个试验和错误过程,但是在足球场上的失败很难接受。Google的虚拟环境向我们展示了测试战术概念和改进原则的好地方,足以让教练将他们付诸实践的经验。”

    踢足球比赛视频教程_踢足球视频无水印_踢足球的比赛规则正规视频

    该竞赛使用Google Research Football根据开源足球游戏足球开发了学习环境,并采用了常规的11到11人竞争系统。参与的团队需要控制一个代理商和十个内置代理商来组成一个团队,这看起来有点像参加FIFA和现场职业模式。比赛于今年9月启动,它就吸引了来自世界顶级大学和研究机构的1100多个团队参加挑战。

    考虑合作和对抗

    Google-football(在Kaggle)比赛中是由最受欢迎的足球运动建模的,而特工控制足球队中的一个或所有足球运动员,他们学习了如何在比赛之间传球并设法突破对手的防守进球。比赛规则类似于普通的足球比赛,其目标是将球踢入对手的进球,越位,黄牌和红牌规则。

    踢足球比赛视频教程_踢足球的比赛规则正规视频_踢足球视频无水印

    与普通足球视频游戏中的统一控制的NPC团队不同,在这场Kaggle比赛中,每个玩家都由一个独立的代理商控制,而参与的AI模型根据比赛情况控制了一个代理商,并与其他10个内置代理商合作。这就要求每个球员不仅需要观察对手的行为,而且需要注意自己的球员的状况,并且有一个非常复杂的团队协作和竞争策略来支持它。

    踢足球视频无水印_踢足球比赛视频教程_踢足球的比赛规则正规视频

    Wekick(黄色球衣)vs Saltyfish(本次比赛中的第二名)最近的游戏剪辑。

    例如,当对手的球员控制球时,特工不仅需要根据两名球员在球场上的分配位置来预测球员的下一个动作,而且还需要与其他球员合作,以抓住球而不会犯规。由于法院的动态正在迅速改变,因此还必须进行高速实时决策能力。

    此外,从头开始完全采用加强学习方法来培训完整的足球AI实际上很难。与持续存在实时学习信号(例如经济,血量和经验)的MOBA游戏不同,足球的游戏激励措施非常稀疏,只能依靠目标。调整奖励机制一直是强化学习领域面临的主要问题。

    Juewu AI的冠军路

    由于从Atari游戏,GO到Starcraft,Dota2等视频游戏的迅速发展,AI代理商在连续的迭代和进化中变得越来越强大,足球的团队策略是人工智能的最新目标。

    Juewu Wekick的版本首先使用强化学习和自我播放来从头开始训练模型,并部署了异步分布式增强学习框架。尽管异步体系结构在训练阶段牺牲了一些实时性能,但其灵活性得到了显着提高,并且还支持根据需要在培训过程中根据需要调整计算资源,以适应11个代理商的足球比赛训练环境。

    由于MOBA游戏和足球游戏任务目标的差异,Wekick版本采用了生成对抗模拟学习(GAIL)和人工设计奖励的组合,在功能和奖励设计方面扩展和创新。该方案利用一种生成的对抗训练机制适合国家行为的国家和行动分布,因此可以从其他团队中学到Wekick版本的Juewu。随后,研究人员将经过盖尔训练的模型作为固定对手进行进一步的自我游戏训练,进一步改善了策略的鲁棒性。

    踢足球的比赛规则正规视频_踢足球比赛视频教程_踢足球视频无水印

    盖尔的优点(Wekick的奖励设计结合了两种解决方案,奖励成型和盖尔)

    但是,通过自游戏增强学习获得的模型具有自然的劣势:很容易收敛到单一样式。在实际游戏结束时,单风格的“团队”很容易表现异常,因为看不到某种风格的比赛风格,这最终导致表现不佳。我们知道,在足球的发展已有100多年的发展中,有许多流行的策略:防守反击,全面进攻和所有防守,Tiki-Taka ...

    因此,为了提高策略的多样性和鲁棒性,朱乌(Juewu)还采用了联盟(几个策略池)多式增强学习培训计划,以完成多项式学习任务。

    踢足球视频无水印_踢足球的比赛规则正规视频_踢足球比赛视频教程

    该联盟多式增强学习培训计划的主要过程可以简单地总结为首先专门的,然后是合成。

    踢足球比赛视频教程_踢足球视频无水印_踢足球的比赛规则正规视频

    首先,训练具有一定程度的竞争技能的基本模型,例如运球,传球和切割以及射击。然后,基于基本模型训练多个风格化模型。每个模型都集中在一种样式游戏上。在样式化的模型培训期间,将定期将主要模型作为对手添加,以避免过度遵守风格和基本能力的丧失。

    最后,研究人员基于多个基本模型培训了一个主要模型。除了使用自己的历史模型作为对手外,主要模型还将定期添加所有风格化对手的最新模型,以确保主要模型可以适应具有完全不同风格的对手。

    腾讯的内部能力评分系统表明,加入对手池进行训练后,基于基本模型可以增加200分,比最强的风格化比赛高80分。

    最后,基于Juewu的完整体系结构转移,定制的框架改进,再加上关键的生成对手模拟学习(GAIL)方案和联赛(几个战略池)多式增强增强学习训练计划,Juewu比其他竞争AI团队获得了优势,并最终取得了冠军赛。

    踢足球视频无水印_踢足球的比赛规则正规视频_踢足球比赛视频教程

    Wekick在与Saltyfish的比赛中得分。

    Juewu Wekick版本在足球比赛中赢得了冠军,这意味着,在Juewu的完整物理升级后,其背后的深入强化学习解决方案训练了AI模型,该模型适应了复杂的足球场景,验证了Tencent Juewu AI的底层建筑和方法的普遍性。将来,该技术可以进一步开发并扩展到更真实且复杂的场景。

    据了解,Juewu团队的研究方向从足球比赛中的单个特工的控制加深到同时控制并协调11名特工。需要在现场控制的独立足球代理人的数量达到11,并且强化学习的困难将成倍增加。同时,由于足球代理商之间没有太大的差距,因此如何自动形成角色划分并激励不同角色之间的分配一直是强化多种特工的棘手问题。

    在Google Research Football League中,Google Ladder以前的5V5表格(多代理)比赛,Tencent Juewu团队也赢得了冠军,这表明了Juewu AI的巨大潜力。

    在足球场中,大数据分析和人工智能出现很早。人们经常听到的Prozone可以监视球员在球场上的相机中的每一步,使战术和训练更加精确。在西甲和英超联赛中,几乎所有球队都大规模使用这些技术。

    可以通过加强学习从头开始自我游戏还可以像GO一样为足球界带来前所未有的策略吗?这可能是我们将来可以期望的。

    ©结束

    版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请联系本站,一经查实,本站将立刻删除。如若转载,请注明出处:http://www.zjjkzy.com/html/tiyuwenda/7591.html

    加载中~

    相关推荐

    加载中~