现实世界的训练场 AI深度强化学习何时走出游戏

编辑:865棋牌下载 时间:2020-06-29 热度:7536℃ 来源:865棋牌下载 责编: 865棋牌下载

继一年前在 单挑 战胜全球顶级DOTA 2选手Dendi之后,OpenAI机构开发的AI系统于8月6日再下一城,在存在少量限制的条件下击败了由欧美DOTA 2主播以及职业选手代表人类玩家临时组成的队伍,五名玩家的平均实力超过了全球99.95%的DOTA 2玩家。

DOTA是一款在全球火爆了超过10年的电子竞技游戏,最多允许10名玩家操作10个不同的 英雄单位 进行5V5比赛。每年围绕该游戏举办的 DOTA 2国际邀请赛 也一直是全球奖金额度最高的电子竞技比赛,从2020年的TI 1至2020年的TI 7,其奖金额度从160万美元提升至2500万美元。

OpenAI是一家成立于2020年底的非营利人工智能研究公司,包括Elon Musk在内的投资人在成立之初承诺投资额达到10亿美元。OpenAI的DOTA 2 AI最早于2020年3月完成第一个强化学习成果,直至6月份才第一次击败了DOTA 2入门级玩家,但到了2020年8月的TI比赛期间,OpenAI在1V1表演赛中完胜了6名顶级职业玩家。

此次比赛之后,Elon Musk表示: OpenAI首次在电子竞技中击败世界顶级玩家,这远比围棋等更复杂。 其后不久,OpenAI又在难度远远超过1V1比赛的5V5比赛中取得进展,于2020年6月首次战胜业余玩家。OpenAI的目标是参加即将举办的TI8赛事,不过,OpenAI在官网表示并没有必胜信心。

深度强化学习 偏爱 游戏

2020年,DeepMind公司发表了Deep Q Network,并在Atari游戏中取得了超越人类专家玩家的表现,这种结合了深度学习、强化学习的深度强化学习开始成为人工智能在连续、动态、复杂场景中的主流算法。发生几个月之后,Google以6亿美元收购了这家初创公司。

与语音识别、人脸识别中的深度学习算法不同,深度强化学习主要应用于各种连续空间、连续动作场景中的决策控制,且被视为实现通用人工智能的一条康庄大道。

Alpha GO是目前深度强化学习算法中第一个被广为人知的成就。而在Alpha Go掀起人工智能热潮之后,游戏圈玩家就开始讨论 人工智能是否能战胜游戏玩家? 结论几乎一边倒,玩家普遍关注 AI没有任何延迟的反应速度 、 对于技能、距离的把握 、 每秒操作速度远超选手 等等机器特点。

但事实上,科技巨头反而会抛弃这些优势。比如,OpenAI在DOTA 2中将机器人的 地图视野 、 每秒操作数APM 、 反应速度 均设定为玩家正常水准,重要的是,让AI能够学习到像玩家一样的 决策能力 ,并且依靠决策、推理取胜。

在2020年的1V1表演赛期间,OpenAI的机器人通过与顶尖选手对决,学会了 残血勾引 、 反勾引 、 卡视野 等细节战术,甚至,机器人还能开发出玩家从未使用过的冷门战术。此外,微软公司也通过目前最畅销的游戏《我的世界》去训练人工智能,大部分自动驾驶企业通过《侠盗猎车手》游戏去训练人工智能的停车、应变能力。

转载请注明:“ 转载地址:/faxian/20200629/8073.html ”。