驼腰门户网站

您所在的位置:驼腰门户网站>综合>玩躲猫猫游戏 AI学会攻防术

玩躲猫猫游戏 AI学会攻防术

发布于:2019-11-18 13:57:25 点击:2351

资料来源:《科学技术日报》

尽管机器学习在围棋和dota 2等复杂游戏中取得了显著进步,但在这些领域掌握的技能未必能应用于真实场景。越来越多的研究人员正在寻求建立一种机器智能,使其行为、学习和进化更像人类。

总部位于旧金山的openai公司最近发表的一篇新论文指出,儿童“捉迷藏”游戏中的训练模型,以及在数千万场比赛中与它们竞争,可以导致模型自动发展类似人类的行为,从而提高智力和后续行动的表现。

你为什么选择捉迷藏?

论文的第一作者、开放人工智能研究员温柏·贝克认为,捉迷藏之所以被选为有趣的起点,主要是因为它的规则很简单。游戏中的所有代理(agent,也称为agent,指可以自主移动的软件或硬件实体)都被模拟为球形对象,可以执行三种类型的操作:导航、抓取和移动对象、锁定对象,并且只能由代理的队友解锁。

研究人员将1-3个“隐藏者”和1-3个“搜索者”置于模拟的物理接地环境中。房间的边界是一堵静止的墙。环境还包括不同尺寸的活动箱和活动坡道。

研究人员使用强化学习来训练游戏代理,并遵循简单的捉迷藏规则:隐藏的人成功逃脱追捕者,或者搜寻者成功找到隐藏的人。

人工智能如何玩捉迷藏?

在数亿个游戏之后,人工智能代理经历了几个战略发展阶段。

在最初阶段,隐藏者(蓝色)和探索者(红色)通过在空间移动而不操纵任何物体,做出了非常粗略的回避和追逐策略。

2500万回合后,游戏变得更加复杂。隐藏者学会了移动和锁定环境中的盒子和路障,在它们周围建造堡垒,这样搜索者就永远看不见它们了。不仅如此,他们还制定了协调战略,例如相互转移物体,以加快建造堡垒的进程。

然而,在7500万轮游戏后,搜索者发现了一个反策略。他们学会了移动藏身者堡垒旁边的斜坡,并用它爬过墙壁。

作为回应,隐藏者学会了将坡道移动到他们的房间,所以搜索者不能用它来穿越墙壁。

随着环境变得越来越复杂,隐藏者学会了用细长的盒子建造更坚固的“堡垒”。虽然openai认为这将是最终的策略,但当游戏进行到3.8亿回合时,探索者成功地再次反击,找到了一种跳到一个盒子上并带着能量“冲浪”的方法,穿过墙壁进入要塞。

在最后阶段,隐藏者学会了在建造堡垒之前锁定所有的箱子,以防止“箱子冲浪”。

研究者称这些不同策略的演变为“多智能体自动化课程中的紧急技能发展”“自动课程”一词是deepmind今年创造的,适用于在特定环境中逐渐创建新任务以相互挑战的多个代理。Openai研究人员认为这一过程在自然选择方面有相似之处。

为什么这项研究很重要?

由于捉迷藏是一个相对简单的目标,许多通过竞争性自我游戏训练的特工已经学会使用工具和与人类相关的技能来取胜。Openai认为,这为未来智能代理的开发和部署提供了一个有希望的研究方向。Openai正在开放其代码和环境,以鼓励在这一领域的进一步研究。

openai的最终目标是构建一个能够在一个公共系统中执行多项任务的人工通用智能(agi)。尽管可能有不同的目标,openai正在大力投资于由大规模计算能力实现的强化学习研究。Openai最近与微软签署了一份价值10亿美元的10年计算合同。

捉迷藏游戏的研究也启发了openai,因为随着环境的日益复杂,游戏中的代理通过新的策略不断地适应新的挑战。贝克说:“如果你扩展这样一个过程,并把它放到一个更复杂的环境中,那么你可能会得到足够复杂的代理来为我们解决实际任务。”

挑战在哪里?

游戏代理有时表现出惊人的行为。例如,隐藏者试图完全逃离游戏区域,直到研究人员实施惩罚。

其他挑战可能归因于模拟环境设计中的物理缺陷。例如,躲藏的人知道,如果他们把斜坡推向拐角处的墙,斜坡会以某种方式穿过墙消失。这种“欺骗”表明算法的安全性在机器学习中起着关键作用。研究人员说:“在事情发生之前,你永远不会知道。这样的系统总是有缺陷的。我们所做的基本上是观察,这样我们就可以看到这种奇怪的事情发生,然后尝试修复物理缺陷。”

快三娱乐网站 广西快乐十分开奖结果 广西快3投注